IA está nos ensinando mais sobre nós do que imaginávamos?

IA está nos ensinando mais sobre nós do que imaginávamos?
Publicado em 17/01/2025 às 5:30

Aprender um idioma pode parecer simples — afinal, todos os bebês do mundo conseguem dominar essa tarefa em poucos anos. No entanto, compreender os processos que possibilitam essa aprendizagem é uma questão muito mais complexa.

Embora linguistas tenham proposto teorias elaboradas sobre o assunto, os avanços recentes em aprendizado de máquina lançaram nova perspectiva sobre o tema, gerando debates intensos entre estudiosos e desenvolvedores de inteligência artificial (IA).

Modelos de linguagem estão realmente aprendendo?

Os modelos de linguagem, como o ChatGPT, são criados para prever palavras e formar frases coerentes com base em enormes bases de dados textuais. Mas, segundo especialistas, isso não significa que eles estão “aprendendo” uma língua da mesma maneira que humanos.

Mesmo que façam algo que pareça com o que um humano faz, eles podem estar fazendo isso por razões completamente diferentes,” disse Tal Linzen, linguista computacional da Universidade de Nova York (EUA), à Quanta Magazine.

Essa diferença não é apenas uma questão de semântica. Se os modelos realmente aprendem linguagens, pode ser necessário reformular teorias linguísticas tradicionais. Por outro lado, se os modelos estão apenas simulando superficialmente a aprendizagem, o aprendizado de máquina pode não oferecer insights significativos para a linguística.

Mãos de robô e humana apontando para uma tela de notebook
Modelos de linguagem são criados para prever palavras e formar frases coerentes com base em enormes bases de dados textuais; especialistas dizem que isso não significa que eles estão “aprendendo” uma língua da mesma maneira que humanos (Imagem: NikOStudio/Shutterstock)

Chomsky e a crítica aos modelos de linguagem

Noam Chomsky, um dos maiores nomes da linguística, é um crítico notável dessa tecnologia. Em artigo de opinião publicado em 2023 no The New York Times, Chomsky argumentou que os modelos de linguagem não têm relevância para a linguística, afirmando que eles conseguem aprender até mesmo “línguas impossíveis” — aquelas com regras gramaticais que não existem em nenhuma língua humana conhecida.

Essa crítica foi desafiada por um grupo de linguistas computacionais em estudo inovador apresentado na conferência de 2024 da Associação de Linguística Computacional.

O trabalho, intitulado “Mission: Impossible Language Models” (“Missão: Modelos de Linguagem Impossível”, em tradução livre) e publicado no servidor de pré-impressão ArXiv, mostrou que os modelos de linguagem têm mais dificuldade em aprender línguas impossíveis do que línguas humanas.

Adele Goldberg, linguista da Universidade de Princeton (EUA), elogiou o estudo: “É absolutamente oportuno e importante.

Teoria Universal de Chomsky

Durante o século XX, a linguística passou de catalogar idiomas para tentar compreender a estrutura universal por trás deles. Chomsky liderou esse movimento ao propor que humanos possuem capacidade inata e especializada para processar línguas. Essa habilidade inata explicaria, por exemplo, porque algumas regras gramaticais nunca aparecem em idiomas humanos.

De acordo com Chomsky, se o aprendizado de línguas fosse como outros tipos de aprendizado, não haveria preferência por certas regras gramaticais. Contudo, a existência de um sistema especializado justificaria essa predisposição.

“Não faz sentido dizer que os humanos têm predisposição para aprender certas coisas sem reconhecer que também têm predisposição para não aprender outras,” afirmou Tim Hunter, linguista da Universidade da Califórnia, em Los Angeles (EUA).

Leia mais:

Mão organizando letras em ordem alfabética em cima de uma mesa
Chomsky argumentou que os modelos de linguagem não têm relevância para a linguística (Imagem: MAYA LAB/Shutterstock)

Revolução dos modelos de linguagem

  • Os modelos de linguagem funcionam com base em redes neurais, que processam dados por meio de conexões ajustáveis;
  • Durante o treinamento, esses modelos aprendem a prever a próxima palavra em uma frase com base em enormes volumes de texto;
  • Embora sua fluência impressione, a quantidade de dados que utilizam supera em muito a exposição linguística de qualquer ser humano;
  • “Modelos de linguagem são as primeiras ferramentas que podemos experimentar de forma intervencionista, algo que não podemos fazer com bebês humanos,” destacou Isabel Papadimitriou, linguista computacional da Universidade de Harvard (EUA);
  • No entanto, os modelos ignoram as estruturas complexas das línguas humanas. “Você está apenas dizendo: ‘Já vi essas palavras, o que vem a seguir?’ — uma abordagem muito linear para algo tão intrincado como a linguagem,” afirmou Jeff Mitchell, linguista computacional da Universidade de Sussex (Inglaterra).

Os experimentos recentes com linguagens impossíveis trouxeram resultados fascinantes. Em 2020, Jeff Mitchell e Jeffrey Bowers criaram três línguas artificiais com regras gramaticais bizarras para testar a capacidade dos modelos. Os resultados indicaram que os modelos conseguiam aprender essas línguas quase tão bem quanto o inglês.

Mas, em 2023, Julie Kallini, estudante de pós-graduação da Universidade de Stanford (EUA), decidiu testar essa hipótese com os modernos modelos baseados em transformers. Sua equipe criou 12 línguas impossíveis, incluindo variações, como frases invertidas ou regras de concordância verbal baseadas em caracteres posicionados quatro palavras depois do verbo.

Os modelos enfrentaram dificuldades em aprender essas línguas artificiais, confirmando que, embora poderosos, não são onipotentes. Como esperado, eles aprendem padrões mais próximos das línguas humanas com maior facilidade.

Nomes de idiomas flutuando acima de um tablet nas mãos de um homem
modelos enfrentaram dificuldades em aprender essas línguas artificiais, confirmando que, embora poderosos, não são onipotentes (Imagem: mayam_studio/Shutterstock)

Futuro da linguística e da IA

Os resultados indicam que os modelos de linguagem possuem preferências por certos padrões linguísticos, similares aos humanos, mas não idênticos. Isso abre caminhos para novas investigações. “É isso que realmente gosto no artigo,” disse Ryan Nefdt, filósofo da ciência cognitiva. “Ele abre tantas possibilidades de pesquisa.”

A equipe de Kallini já está trabalhando em estudo de sequência, chamado informalmente de “Missão: Impossível 2”. O objetivo é explorar como alterações nas redes neurais podem aprimorar ou dificultar o aprendizado de padrões impossíveis.

O debate sobre o papel dos modelos de linguagem na linguística está longe de terminar, mas uma coisa é certa: a colaboração entre humanos e máquinas tem potencial para desvendar os mistérios do aprendizado linguístico e transformar nossa compreensão sobre a capacidade mais fundamental da humanidade: a linguagem.