Como a IA está correndo para salvar as línguas moribundas do mundo

Tendências·5 min de leitura
Open book with handwritten text on a wooden desk

Doris Lamar-McLemore tem 83 anos e é uma dos menos de 20 falantes fluentes de Potawatomi, uma língua algonquiana que já foi falada na região dos Grandes Lagos. Durante décadas, ela gravou vocabulário, histórias e linguagem cerimonial com a Nação Cidadã Potawatomi, sabendo que o tempo está se esgotando.

Agora ela está trabalhando com uma equipe de cientistas da computação da Universidade de Oklahoma que está usando suas gravações para treinar um modelo de linguagem de IA, que pode gerar guias de pronúncia, criar aulas interativas e até mesmo manter conversas básicas em Potawatomi.

"Nunca pensei que um computador pudesse falar a minha língua", disse Lamar-McLemore. "Mas se isso ajuda meus netos a aprender as palavras, ficarei feliz em ensiná-lo."

A história dela está na interseção de duas forças poderosas: a extinção acelerada da diversidade linguística mundial e o rápido amadurecimento das ferramentas de IA que podem ser capazes de desacelerá-la.

Uma catástrofe silenciosa

Das cerca de 7.000 línguas faladas hoje na Terra, os linguistas estimam que quase metade ficará em silêncio até o final do século. A UNESCO classifica mais de 2.500 línguas como ameaçadas, e uma língua morre aproximadamente a cada 14 dias, geralmente quando seus últimos falantes idosos morrem sem tê-la transmitido à próxima geração.

As causas são familiares: colonização, assimilação forçada, urbanização e a atração gravitacional das línguas dominantes na educação, na mídia e no comércio. As consequências são menos compreendidas, mas profundas. Cada idioma codifica um conhecimento único sobre ecologia, medicina, organização social e cognição humana. Quando uma língua morre, esse conhecimento vai junto.

"Uma língua não é apenas um sistema de comunicação. É toda uma visão de mundo", disse o Dr. Lyle Campbell, linguista da Universidade do Havaí. "Perder um idioma é como perder uma biblioteca que nunca foi catalogada."

O kit de ferramentas de IA

O desafio da preservação da língua tem sido historicamente um dos recursos. Documentar uma língua de forma suficientemente completa para apoiar a revitalização requer milhares de horas de gravação, transcrição e análise – trabalho que tradicionalmente tem sido feito por um punhado de linguistas acadêmicos subfinanciados.

A IA está comprimindo drasticamente esse cronograma. Os sistemas automáticos de reconhecimento de fala, antes úteis apenas para as principais línguas do mundo, podem agora ser treinados em conjuntos de dados relativamente pequenos para transcrever línguas ameaçadas de extinção com maior precisão. Ferramentas de processamento de linguagem natural podem analisar estruturas gramaticais e gerar materiais didáticos. E os sistemas de conversão de texto em fala podem produzir áudio em idiomas que não possuem indústria fonográfica comercial.

O projeto mais ambicioso nessa área é o Endangered Languages Project, uma colaboração entre o Google, o Conselho Cultural dos Primeiros Povos e dezenas de organizações indígenas em todo o mundo. O projeto construiu modelos de IA para mais de 150 idiomas ameaçados e fornece ferramentas gratuitas para as comunidades criarem dicionários, planos de aula e aplicativos interativos.

O controle da comunidade não é negociável

O aspecto mais sensível deste trabalho não é tecnológico, mas ético. As comunidades indígenas têm sido sujeitas há muito tempo a práticas de investigação extractiva, nas quais académicos externos estudavam as suas línguas e culturas sem consentimento significativo ou partilha de benefícios. A história da linguística está repleta de exemplos de pesquisadores que publicaram gramáticas e dicionários que as comunidades nunca quiseram que fossem tornados públicos.

A IA amplifica essas preocupações. Os dados linguísticos inseridos em modelos de aprendizado de máquina podem ser difíceis de controlar, e as comunidades se preocupam com o fato de a linguagem sagrada ou cerimonial ser disponibilizada a pessoas de fora ou comercializada sem permissão.

Os projetos mais bem-sucedidos colocaram o controle comunitário no centro. A Comissão da Língua Maori na Nova Zelândia desenvolveu a sua própria ferramenta de transcrição de IA, Te Hiku Media, com disposições explícitas de soberania de dados, garantindo que todos os dados linguísticos permaneçam sob propriedade Maori. A ferramenta transcreveu milhares de horas de mídia em língua maori e agora está sendo adaptada para outras línguas do Pacífico.

"Os dados são nossos. A linguagem é nossa. A tecnologia deve nos servir, e não o contrário", disse Keoni Mahelona, cofundador da Te Hiku Media.

Da documentação à revitalização

A documentação por si só não salva um idioma. A revitalização – fazer com que as pessoas falem realmente essa língua na vida quotidiana – requer um esforço comunitário sustentado, infra-estruturas educativas e vontade política. As ferramentas de IA são cada vez mais projetadas com esse objetivo em mente.

O Duolingo agora oferece cursos de havaiano, navajo e iídiche, desenvolvidos em parceria com programas de idiomas comunitários. Uma startup chamada Anki Languages criou aplicativos de conversação imersivos para Cherokee, Ojibwe e vários idiomas aborígenes australianos, usando diálogos gerados por IA revisados e aprovados por falantes mais velhos.

No Canadá, o governo federal destinou 450 milhões de dólares ao longo de cinco anos para a revitalização das línguas indígenas no seu orçamento de 2024, com uma parcela significativa destinada ao desenvolvimento tecnológico. Várias comunidades das Primeiras Nações usaram o financiamento para construir ninhos de linguagem alimentados por IA – programas imersivos para a primeira infância onde as crianças são cercadas pela sua língua ancestral através de falantes humanos e ferramentas digitais.

Uma corrida contra o tempo

É difícil exagerar a urgência. Muitas línguas ameaçadas têm menos de 100 falantes, quase todos idosos. Cada mês que passa sem uma documentação abrangente reduz a janela para as ferramentas de IA aprenderem com falantes fluentes.

Mas há razões para um otimismo cauteloso. A combinação da determinação da comunidade, da melhoria da tecnologia e do crescente apoio institucional criou um momento de possibilidades que não existia há cinco anos. A questão é se esse momento será aproveitado antes que o silêncio se torne permanente.

Partilhar

Artigos Relacionados