Há nove anos, o CEO do Google, Sundar Pichai, prometeu pela primeira vez que a inteligência artificial tornaria a informação «universalmente acessível» a todos, independentemente do idioma.
Desde então, ele tem repetido essa promessa, alimentando as expectativas em todo o mundo de que a tecnologia finalmente superaria as barreiras linguísticas e proporcionaria acesso igualitário ao conhecimento para todos.
No entanto, para aqueles que falam qualquer um dos mais de 2000 idiomas da África, essa promessa continua distante.
Milhões de pessoas em todo o continente ainda consideram que as ferramentas avançadas de IA que estão a transformar a agricultura, a educação e a vida quotidiana não conseguem compreender ou comunicar nas suas próprias línguas.
De acordo com uma investigação, o ChatGPT — que tem 800 milhões de utilizadores ativos semanais em todo o mundo — reconhece apenas 10 a 20% das frases escritas em hausa, língua falada por mais de 94 milhões de nigerianos.
O mesmo se aplica a outras línguas africanas amplamente faladas, como ioruba, igbo, suaíli e somali, todas elas gravemente sub-representadas nos modelos de IA convencionais, apesar de terem dezenas de milhões de falantes.
Mas por que razão tantas línguas africanas têm sido ignoradas pelas ferramentas de IA mais poderosas da atualidade e o que é que isso revela sobre quem molda o futuro digital?
Línguas com «baixos recursos»
Uma das principais e mais importantes razões para a exclusão das línguas africanas da IA é o que os investigadores chamam de problema dos «baixos recursos».
Neste contexto, «baixos recursos» refere-se à escassez de materiais online, como sites, livros e transcrições disponíveis nessas línguas.
Como a maioria dos grandes modelos linguísticos (LLMs) depende de enormes volumes desses dados digitais para aprender e gerar texto, a grande maioria desses dados está em inglês (alto recurso) ou em algumas outras línguas globais amplamente faladas no Ocidente.
«A nossa medida de progresso e agenda de investigação baseia-se no que funciona para as línguas ocidentais», afirma Hellina Hailu Nigatu, investigadora de PLN focada em línguas com poucos recursos na Universidade da Califórnia, em Berkeley.
A falta de dados de treino faz com que modelos de IA como o ChatGPT ou o Gemini tenham dificuldade em reconhecer, gerar ou mesmo «ver» de forma significativa as línguas africanas, independentemente do número de pessoas que as falam.
«As línguas africanas são classificadas como "de poucos recursos" e geralmente são excluídas ou, mesmo quando incluídas, os sistemas têm um desempenho ruim com elas», diz ela à TRT World.
Esse sistema de classificação que divide as línguas do mundo em categorias de «muitos recursos» e «poucos recursos» tornou-se a estrutura preferida da indústria para discutir essa disparidade.
Incentivos comerciais, preconceito sistémico e questão de custos
Outra razão para a sub-representação são as prioridades da investigação e desenvolvimento global em IA.
Estudos mostram que os resultados dos grandes modelos linguísticos (LLM) tendem a refletir «estereótipos ocidentais».
Os padrões são definidos principalmente por empresas tecnológicas e instituições académicas ocidentais, que se concentram nas línguas com maior presença online e direcionam a maior parte do financiamento para um pequeno grupo de línguas «de alto recurso».
Como resultado, as línguas africanas raramente são priorizadas para investimento ou inovação.
Os incentivos comerciais também desempenham um papel importante. Como os retornos económicos imediatos dos mercados de línguas africanas são limitados, as empresas têm pouca motivação para dedicar tempo e recursos à melhoria do suporte de IA para essas línguas.
Este preconceito estrutural é reforçado pelos conjuntos de dados usados para treinar modelos de IA.
Mesmo quando as línguas africanas são incluídas, os sistemas muitas vezes adotam pressupostos culturais ocidentais, às vezes deturpando os contextos locais ou perpetuando estereótipos.
As conclusões estão em consonância com pesquisas mais amplas sobre o viés algorítmico.
«O que vemos nas pesquisas é que a adoção de LLMs para vários idiomas sem uma análise cuidadosa corre o risco de importar preconceitos do inglês para esses contextos multilíngues ou de ignorar noções contextuais de preconceito que não existem no inglês», afirma Nigatu.
Há também um desafio técnico na forma como os modelos de IA processam o texto, o que coloca muitas línguas africanas em desvantagem adicional.
Pesquisas descobriram que usar scripts não latinos em ferramentas populares de IA custa mais do que usar inglês ou francês.
Isso ocorre porque o software divide as frases em partes menores chamadas “tokens” e são necessários mais tokens para escrever a mesma frase em idiomas que não usam o alfabeto latino.
Isso significa que os utilizadores que menos podem pagar acabam pagando mais para processar a mesma quantidade de texto e, muitas vezes, recebem resultados menos confiáveis.
Nigatu salienta que estas barreiras refletem desigualdades enraizadas sobre quem está a moldar estes sistemas em primeiro lugar.
Como ela salienta, é muito importante «quem está a fazer a investigação, ou seja, qual é o envolvimento dos falantes destas línguas no que é feito para a sua língua».
A autodeterminação digital de África
Neste contexto de exclusão sistemática, está a ser levada a cabo uma iniciativa inovadora para a representação das línguas africanas na inteligência artificial.
O projeto African Next Voices, financiado por uma bolsa de 2,2 milhões de dólares da Fundação Gates, representa a maior iniciativa de criação de dados linguísticos preparados para IA para várias línguas africanas até à data.
Em vez de esperar pela atenção de Silicon Valley, os investigadores de todo o continente tomaram o assunto nas suas próprias mãos.
Especialistas em línguas já gravaram 9000 horas de fala em 18 línguas na Nigéria, Quénia e África do Sul, transformando essas gravações em conjuntos de dados digitalizados que os programadores podem incorporar em grandes modelos linguísticos.
A primeira parte desses dados, divulgada este mês, marca um momento decisivo na democratização do desenvolvimento da IA.
«É realmente emocionante ver as melhorias que isso trará para a modelagem desses idiomas específicos e como também ajudará toda a comunidade que trabalha com tecnologias linguísticas para a África», diz Ife Adebara, diretor de tecnologia da organização sem fins lucrativos Data Science Nigeria, que co-lidera a ala nigeriana do projeto.
A sua equipa concentra-se em línguas como o hausa, o ioruba, o igbo e o naija, faladas coletivamente por centenas de milhões de pessoas, mas praticamente ausentes dos principais sistemas de IA.
A metodologia por trás do African Next Voices revela uma abordagem fundamentalmente diferente para a recolha de dados linguísticos. Em vez de extrair conteúdo digital existente, como fazem as empresas de tecnologia ocidentais, os investigadores interagem diretamente com diversas comunidades.
Lilian Wanzare, linguista computacional da Universidade Maseno, no Quénia, que lidera a componente queniana, explica como a sua equipa mostra imagens a indivíduos e lhes pede que descrevam o que vêem nas suas línguas nativas, incluindo dholuo, kikuyu, kalenjin, maasai e somali.
A sua abordagem prioriza o uso autêntico e cotidiano da língua em detrimento de textos formais ou literários.
«Há um grande impulso em direção a conjuntos de dados localizados, porque o impacto está em capturar as pessoas dentro dos seus contextos locais», diz Wanzare.
Na África do Sul, Vukosi Marivate, cientista da computação da Universidade de Pretória, lidera os esforços para recolher dados para sete idiomas – incluindo setswana, isiZulu, isiXhosa, sesotho, sepedi, isiNdebele e tshivenda.
A sua equipa trabalha com um consórcio de organizações para criar modelos de linguagem de IA que as empresas de tecnologia possam aperfeiçoar.
Para além das conquistas técnicas, a African Next Voices incorpora uma mudança filosófica na forma como o desenvolvimento da IA deve prosseguir.
Enquanto muitas empresas de tecnologia tratam as línguas africanas como algo secundário, a ser abordado apenas após a saturação dos mercados lucrativos, esta iniciativa posiciona-as como temas principais, dignos de recursos e conhecimentos especializados dedicados.
A documentação da metodologia do projeto será partilhada juntamente com os dados, permitindo que investigadores de outros locais repliquem este trabalho para outras línguas marginalizadas a nível global.
Organizações como a Masakhane já construíram redes sólidas focadas no processamento de linguagem natural, mostrando o que é possível quando as línguas africanas são desenvolvidas por africanos, para africanos.
Ao tomarem a iniciativa, estas comunidades estão a mostrar que o futuro da inteligência artificial pode ser moldado nos seus próprios termos, em vez de esperar que Silicon Valley decida quem tem voz.










