Um grupo de pesquisadores criou um modelo de linguagem maior que o GPT-3 e vai disponibilizar gratuitamente.

Dentro do centro de supercomputação do Centro Nacional de Pesquisa Científica (CNRS), nos arredores de Paris, várias fileiras do que parecem ser geladeiras pretas zumbem a 100 decibéis ensurdecedores. Quando se trata de Inteligência Artificial (IA), isso é o mais próximo de um show de rock que se pode chegar.

Elas fazem parte de um supercomputador que passou 117 dias preparando um novo modelo de linguagem grande (LLM) chamado BLOOM. Os criadores deste novo modelo esperam que ele represente uma mudança radical da maneira como a IA é desenvolvida normalmente.

Ao contrário de outros modelos de linguagem grandes mais famosos, como o GPT-3 do OpenAI e o LaMDA do Google, o BLOOM (que significa BigScience Large Open-science Open-access Multilingual Language Model) foi projetado para ser o mais transparente possível, com pesquisadores compartilhando detalhes sobre os dados em que foi treinado, os desafios em seu desenvolvimento e a forma como avaliaram seu desempenho. A OpenAI e o Google não compartilharam seu código ou disponibilizaram seus modelos ao público, e pesquisadores externos têm muito pouco entendimento de como esses modelos são treinados. O BLOOM foi criado no ano passado por mais de 1.000 pesquisadores voluntários em um projeto chamado BigScience, que foi coordenado pela startup de IA, a Hugging Face,

usando financiamento do governo francês. Ele foi lançado oficialmente em 12 de julho. Os pesquisadores esperam que o desenvolvimento de um LLM de acesso aberto que funcione tão bem quanto outros modelos líderes leve a mudanças duradouras na cultura do desenvolvimento de IA e ajude a democratizar o acesso à tecnologia de ponta para pesquisadores em todo o mundo.

A facilidade de acesso do modelo é seu maior atrativo. Desde que foi publicado, qualquer um pode baixá-lo e usá-lo gratuitamente no site da Hugging Face. Os usuários podem escolher entre uma variedade de idiomas e enviar solicitações para que o BLOOM realize tarefas como escrever receitas ou poemas, traduzir ou resumir textos ou escrever código de programação. Os desenvolvedores de IA podem usar o modelo como base para criar seus próprios aplicativos.

Com 176 bilhões de parâmetros (variáveis que determinam como os dados de input são transformados no output desejado), é maior que o GPT-3 de 175 bilhões de parâmetros da OpenAI, e a BigScience afirma que oferece níveis semelhantes de precisão e toxicidade como outros modelos do mesmo tamanho. Para idiomas como espanhol e árabe, o BLOOM é o primeiro grande modelo desse tamanho.

Mas mesmo os criadores do modelo alertam que ele não resolverá os problemas profundamente arraigados em torno dos grandes modelos de linguagem, incluindo a falta de políticas adequadas sobre governança e privacidade de dados e a tendência dos algoritmos de cuspir conteúdo tóxico, como linguagem racista ou sexista.

Ao ar livre

Grandes modelos de linguagem são algoritmos de deep learning treinados em grandes quantidades de dados. Eles são uma das áreas mais quentes da pesquisa de IA. Modelos poderosos como GPT-3 e LaMDA, que produzem texto que parece ter sido escrito por um humano, têm um enorme potencial para mudar a maneira como processamos informações online. Eles podem ser usados como chatbots ou para pesquisar informações, moderar conteúdo online, resumir livros ou gerar passagens de texto totalmente novas com base em prompts. Mas eles também estão cheios de problemas. Basta um pequeno estímulo para que esses modelos comecem a produzir conteúdo nocivo.

Os modelos também são extremamente exclusivos. Eles precisam ser treinados em grandes quantidades de dados usando muito poder computacional, o que é caro, e algo que apenas grandes empresas de tecnologia (e principalmente americanas) como o Google podem pagar.

A maioria das grandes empresas de tecnologia que desenvolvem LLMs de ponta restringe seu uso por pessoas de fora e não divulgam informações sobre o funcionamento interno de seus modelos. Isso torna difícil responsabilizá-las. É esse cenário que os pesquisadores que trabalham no BLOOM esperam mudar.

A Meta já deu alguns passos para longe do status quo: em maio de 2022, a empresa lançou seu próprio modelo de linguagem grande, Open Pretrained Transformer (OPT-175B), juntamente com seu código e um diário de bordo detalhando como o modelo foi treinado.

Mas o modelo do Meta está disponível apenas mediante solicitação e possui uma licença que limita seu uso para fins de pesquisa. A Hugging Face vai um passo além. As reuniões que detalham seu trabalho ao longo do ano passado foram gravadas e enviadas on-line, e qualquer pessoa pode baixar o modelo gratuitamente e usá-lo para pesquisas ou para construir aplicativos comerciais.

Um grande foco da BigScience foi incorporar considerações éticas no modelo desde o início, em vez de lidar com elas posteriormente. Os LLMs são treinados em toneladas de

dados coletados da Internet. Isso pode ser problemático, porque esses conjuntos de dados incluem muitas informações pessoais e geralmente refletem vieses perigosos. Para resolver esta questão, o grupo desenvolveu estruturas de governança de dados especificamente para LLMs cujo objetivo é deixar mais claro quais dados estão sendo usados e a quem pertencem. Como resultado, foram obtidos diferentes conjuntos de dados de todo o mundo que estão disponíveis online, mas não prontos para serem utilizados. O grupo também está lançando uma nova Licença de IA Responsável, que funciona como uma espécie de acordo de termos de serviço. Ela foi projetada para impedir o uso do BLOOM em setores de alto risco, como segurança pública ou assistência médica, ou para prejudicar, enganar, explorar ou se passar por pessoas. A licença é um experimento de auto-regulação de LLMs até que as leis se atualizem para este novo cenário, diz Danish Contractor, pesquisador de IA que se voluntariou no projeto e co-criou a licença. No entanto, não há nada que realmente impeça alguém de abusar do BLOOM.

O projeto teve suas próprias diretrizes éticas desde o início, que funcionaram como princípios orientadores para o desenvolvimento do modelo, diz Giada Pistilli, especialista em ética da Hugging Face, que redigiu o código de ética da BLOOM. Por exemplo, houve uma ênfase no recrutamento de voluntários de diversas origens e locais, garantindo que pessoas de fora possam reproduzir facilmente as descobertas do projeto e divulgando seus resultados abertamente.

Todos a bordo

Essa filosofia se traduz em uma grande diferença entre o BLOOM e outros LLMs disponíveis hoje: o grande número de linguagens humanas que o modelo pode entender. Ele pode lidar com 46 deles, incluindo francês, vietnamita, mandarim, indonésio, catalão, 13 idiomas índicos (como hindi) e 20 idiomas africanos. Pouco mais de 30% de seus dados de treinamento estavam em inglês. O modelo também entende 13 linguagens de programação.

Isso é altamente incomum no mundo dos grandes modelos de linguagem, onde o inglês domina. Essa é outra consequência do fato de que os LLMs são construídos a partir da extração de dados da internet: o inglês é o idioma mais usado online.

A razão pela qual o BLOOM conseguiu melhorar essa situação é que a equipe reuniu voluntários de todo o mundo para construir conjuntos de dados adequados em outros idiomas, mesmo que eles não estivessem tão bem representados online. Por exemplo, a Hugging Face organizou workshops com pesquisadores africanos de IA para tentar encontrar conjuntos de dados, como registros de uso por autoridades locais ou meios acadêmicos, que poderiam ser usados para treinar o modelo em línguas africanas, diz Chris Emezue, estagiário da Hugging Face e pesquisador da Masakhane, uma organização que trabalha no processamento de linguagem natural para línguas africanas.

Incluir tantos idiomas diferentes pode ser uma grande ajuda para pesquisadores de IA em países mais pobres, que muitas vezes lutam para obter acesso ao processamento de linguagem natural porque usa muito poder de computação caro. O BLOOM permite que eles ignorem a parte cara de desenvolver e treinar os modelos para se concentrar na criação de aplicativos e no refinamento dos modelos para tarefas em seus idiomas nativos.

“Incluir as línguas africanas no futuro do [processamento de linguagem natural] … é um passo muito bom e importante fazer isso durante o treinamento de modelos de linguagem”, diz Emezue.

Use com moderação

A BigScience fez um trabalho “fenomenal” ao construir uma comunidade em torno do BLOOM, e sua abordagem de envolver ética e governança desde o início é sensata, diz Percy Liang, diretor do Centro de Pesquisa em Modelos de Fundação de Stanford (EUA).

No entanto, Liang não acredita que isso levará a mudanças significativas no desenvolvimento do LLM. “A OpenAI, Google e Microsoft ainda se movem com muita rapidez”, diz ele.

No final das contas, o BLOOM ainda é um grande modelo de linguagem e ainda tem todas as falhas e riscos associados. Empresas como a OpenAI não divulgaram seus modelos ou códigos para o público porque, eles argumentam, a linguagem sexista e racista que foi usada os torna muito perigosos para serem usados dessa maneira.

O BLOOM também provavelmente incorporará imprecisões e linguagem tendenciosa, mas como tudo sobre o modelo está aberto, as pessoas poderão analisar o que é bom e o que é ruim sobre o modelo, diz Margaret Mitchell, pesquisadora de IA e eticista da Hugging Face.

A maior contribuição da BigScience para a IA pode acabar não sendo o próprio BLOOM, mas os inúmeros projetos de pesquisa derivados nos quais seus voluntários estão envolvidos. Por exemplo, esses projetos podem reforçar as referências de privacidade do modelo e encontrar maneiras de usar a tecnologia em diferentes campos, como a pesquisa biomédica.

“Um novo modelo de grande linguagem não vai mudar o curso da história”, diz Teven Le Scao, pesquisador da Hugging Face que co-liderou o treinamento da BLOOM. “Mas ter um bom modelo de linguagem aberta sobre o qual as pessoas possam realmente pesquisar tem um forte impacto a longo prazo”.

Quando se trata dos danos potenciais dos LLMs, “a caixa de Pandora já está aberta”, diz Le Scao. “O melhor que você pode fazer neste caso é criar as melhores condições possíveis para os pesquisadores estudá-los”.

Fonte: https://mittechreview.com.br