O ChatGPT está ficando mais “burro”? Pesquisadores dizem que sim

O aclamado modelo de linguagem de grande escala da OpenAI, o ChatGPT, foi descrito como “simplesmente o melhor chatbot de inteligência artificial já lançado ao público em geral” por Kevin Roose, autor de “Futureproof: 9 Rules for Humans in the Age of Automation”, e como “uma das maiores coisas já feitas para a computação”, segundo o CEO da Nvidia, Jensen Huang. Porém, alguns pesquisadores dizem que o chat baseado em IA está “inconsistente” e “piorando”.

Muitos acreditam que o modelo do ChatGPT superou oficialmente o teste de Turing, um marco tradicional da capacidade de uma máquina em alcançar a inteligência humana, o ChatGPT se destaca em exames de alto desempenho em várias áreas: matemática (89º percentil), direito (90º percentil) e verbal GRE (99º percentil).

Além disso, pesquisadores da escola médica da NYU relataram em julho de 2023 que os conselhos dados pelo ChatGPT para questões relacionadas à saúde eram quase indistinguíveis daqueles fornecidos pela equipe médica humana.

Pesquisadores acreditam que ChatGPT está piorando

No entanto, pesquisadores da Universidade de Stanford e da Universidade da Califórnia em Berkeley expressaram preocupações sobre a confiabilidade do ChatGPT. Lingjiao Chen, Matei Zaharia e James Zhu observaram que o desempenho do chatbot tem sido inconsistente, piorando em algumas instâncias.

Um estudo publicado em 18 de julho no servidor de pré-impressão arXiv indicou que “o desempenho e o comportamento do GPT-3.5 e do GPT-4 variam significativamente” e que as respostas a algumas tarefas “pioraram substancialmente ao longo do tempo”.

Em março de 2023, o GPT-4 atingiu uma taxa de acerto de 97,6% em problemas relacionados a números primos. No entanto, esse índice despencou para meros 2,4% quando o modelo de junho de 2023 foi utilizado. Além disso, a capacidade do ChatGPT de auxiliar programadores com questões de programação e depuração também decaiu, passando de pouco mais de 50% em março para 10% em junho.

Zhu afirmou ser difícil determinar uma causa, embora seja aparente que as modificações e atualizações do sistema sejam fatores. “Não entendemos completamente o que causa essas mudanças nas respostas do ChatGPT porque esses modelos são opacos”, disse Zhu.

A OpenAI descartou alegações de teóricos da conspiração de que a empresa esteja experimentando versões menores dos LLMs como medida de economia de custos ou que esteja enfraquecendo intencionalmente o GPT-4 para que os usuários frustrados estejam mais dispostos a pagar pelo acessório LLM do GitHub, o CoPilot.

“Não tornamos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente que a anterior”, disse Peter Welinder, vice-presidente de produto da OpenAI, em um tweet recente.

Em meio a isso, alguns observadores que estão preocupados com o impacto disruptivo da “deriva” nos resultados do modelo estão pressionando a OpenAI a divulgar as fontes de material de treinamento, código e outros elementos estruturais por trás do ChatGPT 4.0.

“Qualquer resultado em modelos de código fechado não é reproduzível e nem verificável e, portanto, do ponto de vista científico, estamos comparando guaxinins e esquilos”, explicou Sasha Luccioni, da empresa de IA Hugging Face. Ela defendeu que a responsabilidade de monitorar os LLMs implantados recai sobre os criadores dos modelos, que deveriam fornecer acesso aos modelos subjacentes, pelo menos para fins de auditoria.