ChatGPT erra mais de 50% das respostas em estudo de universidade dos EUA

-- Publicidade --

-- Publicidade --

Um estudo da universidade de Purdue, nos EUA, decidiu testar a eficácia do ChatGPT para responder a centenas de perguntas sobre engenharia de software. O resultado não foi muito animador para a IA, com 52% das respostas incorretas.

A intenção da pesquisa era comparar as respostas do ChatGPT com as do Stack Overflow, uma plataforma popular entre desenvolvedores e engenheiros de software para a consulta de dúvidas. Os pesquisadores Samia Kabir, David Udo-Imeh, Bonan Kou e Tianyi Zhang enviaram 517 perguntas populares do Stack Overflow e compararam as respostas do chatbot da OpenAI.

O ChatGPT teve 259 respostas incorretas, ou seja, 52% do total. Além disso, 77% dos textos foram considrados genéricos, porém a plataforma conseguiu atender a todos os aspectos da pergunta em 65% dos casos.

Respostas do ChatGPT sobre engenharia de software foram incorretas na maior parte do tempo durante o estudo (Imagem: Levart_Photographer/Unsplash)

Em outra etapa da pesquisa, o estudo convocou 12 pessoas com diferentes níveis de aprendizado sobre engenharia de software para analisarem as respostas. As respostas do Stack Overflow foram consideradas mais precisas, mas teve uma surpresa: as pessoas não conseguiram identificar as respostas erradas em quase 40% dos casos.

De acordo com os autores, isso aconteceu devido aos “insights humanos, compreensíveis e bem-articulados do ChatGPT”. Ou seja, o “jogo de cintura” do ChatGPT para criar uma resposta fez com que as pessoas não percebessem (ou ignorassem) os erros.

Isso significa que o ChatGPT não é confiável?

CONTINUA APÓS A PUBLICIDADE

Não necessariamente. A pesquisa tinha o objetivo de descobrir a precisão de respostas específicas para a área de engenharia de software — isso não significa que a ferramenta atinja o mesmo nível para respostas em outras áreas do conhecimento.

Além disso, é importante reforçar que o ChatGPT utiliza informações obtidas até 2021 no modelo GPT-3.5, disponibilizado na versão gratuita da plataforma. Para conferir ferramentas que pesquisem em tempo real, você pode recorrer ao Bard, do Google, ou à IA do Bing.

O estudo completo está disponível axiv.org (PDF em inglês).

Banner825x120 Rodapé Matérias
Fonte canaltech
você pode gostar também