ChatGPT erra mais de 50% das respostas em estudo de universidade dos EUA
Um estudo da universidade de Purdue, nos EUA, decidiu testar a eficácia do ChatGPT para responder a centenas de perguntas sobre engenharia de software. O resultado não foi muito animador para a IA, com 52% das respostas incorretas.
A intenção da pesquisa era comparar as respostas do ChatGPT com as do Stack Overflow, uma plataforma popular entre desenvolvedores e engenheiros de software para a consulta de dúvidas. Os pesquisadores Samia Kabir, David Udo-Imeh, Bonan Kou e Tianyi Zhang enviaram 517 perguntas populares do Stack Overflow e compararam as respostas do chatbot da OpenAI.
O ChatGPT teve 259 respostas incorretas, ou seja, 52% do total. Além disso, 77% dos textos foram considrados genéricos, porém a plataforma conseguiu atender a todos os aspectos da pergunta em 65% dos casos.
Em outra etapa da pesquisa, o estudo convocou 12 pessoas com diferentes níveis de aprendizado sobre engenharia de software para analisarem as respostas. As respostas do Stack Overflow foram consideradas mais precisas, mas teve uma surpresa: as pessoas não conseguiram identificar as respostas erradas em quase 40% dos casos.
De acordo com os autores, isso aconteceu devido aos “insights humanos, compreensíveis e bem-articulados do ChatGPT”. Ou seja, o “jogo de cintura” do ChatGPT para criar uma resposta fez com que as pessoas não percebessem (ou ignorassem) os erros.
Isso significa que o ChatGPT não é confiável?
Não necessariamente. A pesquisa tinha o objetivo de descobrir a precisão de respostas específicas para a área de engenharia de software — isso não significa que a ferramenta atinja o mesmo nível para respostas em outras áreas do conhecimento.
Além disso, é importante reforçar que o ChatGPT utiliza informações obtidas até 2021 no modelo GPT-3.5, disponibilizado na versão gratuita da plataforma. Para conferir ferramentas que pesquisem em tempo real, você pode recorrer ao Bard, do Google, ou à IA do Bing.
O estudo completo está disponível axiv.org (PDF em inglês).