GPT-4, a versão mais recente do chatbot de inteligência artificial ChatGPT, pode passar em testes do ensino médio e exames da faculdade de direito com 90% de acerto e possui novos recursos de processamento que não estavam possíveis na versão anterior.
O desempenho do GPT-4 em provas e testes foi compartilhado em 14 de março pela OpenAI, revelando que ele também pode converter entradas de imagem, áudio e vídeo em texto, além de lidar com “instruções muito mais sutis” de forma mais criativa e confiável.
“Ele passa em um exame de barra simulado com uma pontuação que o qualifica entre os 10% melhores candidatos”, acrescentou OpenAI. “Em contraste, a pontuação do GPT-3.5 ficou em torno dos 10% inferiores.”
Os números mostram que o GPT-4 alcançou uma pontuação de 163, com 88% de respostas corretas no exame LSAT – um teste que os estudantes universitários precisam passar nos Estados Unidos para serem admitidos na faculdade de direito.

A pontuação do GPT4 o colocaria em uma boa posição para ser admitido em uma das 20 melhores faculdades de direito do país e está apenas alguns pontos abaixo das pontuações necessárias para aceitação em escolas de prestígio como Harvard, Stanford, Princeton ou Yale.
A versão anterior do ChatGPT marcou apenas 149 no LSAT, colocando-o entre os 40% candidatos com desempenho inferior.
O GPT-4 também obteve 298 sobre 400 no Uniform Bar Exam – um teste realizado por estudantes de direito recém-formados que lhes permite exercer a advocacia em qualquer jurisdição dos EUA, que seria equivalente ao exame da OAB (Ordem dos Advogados do Brasil) no Brasil.

A versão antiga do ChatGPT teve dificuldades neste teste, terminando entre os 10% piores classificados, com uma pontuação de 213 em 400.
Quanto aos exames SAT Evidence-Based Reading & Writing e SAT Math feitos por alunos do ensino médio dos EUA para medir sua aptidão para a faculdade, o GPT-4 obteve desempenhos de 93% e 89%, respectivamente.
O GPT-4 também se destacou nas ciências “difíceis”, obtendo pontuações percentuais bem acima da média em Biologia AP (85-100%), Química (71-88%) e Física 2 (66-84%).

No entanto, sua pontuação AP Calculus foi razoavelmente média, classificando-o entre o 43º ao 59º percentil.
Outra área em que o GPT-4 não se destaca é o de exames de literatura inglesa, com pontuações do 8º ao 44º percentil em dois testes separados.
A OpenAI disse que o GPT-4 e o GPT-3.5 fizeram esses testes dos exames práticos de 2022-2023 e que “nenhum treinamento específico” foi feito pelas ferramentas de processamento de linguagem:
“Não fizemos nenhum treinamento específico para esses exames. Pequenos problemas nas resoluções dos exames foram percebidos pelo modelo durante o treinamento, mas acreditamos que os resultados sejam representativos.”
Os resultados provocaram medo no Twitter.
Nick Almond, fundador da FactoryDAO, disse a seus 14.300 seguidores no Twitter em 14 de março que o GPT4 vai “assustar as pessoas” e vai “colapsar” o sistema educacional global.
Assessment theory was a big chunk of my life for several years. I was banging on about this day coming many years ago. I literally sounded like the resident crank at the time.
— drnick ️² (@DrNickA) March 14, 2023
But… really this means that anything but invigilated assessment is over from this point on.
A avaliação teórica foi uma grande parte da minha vida por vários anos. Eu estava esperando esse dia chegar já há muitos anos atrás. Eu literalmente parecia o excêntrico residente na época.
Mas... na verdade, isso significa que qualquer coisa, menos uma avaliação vigilante, acabou a partir deste ponto.
— drnick ️² (@DrNickA)
O ex-diretor da Coinbase, Conor Grogan, disse que inseriu um contrato inteligente da Ethereum ao vivo no GPT-4, e o chatbot apontou instantaneamente várias “vulnerabilidades de segurança” e descreveu como o código poderia ser explorado:
I dumped a live Ethereum contract into GPT-4.
— Conor (@jconorgrogan) March 14, 2023
In an instant, it highlighted a number of security vulnerabilities and pointed out surface areas where the contract could be exploited. It then verified a specific way I could exploit the contract pic.twitter.com/its5puakUW
Eu joguei um contrato da Ethereum ativo no GPT-4.
Em um instante, ele destacou uma série de vulnerabilidades de segurança e apontou brechas de programação onde o contrato poderia ser explorado. Em seguida, apresentou uma maneira específica de explorar o contrato
— Conor (@jconorgrogan)
Auditorias de contratos inteligentes na versão anterior do ChatGPT também foram capazes de detectar falhas de programação em um grau razoável.
Rowan Cheung, fundador do boletim informativo de IA The Rundown, compartilhou um vídeo do GPT transcrevendo um site desenhado à mão em um pedaço de papel em código.
I just watched GPT-4 turn a hand-drawn sketch into a functional website.
— Rowan Cheung (@rowancheung) March 14, 2023
This is insane. pic.twitter.com/P5nSjrk7Wn
Acabei de ver o GPT-4 transformar um esboço feito à mão em um site funcional.
Isso é uma loucura.
— Rowan Cheung (@rowancheung)
LEIA MAIS
- Executivo da Calibra do Facebook: 'Libra é mais semelhante ao e-mail que ao PayPal
- EUA estão perdendo a 'guerra fria da tecnologia', alerta cofundador da Ripple
- Porque os derivativos são os instrumentos financeiros que mais irritam os reguladores