GPT-5 chegou: OpenAI afirma raciocínio de “nível de doutorado” em todos os domínios

A OpenAI lançou o GPT-5, e a afirmação mais ousada da empresa até agora – de que o modelo demonstra “raciocínio de nível de doutorado” em domínios científicos, jurídicos, médicos e de engenharia – parece ser apoiada por resultados de benchmark genuinamente extraordinários. O modelo, disponível imediatamente para assinantes ChatGPT Plus e Enterprise, representa o maior salto de capacidade entre as gerações GPT até o momento.
Os benchmarks
O GPT-5 obteve pontuação de 92,3% no benchmark GPQA Diamond, um teste desenvolvido por pesquisadores PhD para ser insolúvel sem conhecimento genuíno do domínio. Para fins de contexto, o GPT-4 obteve uma pontuação de 53,6%, e os PhDs humanos especialistas que trabalham em sua especialidade têm uma média de 81,2%. No benchmark MATH, o GPT-5 atinge 96,8% e, na plataforma de programação competitiva Codeforces, tem um desempenho com classificação Grandmaster de 2.650 – colocando-o entre os 0,1% melhores programadores humanos em todo o mundo.
Talvez mais impressionante do que as pontuações brutas seja a abordagem do modelo para novos problemas. Nas demonstrações, os pesquisadores da OpenAI apresentaram ao GPT-5 questões de pesquisa inéditas de universidades colaboradoras. O modelo não apenas recuperou informações relevantes – ele gerou novas hipóteses, identificou falhas metodológicas em experimentos propostos e sugeriu abordagens alternativas que os pesquisadores descreveram como “genuinamente perspicazes”.
Arquitetura e Treinamento
OpenAI tem sido caracteristicamente vago sobre a arquitetura do GPT-5, mas o CEO Sam Altman confirmou que ele usa um design misto de especialistas com o que ele chamou de “cadeias de raciocínio profundas” – o modelo gera e avalia internamente vários caminhos de raciocínio antes de produzir uma saída. O treinamento supostamente consumiu US$ 600 milhões em custos de computação em um cluster de mais de 100.000 GPUs NVIDIA H200.
A janela de contexto do modelo se estende a 1 milhão de tokens — o suficiente para processar vários romances ou uma base de código inteira simultaneamente. A latência de resposta é comparável à do GPT-4 Turbo, apesar do enorme aumento de capacidade, graças às otimizações arquitetônicas que a OpenAI afirma que serão detalhadas em um próximo relatório técnico.
Impacto na Indústria
O lançamento repercutiu em vários setores. As empresas de tecnologia jurídica estão correndo para construir ferramentas baseadas no GPT-5 que possam redigir contratos complexos e analisar jurisprudência em um nível que antes exigia associados seniores. As startups de IA médica relatam que a precisão do diagnóstico do GPT-5 em vinhetas clínicas excede a dos médicos assistentes em diversas especialidades. As ferramentas de desenvolvimento de software baseadas nas capacidades de codificação do GPT-5 já estão gerando código com qualidade de produção para recursos completos a partir de descrições em linguagem natural.
Google, Anthropic e Meta não comentaram publicamente, mas fontes da indústria sugerem que os três estão acelerando seus próprios cronogramas de modelos de próxima geração em resposta. A corrida pelas capacidades de IA, longe de desacelerar, entrou na sua fase mais intensa até agora.


