OpenAI apresentou oficialmente o GPT‑5.2, descrito como o modelo de fronteira mais avançado da empresa para trabalho profissional e agentes que rodam por longos períodos. A novidade começou a ser liberada em 11 de dezembro de 2025 e chega primeiro para planos pagos do ChatGPT e para desenvolvedores via API. 🚀
Segundo a empresa, usuários do ChatGPT Enterprise já relatam que a IA economiza, em média, de 40 a 60 minutos por dia, enquanto usuários mais intensivos falam em mais de 10 horas por semana. A ideia com o GPT‑5.2 é aumentar ainda mais esse ganho econômico, especialmente em tarefas como criação de planilhas, elaboração de apresentações, escrita de código, interpretação de imagens, entendimento de contextos longos, uso de ferramentas e execução de projetos complexos com múltiplas etapas.
No conjunto de avaliações GDPval, que mede tarefas bem especificadas de “trabalho do conhecimento” em 44 ocupações, o GPT‑5.2 estabelece um novo patamar, superando profissionais da indústria em boa parte dos casos.
Três versões no ChatGPT e foco em uso profissional
No ChatGPT, o modelo chega em três variantes: GPT‑5.2 Instant, GPT‑5.2 Thinking e GPT‑5.2 Pro. Elas começam a ser distribuídas gradualmente para assinantes dos planos Plus, Pro, Go, Business e Enterprise. Já na API, os modelos estão disponíveis para todos os desenvolvedores.
De forma geral, o GPT‑5.2 traz melhorias significativas em inteligência geral, entendimento de contextos longos, uso “agente” de ferramentas e visão computacional. A proposta é torná-lo o modelo mais competente da empresa para executar tarefas complexas de ponta a ponta no mundo real.
Desempenho em tarefas econômicas e “trabalho do conhecimento”
O GPT‑5.2 Thinking é apresentado como o melhor modelo da empresa para uso profissional. No GDPval, ele se torna o primeiro modelo da casa a operar em nível igual ou superior a especialistas humanos.
De acordo com julgamentos de especialistas, o GPT‑5.2 Thinking vence ou empata com profissionais de alto nível em 70,9% das comparações em tarefas de trabalho do conhecimento. Essas tarefas envolvem, por exemplo, criação de apresentações, planilhas e outros entregáveis reais, como:
- apresentações de vendas;
- planilhas de contabilidade;
- escalas de pronto-atendimento;
- diagramas de manufatura;
- até pequenos vídeos.
Além do resultado qualitativo, a empresa destaca que o GPT‑5.2 Thinking produziu saídas para as tarefas do GDPval mais de 11 vezes mais rápido e a menos de 1% do custo de profissionais humanos, com base em métricas históricas. A OpenAI ressalta que, com supervisão humana, o modelo pode se tornar um grande aliado no trabalho profissional. A velocidade no ChatGPT, porém, pode variar.
Em tarefas internas de modelagem financeira típicas de um analista júnior de banco de investimento — como montar um modelo de três demonstrações financeiras para uma empresa Fortune 500, com formatação e citações adequadas, ou construir um modelo de LBO (leveraged buyout) para fechamento de capital — o GPT‑5.2 Thinking teve desempenho médio 9,3 pontos percentuais melhor que o GPT‑5.1, subindo de 59,1% para 68,4%.
"É um salto empolgante e perceptível na qualidade da saída... parece ter sido feito por uma empresa profissional com equipe, e tem um layout surpreendentemente bem desenhado e boas recomendações para ambos os entregáveis, embora ainda existam alguns erros menores a corrigir."
Esse foi o comentário de um dos avaliadores do GDPval ao analisar uma resposta considerada especialmente boa gerada pelo novo modelo.
Em comparações lado a lado, a OpenAI afirma que planilhas e slides criados pelo GPT‑5.2 Thinking mostram mais sofisticação e melhor formatação do que aqueles produzidos pelo GPT‑5.1 Thinking. Há exemplos como modelos de planejamento de força de trabalho, planilhas de cap table e estruturas de gestão de projetos.
Para usar os novos recursos de planilhas e apresentações no ChatGPT, é preciso ter um plano Plus, Pro, Business ou Enterprise e selecionar o GPT‑5.2 Thinking ou o GPT‑5.2 Pro. A empresa avisa que gerações complexas podem levar vários minutos.
Domínio de código e desenvolvimento de software
No campo de programação, o GPT‑5.2 Thinking assume a liderança em benchmarks de engenharia de software. No SWE‑Bench Pro, avaliação pública que simula tarefas reais de engenharia de software em quatro linguagens e busca ser mais resistente a contaminação, diversificada e relevante para a indústria, o modelo atinge 55,6%, superando o GPT‑5.1 Thinking (50,8%).
No SWE‑bench Verified — que avalia apenas Python — o GPT‑5.2 Thinking registra 80,0%, novo recorde interno, acima dos 76,3% do modelo anterior.
Na prática do dia a dia, isso significa um modelo mais confiável para:
- depurar código em produção;
- implementar novas funcionalidades;
- refatorar bases de código grandes;
- entregar correções de ponta a ponta com menos intervenção manual.
Segundo a OpenAI, o GPT‑5.2 Thinking também é bem melhor em engenharia de software front-end em comparação ao GPT‑5.1 Thinking. Testadores iniciais relataram um salto significativo em trabalhos complexos ou pouco convencionais de UI — especialmente com elementos em 3D —, o que o torna um parceiro forte para engenheiros em toda a stack.
A empresa cita exemplos de aplicações criadas a partir de um único prompt, como:
- um simulador de ondas do oceano;
- um criador de cartões de fim de ano;
- um jogo de “chuva” de letras digitadas.
Em um desses prompts, o modelo recebe a tarefa de criar um app de página única em um único arquivo HTML, chamado “Ocean Wave Simulation”, com ondas animadas realistas, controle de velocidade do vento, altura das ondas e iluminação, em uma interface calma e imersiva.
Empresas que testaram o modelo elogiaram o salto em programação. A Windsurf, por exemplo, resumiu:
"GPT‑5.2 representa o maior salto para modelos GPT em codificação agente desde o GPT‑5 e é um modelo de código estado da arte na sua faixa de preço. O número da versão subestima o aumento de inteligência. Estamos animados para torná-lo o padrão em todo o Windsurf e em diversas cargas de trabalho centrais do Devin."
A declaração é assinada por Jeff Wang, CEO da Windsurf.
Menos alucinações e respostas mais confiáveis
A OpenAI afirma que o GPT‑5.2 Thinking alucina menos do que o GPT‑5.1 Thinking. Em um conjunto de consultas anônimas reais do ChatGPT, respostas com pelo menos um erro foram 30% menos comuns com o novo modelo.
Para profissionais, isso significa:
- menos enganos em pesquisas;
- maior confiabilidade em redação e análise;
- suporte mais seguro em tomada de decisão no dia a dia.
Ainda assim, a empresa enfatiza que o modelo continua sendo imperfeito e que tudo que for crítico deve ser checado de forma independente.
Contexto longo: trabalhando com centenas de milhares de tokens
No quesito contexto longo, o GPT‑5.2 Thinking estabelece um novo recorde no OpenAI MRCRv2, avaliação que testa a habilidade do modelo em integrar informações espalhadas por documentos muito extensos.
Em tarefas reais como análise profunda de documentos, em que informações relacionadas estão distribuídas em centenas de milhares de tokens, o GPT‑5.2 Thinking se sai bem melhor que o GPT‑5.1 Thinking. A empresa destaca que este é o primeiro modelo interno a chegar perto de 100% de acerto na variante de 4 “agulhas” do MRCR, com contextos de até 256 mil tokens.
Na prática, isso libera o uso do modelo para lidar com materiais extensos, como:
- relatórios e contratos;
- artigos de pesquisa;
- transcrições longas;
- projetos com múltiplos arquivos.
Mesmo em contextos com centenas de milhares de tokens, o modelo mantém coerência e precisão, o que o torna particularmente adequado para análise profunda, síntese de informações e fluxos complexos envolvendo múltiplas fontes.
Para tarefas que vão além da janela máxima de contexto, o GPT‑5.2 Thinking é compatível com o novo endpoint Responses /compact, que estende a janela “efetiva” de contexto. A promessa é permitir fluxos mais longos e pesados em ferramentas, que antes esbarravam no limite de tokens.
Visão: leitura melhor de gráficos, interfaces e diagramas
Na parte de visão, o GPT‑5.2 Thinking é apresentado como o modelo visual mais forte da empresa até agora. Ele corta pela metade, aproximadamente, as taxas de erro em raciocínio sobre gráficos e compreensão de interfaces de software.
Para uso profissional, isso significa uma leitura mais precisa de:
- dashboards e painéis;
- capturas de tela de produtos e aplicativos;
- diagramas técnicos;
- relatórios visuais em diversas áreas.
Em avaliações como o CharXiv Reasoning, que testa perguntas sobre gráficos de artigos científicos, o GPT‑5.2 Thinking alcança 88,7% de acerto com ferramenta de Python habilitada, contra 80,3% do GPT‑5.1 Thinking.
No ScreenSpot‑Pro, que exige raciocínio sobre capturas de tela de interfaces gráficas profissionais em alta resolução, o novo modelo atinge 86,3% de acerto (com Python), em comparação com 64,2% do modelo anterior. A empresa recomenda explicitamente ativar a ferramenta de Python para esse tipo de tarefa, pois os resultados sem a ferramenta caem bastante.
Outro avanço é o entendimento de layout. O GPT‑5.2 Thinking demonstra melhor noção de posicionamento de elementos dentro da imagem. Em um exemplo com uma placa-mãe de baixa qualidade de imagem, o modelo identifica as principais regiões e fornece caixas delimitadoras aproximadas para cada componente. Já o GPT‑5.1 Thinking rotula apenas algumas partes e mostra entendimento muito mais fraco da organização espacial, ainda que ambos cometam erros.
Uso de ferramentas: agentes mais estáveis e eficazes
Na área de uso de ferramentas, o GPT‑5.2 Thinking marca um novo recorde com 98,7% de acerto no Tau2‑bench Telecom, que mede a capacidade do modelo de usar ferramentas em tarefas longas e multi-turno.
Para cenários sensíveis à latência, o modelo também melhora muito quando o parâmetro de esforço de raciocínio é definido como none, superando de forma substancial tanto o GPT‑5.1 quanto o GPT‑4.1.
No Tau2‑bench Telecom e no Tau2‑bench Retail, que simulam atendimento ao cliente com uso de ferramentas, o modelo mostra melhor coordenação multi-etapas, especialmente quando a instrução de sistema fornece algumas orientações gerais. Esses testes excluem o subset de companhias aéreas, por conta de problemas de qualidade no gabarito de correção.
Traduzido para o dia a dia de trabalho, isso se converte em fluxos de ponta a ponta mais robustos, como:
- resolver casos complexos de suporte ao cliente;
- puxar dados de múltiplos sistemas;
- rodar análises e consolidar relatórios finais;
- reduzir quebras entre as etapas de uma tarefa longa.
Um exemplo citado envolve um passageiro com voo de Paris para Nova York atrasado, conexão perdida para Austin, bagagem extraviada, pernoite em Nova York e necessidade de assento especial na primeira fila por razões médicas. Nessa situação, o GPT‑5.2 consegue orquestrar toda a cadeia de ações — remarcação, assento com assistência especial e compensações — com um resultado mais completo do que o GPT‑5.1.
Ciência e matemática: apoio a pesquisas de ponta
Um dos objetivos declarados pela OpenAI é acelerar a pesquisa científica em benefício de todos. A empresa diz estar trabalhando de perto com cientistas para entender como a IA pode acelerar o trabalho de pesquisa, e menciona experimentos colaborativos recentes usando o GPT‑5.2 Pro.
Para a companhia, o GPT‑5.2 Pro e o GPT‑5.2 Thinking são hoje os melhores modelos do mundo para auxiliar e acelerar cientistas. No GPQA Diamond, benchmark de perguntas e respostas em nível de pós-graduação, “à prova do Google”, o GPT‑5.2 Pro atinge 93,2%, seguido de perto pelo GPT‑5.2 Thinking, com 92,4%. Esse teste cobre física, química e biologia, sem ferramentas e com esforço máximo de raciocínio.
No FrontierMath (Tier 1–3), avaliação de matemática em nível de especialista, o GPT‑5.2 Thinking também marca novo recorde interno, resolvendo 40,3% dos problemas (contra 31,0% do GPT‑5.1 Thinking), usando ferramenta de Python e esforço máximo de raciocínio.
A empresa diz começar a ver, na prática, modelos de IA acelerando avanços em matemática e ciência. Em um trabalho recente com o GPT‑5.2 Pro, pesquisadores exploraram uma questão em aberto na teoria de aprendizado estatístico. Em um cenário estreito e bem especificado, o modelo propôs uma prova que foi verificada pelos autores e revisada por especialistas externos, ilustrando como modelos de fronteira podem ajudar em pesquisa matemática sob supervisão humana rigorosa.
Raciocínio abstrato: novos patamares no ARC‑AGI
Nos benchmarks de raciocínio abstrato ARC‑AGI, o GPT‑5.2 também avança. No ARC‑AGI‑1 (Verified), o GPT‑5.2 Pro é o primeiro modelo a ultrapassar a marca de 90%, subindo de 87% alcançados pelo o3‑preview no ano anterior, e reduzindo o custo dessa performance em cerca de 390 vezes.
Já no ARC‑AGI‑2 (Verified), que é mais difícil e tenta isolar melhor o raciocínio fluido, o GPT‑5.2 Thinking atinge 52,9%, novo recorde para modelos com cadeia de raciocínio explícita (chain-of-thought). O GPT‑5.2 Pro vai além e chega a 54,2%.
Esses avanços são apresentados como reflexo de um raciocínio multi-etapas mais forte, melhor precisão quantitativa e resolução mais confiável de problemas técnicos complexos.
Primeiras impressões de empresas parceiras
Diversos parceiros que testaram o modelo antecipadamente destacam ganhos práticos. A Triple Whale resume que o GPT‑5.2 permitiu uma mudança completa de arquitetura.
"GPT‑5.2 desbloqueou uma mudança completa de arquitetura para nós. Colapsamos um sistema frágil, multiagente, em um único mega‑agente com mais de 20 ferramentas. O melhor é que simplesmente funciona. O mega‑agente é mais rápido, mais inteligente e 100 vezes mais fácil de manter. Estamos vendo latências muito menores, uso de ferramentas muito mais forte, e não precisamos mais de prompts de sistema enormes porque o 5.2 executa de forma limpa com um prompt simples de uma linha. Parece mágica pura."
A fala é de AJ Orbach, CEO da Triple Whale.
Experiência no ChatGPT: Instant, Thinking e Pro
No ChatGPT, a OpenAI promete que o GPT‑5.2 será percebido como um modelo mais organizado, mais confiável e, ainda assim, agradável de conversar no dia a dia.
- GPT‑5.2 Instant: voltado para trabalho cotidiano e aprendizado, rápido e versátil, com melhorias claras em buscas de informação, tutoriais, textos técnicos e tradução. Mantém o tom de conversa mais acolhedor introduzido no GPT‑5.1 Instant, agora com explicações mais claras que já trazem os pontos principais logo no início.
- GPT‑5.2 Thinking: focado em trabalho mais profundo, ajudando a lidar com tarefas complexas com maior polimento — especialmente em código, resumos de documentos longos, perguntas sobre arquivos enviados, resolução passo a passo de problemas de matemática e lógica, além de apoio a planejamento e decisões com mais estrutura e detalhes úteis.
- GPT‑5.2 Pro: descrito como a opção mais inteligente e confiável da casa para perguntas difíceis, em que vale a pena esperar mais por uma resposta de maior qualidade. Em testes iniciais, mostrou menos erros graves e desempenho mais forte em domínios complexos, como programação.
Segurança: respostas mais responsáveis em conversas sensíveis
O GPT‑5.2 se baseia na pesquisa de “safe completion” introduzida com o GPT‑5, que treina o modelo para dar a resposta mais útil possível sem ultrapassar limites de segurança.
Nesta versão, a OpenAI diz ter continuado a reforçar as respostas do modelo em conversas sensíveis — por exemplo, quando o usuário demonstra sinais de:
- ideação suicida ou autoagressão;
- sofrimento em saúde mental;
- dependência emocional excessiva da IA.
Segundo a empresa, essas intervenções específicas reduziram o número de respostas indesejáveis tanto no GPT‑5.2 Instant quanto no GPT‑5.2 Thinking, em comparação com o GPT‑5.1 Instant e Thinking. Mais detalhes aparecem no system card do modelo.
A empresa também começou a testar um modelo de predição de idade para aplicar proteções de conteúdo de forma automática a usuários com menos de 18 anos, limitando o acesso a material sensível. Essa iniciativa se soma aos controles parentais já existentes e a outros mecanismos para usuários menores de idade.
A OpenAI admite que o GPT‑5.2 é apenas mais um passo em uma série contínua de melhorias e que ainda não chegou ao ponto desejado. Mesmo com ganhos reais em inteligência e produtividade, a empresa diz saber que há áreas em que as pessoas ainda querem mais — e cita como exemplo, no ChatGPT, o problema das recusas excessivas. A promessa é continuar elevando o padrão de segurança e confiabilidade, mas com cautela, dada a complexidade do tema.
Disponibilidade, nomes de modelos e preços
No ChatGPT, o GPT‑5.2 (Instant, Thinking e Pro) começa a ser liberado a partir de hoje para planos pagos, em rollout gradual. Se o modelo ainda não aparecer para o usuário, a empresa recomenda tentar novamente mais tarde.
O GPT‑5.1 continuará disponível no ChatGPT para usuários pagantes por mais três meses, sob a categoria de modelos legados. Depois desse período, será descontinuado na plataforma.
Na API, os nomes ficam assim:
- ChatGPT‑5.2 Instant corresponde a gpt‑5.2‑chat‑latest;
- ChatGPT‑5.2 Thinking corresponde a gpt‑5.2;
- ChatGPT‑5.2 Pro corresponde a gpt‑5.2‑pro.
O GPT‑5.2 Thinking já está disponível hoje nas APIs de Responses e de Chat Completions como gpt‑5.2, enquanto o GPT‑5.2 Instant aparece como gpt‑5.2‑chat‑latest. O GPT‑5.2 Pro está disponível na Responses API como gpt‑5.2‑pro.
Desenvolvedores agora podem configurar o parâmetro de raciocínio no GPT‑5.2 Pro, e tanto o Pro quanto o Thinking passam a suportar um quinto nível de esforço de raciocínio: xhigh, pensado para tarefas em que qualidade máxima é prioridade.
Em termos de preço de tokens, o GPT‑5.2 custa US$ 1,75 por 1 milhão de tokens de entrada e US$ 14 por 1 milhão de tokens de saída, com desconto de 90% em entradas cacheadas. Apesar de custar mais por token em relação ao GPT‑5.1, a empresa diz que, em diversos testes de agentes, o custo para atingir um certo nível de qualidade acabou sendo menor graças à maior eficiência de tokens do novo modelo.
O GPT‑5.2 Pro é mais caro: US$ 21 por 1 milhão de tokens de entrada e US$ 168 por 1 milhão de tokens de saída. Já o GPT‑5.1 continua em US$ 1,25 por 1 milhão de tokens de entrada e US$ 10 por 1 milhão de tokens de saída, enquanto o gpt‑5‑pro sai por US$ 15 de entrada e US$ 120 de saída.
A OpenAI afirma não ter planos atuais de descontinuar GPT‑5.1, GPT‑5 ou GPT‑4.1 na API e promete comunicar qualquer mudança com bastante antecedência. Embora o GPT‑5.2 já funcione bem no Codex, a empresa pretende lançar em breve uma versão do modelo otimizada especificamente para código.
Infraestrutura: parceria com Microsoft e NVIDIA
O GPT‑5.2 foi treinado em colaboração com as parceiras de longa data NVIDIA e Microsoft. Os data centers da Azure e as GPUs NVIDIA H100, H200 e GB200‑NVL72 sustentam a infraestrutura em escala que permite esses ganhos de inteligência de modelo. Segundo a empresa, essa parceria ajuda a escalar computação com segurança e levar novos modelos ao mercado mais rapidamente.
Benchmark detalhado: panorama técnico dos resultados
Para quem quer números, a OpenAI divulgou uma bateria extensa de benchmarks comparando o GPT‑5.2 Thinking, o GPT‑5.2 Pro e o GPT‑5.1 Thinking em vários domínios.
No campo profissional, o GPT‑5.2 Thinking atinge:
- 70,9% de vitórias ou empates no GDPval (versão “ties allowed”, wins or ties), contra 38,8% do GPT‑5;
- 49,8% de vitórias claras (sem contar empates), frente a 35,5% do GPT‑5;
- 61,0% quando não se consideram empates, superando os 37,1% do GPT‑5;
- 68,4% nas tarefas internas de planilhas de banco de investimento, versus 59,1% do GPT‑5.1 (e 71,7% para o GPT‑5.2 Pro).
Em codificação, o GPT‑5.2 Thinking soma:
- 55,6% no SWE‑Bench Pro (público);
- 80,0% no SWE‑bench Verified;
- 74,6% no SWE‑Lancer, IC Diamond (com 40 de 237 problemas desconsiderados por não rodarem na infraestrutura interna).
Em factualidade, o GPT‑5.2 Thinking registra:
- 93,9% de respostas sem erros com busca habilitada (contra 91,2% do GPT‑5.1 Thinking);
- 88,0% de respostas sem erros sem busca (contra 87,3% do modelo anterior).
Em contexto longo, o GPT‑5.2 Thinking obtém taxas de acerto bem maiores em praticamente todas as faixas do OpenAI MRCRv2 para 8 agulhas, de 4k a 256k tokens, além de melhor desempenho em benchmarks como BrowseComp Long Context (128k e 256k) e GraphWalks.
Na parte de visão, o modelo marca:
- 88,7% no CharXiv reasoning com Python e 82,1% sem ferramentas;
- cerca de 80% no MMMU Pro (com e sem Python);
- 85,9% no Video MMMU sem ferramentas;
- 86,3% no Screenspot Pro com Python.
Em uso de ferramentas, aparecem números como:
- 98,7% no Tau2‑bench Telecom;
- 82,0% no Tau2‑bench Retail;
- 65,8% no BrowseComp;
- 60,6% no Scale MCP‑Atlas;
- 46,3% no Toolathlon.
Em benchmarks acadêmicos, além dos já citados GPQA Diamond e FrontierMath, o GPT‑5.2 Thinking apresenta, por exemplo:
- 89,6% no MMMLU;
- 99,4% no HMMT, fevereiro de 2025, sem ferramentas;
- 100,0% no AIME 2025, também sem ferramentas.
Por fim, em raciocínio abstrato, os principais destaques são os já mencionados 86,2% no ARC‑AGI‑1 (Verified) e 52,9% no ARC‑AGI‑2 (Verified) para o GPT‑5.2 Thinking, e 90,5% e 54,2%, respectivamente, para o GPT‑5.2 Pro.
A empresa lembra que esses benchmarks foram rodados em ambiente de pesquisa, o que pode gerar pequenas diferenças em relação ao comportamento final no ChatGPT, e que os modelos foram configurados com o esforço máximo de raciocínio disponível em cada caso.