2025 seis grandes transformações de paradigma em IA: do treinamento RLVR, Vibe Coding ao Nano banana

2025-12-22 09:29:59

Autor: Andrej Karpathy

Compilado por: Tim, PANews

2025 será um ano de rápido desenvolvimento e cheia de incertezas para os grandes modelos de linguagem, e obtivemos resultados frutíferos. A seguir, apresento algumas “mudanças de paradigma” que considero dignas de atenção e um pouco surpreendentes, essas mudanças alteraram o cenário e, pelo menos em um nível conceitual, me impressionaram.

1. Aprendizado por Reforço com Recompensas Verificáveis (RLVR)

No início de 2025, a pilha de produção de LLM de todos os laboratórios de IA apresentará aproximadamente a seguinte forma:

Pré-treinamento (GPT-2/3 de 2020);
Ajuste fino supervisionado (InstructGPT de 2022);
E o aprendizado por reforço baseado em feedback humano (RLHF, 2022)

Durante muito tempo, esta foi uma pilha tecnológica estável e madura para treinar modelos de linguagem de nível de produção. Até 2025, o aprendizado por reforço baseado em recompensas verificáveis tornou-se a tecnologia central adotada. Ao permitir que grandes modelos de linguagem sejam treinados em diversos ambientes de recompensas automaticamente verificáveis (por exemplo, matemática, resolução de problemas de programação), esses modelos conseguem formar espontaneamente estratégias que se assemelham a “raciocínio” aos olhos humanos. Eles aprendem a dividir a resolução de problemas em etapas intermediárias de cálculo e dominam várias estratégias para resolver problemas por meio de raciocínios repetidos (casos que podem ser consultados no artigo DeepSeek-R1). Nas pilhas anteriores, essas estratégias eram difíceis de implementar, pois o caminho de raciocínio ótimo e os mecanismos de retrocesso não eram claros para os grandes modelos de linguagem, tendo que ser explorados por meio da otimização de recompensas para encontrar soluções adequadas.

Ao contrário das fases de ajuste fino supervisionado e da fase de aprendizagem por reforço baseada em feedback humano (que são relativamente curtas e envolvem um ajuste fino com menor carga computacional), a aprendizagem por reforço baseada em recompensas verificáveis envolve um treinamento prolongado para otimização de uma função de recompensa objetiva e não manipulável. Foi demonstrado que a execução de aprendizagem por reforço baseada em recompensas verificáveis pode proporcionar um aumento significativo de capacidade dentro de um custo unitário, o que consome substancialmente os recursos computacionais originalmente planejados para pré-treinamento. Portanto, o avanço das capacidades dos grandes modelos de linguagem em 2025 se manifesta principalmente no fato de que os principais laboratórios de IA conseguiram acomodar a enorme demanda computacional trazida por essa nova tecnologia. De modo geral, vemos que o tamanho dos modelos é aproximadamente equivalente, mas o tempo de treinamento por reforço foi significativamente prolongado. Outra característica única dessa nova tecnologia é que obtivemos uma nova dimensão de controle (e a correspondente lei de escalonamento), ou seja, ao gerar trajetórias de raciocínio mais longas e aumentar o “tempo de pensamento”, controlamos a capacidade do modelo como uma função da carga computacional durante os testes. O modelo o1 da OpenAI (lançado no final de 2024) é a primeira demonstração de um modelo de aprendizagem por reforço baseado em recompensas verificáveis, enquanto o lançamento do o3 (no início de 2025) representa um ponto de virada claro, permitindo uma percepção intuitiva de um salto qualitativo.

2. Inteligência Fantasma vs. Inteligência Serrilhada Animal

Em 2025, eu (e acredito que toda a indústria) comecei a entender pela primeira vez a “forma” da inteligência dos grandes modelos de linguagem a partir de uma perspectiva mais intuitiva. Não estamos “evoluindo ou criando animais”, mas “invocando fantasmas”. Toda a pilha tecnológica dos grandes modelos de linguagem (arquitetura neural, dados de treinamento, algoritmos de treinamento, especialmente objetivos de otimização) é completamente diferente, por isso obtemos entidades na área da inteligência que são muito distintas da inteligência biológica; não é surpresa alguma que seja inadequado examiná-las pela perspectiva animal. Do ponto de vista da informação supervisionada, as redes neurais humanas foram otimizadas para a sobrevivência tribal em ambientes de selva, enquanto as redes neurais dos grandes modelos de linguagem foram otimizadas para imitar textos humanos, obter recompensas em problemas matemáticos e ganhar a aprovação dos humanos em arenas. À medida que os campos verificáveis forneceram condições para o aprendizado por reforço baseado em recompensas verificáveis, a capacidade dos grandes modelos de linguagem nas proximidades desses campos “explodirá”, apresentando, de forma geral, uma característica de desempenho interessante e em forma de serrilhado. Eles podem ser ao mesmo tempo gênios eruditos e alunos do ensino fundamental confusos e com dificuldades cognitivas, que a qualquer momento podem vazar seus dados sob indução.

Inteligência Humana: azul, Inteligência AI: vermelho. Eu gosto desta versão do meme (desculpe, não consegui encontrar a origem do post no Twitter), porque ela aponta que a inteligência humana também se apresenta de forma serrilhada, com ondas características.

Relativamente a isso, em 2025, desenvolvi uma indiferença e desconfiança generalizadas em relação a todo tipo de testes de referência. A questão central é que os testes de referência são essencialmente ambientes quase verificáveis, tornando-se, portanto, facilmente influenciáveis por aprendizagem por reforço baseada em recompensas verificáveis e por formas mais fracas geradas através de dados sintéticos. No típico processo de “maximização de pontuação”, as equipas de grandes modelos de linguagem inevitavelmente constroem ambientes de treino nas proximidades do pequeno espaço de incorporação onde os testes de referência se encontram, e cobrem essas áreas através de “serrilhamento de capacidades”. “Treinar no conjunto de teste” tornou-se uma nova norma.

Varreu todos os testes de referência, mas ainda não conseguiu alcançar a inteligência artificial geral, e então, qual é o problema?

3.Cursor: Um novo nível para aplicações LLM

Uma das coisas que mais me impressionou no Cursor (além de sua rápida ascensão este ano) é que ele revelou de forma convincente um novo nível de “aplicações LLM”, à medida que as pessoas começam a falar sobre “Cursor em XX domínio”. Como destaquei em minha palestra na Y Combinator este ano, aplicações LLM como o Cursor têm seu núcleo na integração e orquestração de chamadas LLM para áreas verticais específicas:

Eles são responsáveis pela “engenharia de contexto”;
Orquestrar múltiplas chamadas de LLM em um gráfico acíclico direcionado cada vez mais complexo, equilibrando finamente o desempenho e o custo; fornecer uma interface gráfica específica para aplicações para os indivíduos que estão “no circuito”;
E fornecer um “controlador deslizante de autoajuste”.

Em 2025, já houve muita discussão em torno do espaço de desenvolvimento desta nova camada de aplicações emergentes. As plataformas de grandes modelos de linguagem dominarão todas as aplicações, ou ainda haverá um amplo espaço para aplicações de grandes modelos de linguagem? Pessoalmente, eu especulo que a posição das plataformas de grandes modelos de linguagem tenderá a se aproximar do cultivo de “graduados universitários polivalentes”, enquanto as aplicações de grandes modelos de linguagem serão responsáveis por organizar, afinar e, através da oferta de dados privados, sensores, atuadores e ciclos de feedback, transformar esses “graduados” em “equipes profissionais” que podem ser utilizadas em campos verticais específicos.

4.Claude Code: executado localmente de IA

A chegada do Claude Code mostrou, pela primeira vez, de forma convincente, a forma dos agentes LLM, combinando o uso de ferramentas com o processo de raciocínio de uma maneira cíclica, permitindo a resolução de problemas complexos de forma mais duradoura. Além disso, o que me impressiona no Claude Code é que ele roda no computador pessoal do usuário, profundamente integrado ao ambiente privado, dados e contexto do usuário. Acredito que a avaliação da OpenAI nesta direção esteja errada, pois eles focaram o desenvolvimento de assistentes de código e agentes na implantação em nuvem, ou seja, em um ambiente de contêiner orquestrado pelo ChatGPT, em vez de no ambiente local do localhost. Embora os clusters de agentes em nuvem pareçam ser a “forma final rumo à inteligência artificial geral”, atualmente estamos numa fase de transição em que o desenvolvimento de capacidades é desigual e o progresso é relativamente lento. Dadas essas condições reais, é mais razoável implantar agentes diretamente no computador local, colaborando estreitamente com os desenvolvedores e seus ambientes de trabalho específicos. O Claude Code acertou em cheio essa prioridade e a encapsulou em uma forma de ferramenta de linha de comando simples, elegante e extremamente atraente, reformulando a maneira como a IA se apresenta. Não é mais um site que precisa ser acessado como o Google, mas sim um pequeno espírito ou fantasma que “habita” o seu computador. Esta é uma nova e única paradigma de interação com a IA.

5. Vibe Coding - Programação de Ambiente

Em 2025, a IA ultrapassou um marco crítico de capacidade, tornando possível construir uma variedade de programas impressionantes apenas através de descrições em inglês, sem que as pessoas precisassem se preocupar com o código subjacente. Curiosamente, eu criei a expressão “Vibe Coding” durante um tweet de devaneios enquanto tomava banho, sem imaginar que ela se desenvolveria até o ponto em que está hoje. No paradigma da programação de atmosfera, a programação não é mais um campo estritamente reservado para profissionais altamente treinados, mas se torna algo em que todos podem participar. Sob essa perspectiva, é mais uma evidência do fenômeno que descrevi em “Empoderando as Pessoas: Como Modelos de Linguagem de Grande Escala Estão Mudando os Padrões de Difusão de Tecnologia”. Em contraste com todas as outras tecnologias até agora, pessoas comuns se beneficiam mais dos modelos de linguagem de grande escala do que profissionais, empresas e governos. Mas a programação de atmosfera não apenas capacita as pessoas comuns a acessar a programação, mas também capacita desenvolvedores profissionais a escrever mais softwares que “não teriam sido realizados”. Ao desenvolver o nanochat, escrevi um tokenizador BPE personalizado e eficiente em Rust através da programação de atmosfera, sem ter que depender de bibliotecas existentes ou aprender profundamente Rust. Este ano, também implementei rapidamente vários protótipos de projetos com programação de atmosfera, apenas para validar se algumas ideias eram viáveis. Eu cheguei a escrever um aplicativo descartável inteiro apenas para localizar uma vulnerabilidade específica, porque o código de repente se tornou gratuito, efêmero, maleável e descartável. A programação de atmosfera irá remodelar o ecossistema de desenvolvimento de software e mudar profundamente as fronteiras da definição profissional.

6.Banana Nano: Interface gráfica LLM

O Gemini Nano banana do Google é uma das transformações de paradigma mais disruptivas de 2025. Na minha opinião, os grandes modelos de linguagem são o próximo grande paradigma computacional, depois dos computadores das décadas de 1970 e 1980. Portanto, veremos inovações semelhantes baseadas nas mesmas causas fundamentais, semelhantes à evolução da computação pessoal, microcontroladores e até mesmo da internet. Especialmente no que diz respeito à interação homem-máquina, o modo de “diálogo” atual com LLM é, de certa forma, semelhante à introdução de comandos em terminais de computador na década de 1980. O texto é a forma mais primitiva de representação de dados para computadores (e LLM), mas não é a forma preferida pelos humanos (especialmente ao input). Os humanos, na verdade, detestam ler texto; é lento e trabalhoso. Em vez disso, os humanos tendem a receber informações através de dimensões visuais e espaciais, que é a razão pela qual as interfaces gráficas surgiram na computação tradicional. Da mesma forma, os grandes modelos de linguagem devem se comunicar com a gente na forma preferida pelos humanos, através de imagens, infográficos, slides, quadros brancos, animações, vídeos, aplicações web, entre outros. A forma inicial atual já foi realizada através de “decorações textuais visualizadas” como emojis e Markdown (como títulos, negrito, listas, tabelas e outros elementos de formatação). Mas quem realmente construirá a interface gráfica para grandes modelos de linguagem? Sob essa perspectiva, o nano banana é, de fato, um protótipo inicial desse futuro plano. Vale a pena notar que a inovação do nano banana não está apenas na capacidade de geração de imagens, mas sim na capacidade abrangente resultante da intersecção de geração de texto, geração de imagens e conhecimento mundial nos pesos do modelo.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.