Transformaciones paradigmáticas de la IA en 2025: desde el entrenamiento RLVR, Vibe Coding hasta Nano banana

2025-12-22 09:29:59

Autor: Andrej Karpathy

Compilado por: Tim, PANews

El año 2025 será un año de rápido desarrollo y lleno de incertidumbres para los grandes modelos de lenguaje, y hemos logrado frutos abundantes. A continuación, presento lo que personalmente considero “cambios de paradigma” dignos de atención y algo sorprendentes, cambios que han alterado el panorama y que al menos a nivel conceptual me han impresionado.

1. Aprendizaje por refuerzo basado en recompensas verificables (RLVR)

A principios de 2025, la pila de producción de LLM de todos los laboratorios de IA se presentará aproximadamente de la siguiente manera:

Preentrenamiento (GPT-2/3 de 2020);
Supervisión de ajuste fino (InstructGPT de 2022);
y el aprendizaje por refuerzo basado en la retroalimentación humana (RLHF, 2022)

Durante mucho tiempo, esta ha sido una pila técnica estable y madura para entrenar modelos de lenguaje de producción a gran escala. Para 2025, el aprendizaje por refuerzo basado en recompensas verificables se ha convertido en la tecnología central adoptada principalmente. Al permitir que los modelos de lenguaje a gran escala se entrenen en múltiples entornos de recompensas verificables automáticamente (como matemáticas y resolución de problemas de programación), estos modelos pueden formar espontáneamente estrategias que parecen “razonamiento” a los humanos. Aprenden a descomponer la resolución de problemas en pasos de cálculo intermedios y dominan diversas estrategias para resolver problemas a través de la deducción repetida (se puede consultar el caso en el documento DeepSeek-R1). En la pila anterior, estas estrategias eran difíciles de implementar, ya que para los modelos de lenguaje a gran escala, el camino de razonamiento óptimo y el mecanismo de retroceso no son claros y deben ser explorados a través de la optimización de recompensas para encontrar soluciones adecuadas.

A diferencia de la fase de ajuste fino supervisado y la fase de aprendizaje por refuerzo basado en retroalimentación humana (que son relativamente breves y pertenecen a ajustes finos de menor carga computacional), el aprendizaje por refuerzo basado en recompensas verificables implica una larga optimización de funciones de recompensa objetivas y no manipulables. Se ha demostrado que ejecutar el aprendizaje por refuerzo basado en recompensas verificables puede llevar a mejoras significativas en la capacidad dentro de un costo unitario, lo que consume en gran medida los recursos computacionales que originalmente se planearon para el preentrenamiento. Por lo tanto, los avances en la capacidad de los grandes modelos de lenguaje en 2025 se reflejan principalmente en cómo los principales laboratorios de IA han digerido las enormes demandas computacionales que trae esta nueva tecnología. En general, vemos que la escala de los modelos es aproximadamente equivalente, pero el tiempo de entrenamiento del aprendizaje por refuerzo se ha alargado considerablemente. Otra singularidad de esta nueva tecnología es que hemos obtenido una nueva dimensión de regulación (así como una ley de escalado correspondiente), es decir, controlando la capacidad del modelo como una función de la carga computacional en el momento de la prueba, generando trayectorias de inferencia más largas y aumentando el “tiempo de pensamiento”. El modelo o1 de OpenAI (lanzado a finales de 2024) es la primera demostración de un modelo de aprendizaje por refuerzo basado en recompensas verificables, mientras que el lanzamiento de o3 (a principios de 2025) representa un punto de inflexión notable que permite apreciar de manera intuitiva un salto cualitativo.

2. Inteligencia Fantasma vs. Inteligencia Serrada de Animales

En 2025, me di cuenta (y creo que toda la industria también) de que comenzamos a entender la “forma” de la inteligencia de los grandes modelos de lenguaje desde una perspectiva más intuitiva. No estamos “evolucionando o criando animales”, sino “invocando fantasmas”. Todo el stack tecnológico de los grandes modelos de lenguaje (arquitectura neuronal, datos de entrenamiento, algoritmos de entrenamiento, especialmente los objetivos de optimización) es completamente diferente, por lo que no es sorprendente que obtengamos entidades en el campo de la inteligencia que son radicalmente distintas de la inteligencia biológica; no es apropiado examinarlas desde la perspectiva animal. Desde la perspectiva de la información supervisada, las redes neuronales humanas están optimizadas para la supervivencia tribal en un entorno de selva, mientras que las redes neuronales de los grandes modelos de lenguaje están optimizadas para imitar el texto humano, obtener recompensas en problemas matemáticos y ganar la aprobación humana en la arena. A medida que los campos verificables proporcionan condiciones para el aprendizaje por refuerzo basado en recompensas verificables, las capacidades de los grandes modelos de lenguaje cerca de estos campos “aumentarán drásticamente”, presentando en general una interesante característica de rendimiento en forma de serrucho. Pueden ser al mismo tiempo genios eruditos y estudiantes de primaria confundidos y con dificultades cognitivas, que en cualquier momento pueden filtrar tus datos bajo la inducción.

Inteligencia humana: azul, inteligencia artificial: roja. Me gusta esta versión del meme (lo siento, no puedo encontrar la fuente original en Twitter), porque señala que la inteligencia humana también presenta, a su manera única, ondas en forma de sierra.

En relación a esto, en 2025 desarrollé una indiferencia y desconfianza general hacia todo tipo de pruebas de referencia. El problema central es que las pruebas de referencia son, en esencia, entornos casi verificables, por lo que son fácilmente influenciadas por el aprendizaje reforzado basado en recompensas verificables y por formas más débiles generadas a través de datos sintéticos. En el típico proceso de ‘maximización de puntajes’, los equipos de modelos de lenguaje grandes inevitablemente construirán entornos de entrenamiento cerca del pequeño espacio de incrustación donde se encuentran las pruebas de referencia, y cubrirán estas áreas a través de ‘dientes de sierra de habilidades’. “Entrenar en el conjunto de prueba” se ha convertido en una nueva norma.

¿Y qué si barre todas las pruebas de referencia pero aún no logra la inteligencia artificial general?

3.Cursor: Un nuevo nivel de aplicaciones LLM

Una de las cosas que más me impresionó de Cursor (además de su rápido ascenso este año) es que revela de manera convincente un nuevo nivel de “aplicaciones LLM”, ya que la gente comienza a hablar de “Cursor en el campo de XX”. Como subrayé en mi charla de este año en Y Combinator, aplicaciones LLM como Cursor se centran en integrar y orquestar llamadas LLM para un dominio vertical específico:

Son responsables de la “ingeniería de contexto”;
Orquestar múltiples llamadas a LLM en un grafo dirigido acíclico cada vez más complejo a nivel subyacente, sopesando cuidadosamente el equilibrio entre rendimiento y costo; proporcionar una interfaz gráfica específica de la aplicación para el personal que está en el “circuito humano”;
Y proporcionar un “control deslizante de ajuste autónomo”.

En 2025, ya ha habido mucha discusión sobre el espacio de desarrollo de esta nueva capa de aplicación emergente. ¿Las plataformas de grandes modelos de lenguaje abarcarán todas las aplicaciones, o todavía existe un amplio campo para las aplicaciones de grandes modelos de lenguaje? Personalmente, especulo que la posición de las plataformas de grandes modelos de lenguaje se acercará gradualmente a la formación de “graduados universitarios versátiles”, mientras que las aplicaciones de grandes modelos de lenguaje se encargarán de organizar, ajustar y refinar a estos “graduados”, y a través de la provisión de datos privados, sensores, actuadores y bucles de retroalimentación, convertirlos en “equipos profesionales” que realmente puedan ser desplegados en campos verticales específicos.

4.Código Claude: AI que se ejecuta de forma local

La aparición de Claude Code ha demostrado de manera convincente la forma de los agentes LLM, combinando el uso de herramientas con el proceso de razonamiento de manera cíclica, logrando así una solución más duradera para problemas complejos. Además, lo que me impresiona de Claude Code es que funciona en la computadora personal del usuario, integrándose profundamente con el entorno privado, los datos y el contexto del usuario. Creo que OpenAI ha subestimado este enfoque, ya que han centrado el desarrollo de asistentes de código y agentes en el despliegue en la nube, es decir, en entornos contenedorizados orquestados por ChatGPT, en lugar de en entornos locales de localhost. Aunque los clústeres de agentes que funcionan en la nube parecen ser “la forma definitiva hacia la inteligencia artificial general”, actualmente estamos en una fase de transición con un desarrollo de capacidades desigual y un progreso relativamente lento. En estas condiciones reales, es más razonable desplegar agentes directamente en computadoras locales, colaborando estrechamente con los desarrolladores y su entorno de trabajo específico. Claude Code ha captado con precisión esta prioridad y la ha encapsulado en una forma de herramienta de línea de comandos sencilla, elegante y atractiva, remodelando así la forma en que se presenta la IA. Ya no es solo un sitio web que necesita ser accesado como Google, sino un pequeño duende o fantasma que “habita” en tu computadora. Esta es una nueva y única paradigma de interacción con la IA.

5. Vibe Coding programación de ambiente

En 2025, la IA superó un umbral crítico de capacidad, haciendo posible construir una variedad de programas sorprendentes simplemente a través de descripciones en inglés, sin que las personas tuvieran que preocuparse por el código subyacente. Curiosamente, en un tuit de pensamientos aleatorios que tuve mientras me duchaba, creé el término “Vibe Coding” (programación de ambiente), sin imaginar en ese momento que se desarrollaría hasta el punto en que estamos hoy. En el paradigma de la programación de ambiente, la programación ya no es un campo estrictamente reservado para profesionales altamente capacitados, sino que se convierte en algo en lo que todos pueden participar. Desde esta perspectiva, es otro ejemplo del fenómeno que describí en mi artículo “Empoderando a las personas: cómo los grandes modelos de lenguaje están cambiando los patrones de difusión tecnológica”. En contraste con todas las demás tecnologías hasta ahora, las personas comunes se benefician más de los grandes modelos de lenguaje en comparación con los profesionales, las empresas y los gobiernos. Pero la programación de ambiente no solo empodera a las personas comunes para acceder a la programación, sino que también empodera a los desarrolladores profesionales para crear más software que “de otro modo no se habría realizado”. Al desarrollar nanochat, escribí un tokenizador BPE personalizado y eficiente en Rust a través de la programación de ambiente, sin tener que depender de bibliotecas existentes o aprender Rust en profundidad. Este año, también implementé rápidamente varios prototipos de proyectos con programación de ambiente, solo para validar si ciertas ideas eran viables. Incluso escribí una aplicación desechable completa solo para localizar un error específico, porque el código de repente se volvió gratuito, efímero, maleable y desechable. La programación de ambiente redefinirá el ecosistema del desarrollo de software y cambiará profundamente los límites de la definición profesional.

6.Banana nano: Interfaz gráfica LLM

El Gemini Nano banana de Google es uno de los cambios de paradigma más disruptivos de 2025. En mi opinión, los grandes modelos de lenguaje son el próximo gran paradigma computacional después de las computadoras de las décadas de 1970 y 1980. Por lo tanto, veremos innovaciones similares basadas en causas fundamentales similares, al igual que la evolución de la computación personal, los microcontroladores e incluso de Internet. Especialmente en el nivel de la interacción humano-computadora, el actual modo de “diálogo” con LLM es, en cierta medida, similar a introducir instrucciones en una terminal de computadora en la década de 1980. El texto es la forma más primitiva de representación de datos para las computadoras (y LLM), pero no es la forma preferida por los humanos (especialmente al momento de introducir datos). De hecho, a los humanos les desagrada leer texto, ya que es lento y laborioso. En cambio, los humanos tienden a recibir información a través de dimensiones visuales y espaciales, que es precisamente la razón por la cual nació la interfaz gráfica de usuario en la computación tradicional. De manera similar, los grandes modelos de lenguaje deberían comunicarse con nosotros en formas que los humanos prefieren, a través de imágenes, infografías, presentaciones, pizarras, animaciones, videos, aplicaciones web y otros medios. Las formas tempranas actuales ya se han logrado mediante el uso de emoticonos y “decoraciones de texto visual” como Markdown (como títulos, negritas, listas, tablas y otros elementos de diseño). Pero, ¿quién realmente construirá la interfaz gráfica de los grandes modelos de lenguaje? Desde esta perspectiva, el nano banana es un primer prototipo de este futuro plan. Es importante notar que la innovación del nano banana no radica solo en su capacidad de generación de imágenes, sino en la capacidad integral formada por la interconexión de la generación de texto, la generación de imágenes y el conocimiento del mundo en los pesos del modelo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.