2025 год шесть крупных парадигмальных изменений в AI: от RLVR-обучения, Vibe Coding до Nano banana

Автор: Андрей Карпаты

Перевод: Тим, PANews

2025 год станет годом быстрого развития больших языковых моделей и полным неопределенности, мы достигли значительных результатов. Ниже приведены, на мой взгляд, заслуживающие внимания и несколько неожиданные “парадигмальные изменения”, которые изменили ситуацию и, по крайней мере, на концептуальном уровне произвели на меня впечатление.

1. Укрепленное обучение с подкреплением на основе проверяемых вознаграждений (RLVR)

К началу 2025 года производственные стеки LLM всех AI лабораторий будут примерно следующими:

  • Предобучение (GPT-2/3 2020 года);
  • Контрольная доработка (InstructGPT 2022 года);
  • И обучение с подкреплением на основе обратной связи от человека (RLHF, 2022 год)

На протяжении долгого времени это была стабильная и зрелая технологическая стек для обучения производственных языковых моделей. К 2025 году обучение с подкреплением на основе проверяемых вознаграждений стало основной принимаемой ключевой технологией. Позволяя языковым моделям обучаться в различных средах с автоматически проверяемыми вознаграждениями (например, математика, программирование), эти модели способны самостоятельно формировать стратегии, которые выглядят как “умозаключение” с точки зрения человека. Они учатся разбивать решение проблемы на промежуточные вычислительные шаги и овладевают множеством стратегий для решения проблем через повторные рассуждения (можно обратиться к примерам в статье DeepSeek-R1). В предыдущих стеках эти стратегии было трудно реализовать, поскольку для языковых моделей оптимальный путь рассуждения и механизм обратного отслеживания не были ясны, и нужно было исследовать подходящие решения через оптимизацию на основе вознаграждений.

В отличие от этапов контроля тонкой настройки и обучения с подкреплением на основе человеческой обратной связи (которые довольно короткие и требуют меньших вычислительных затрат), обучение с подкреплением на основе проверяемого вознаграждения подразумевает длительную оптимизацию объекта функции вознаграждения, которая является объективной и не поддается играм. Доказано, что выполнение обучения с подкреплением на основе проверяемого вознаграждения приносит значительное повышение возможностей при единичных затратах, что значительно расходует ресурсы, изначально запланированные для предобучения. Таким образом, прогресс в мощностях больших языковых моделей в 2025 году в основном состоит в том, что крупные AI-лаборатории осваивают огромные вычислительные потребности, связанные с этой новой технологией. В целом, мы видим, что масштабы моделей примерно сопоставимы, но время обучения с подкреплением значительно увеличивается. Уникальность этой новой технологии также заключается в том, что мы получили совершенно новое измерение регулирования (а также соответствующий закон масштабирования), а именно контроль возможностей модели как функции вычислительных затрат во время тестирования, генерируя более длинные цепочки рассуждений и увеличивая “время размышления”. Модель OpenAI o1 (выпущенная в конце 2024 года) является первой демонстрацией модели обучения с подкреплением на основе проверяемого вознаграждения, в то время как выпуск o3 (в начале 2025 года) является очевидным поворотным моментом, который позволяет ощутить качественный скачок.

2. Призрачный интеллект против животного зубчатого интеллекта

2025 год стал для меня (и, как я считаю, для всей отрасли) первым годом, когда мы начали понимать “форму” интеллектуальных больших языковых моделей с более интуитивной точки зрения. Мы не “эволюционируем и не воспитываем животных”, а “вызываем духов”. Вся технологическая инфраструктура больших языковых моделей (нейронные архитектуры, обучающие данные, алгоритмы обучения, особенно цели оптимизации) совершенно различна, поэтому мы получаем сущности, которые отличаются от биологического интеллекта, и это не удивительно; смотреть на них с точки зрения животных неуместно. С точки зрения надзорной информации, человеческие нейронные сети оптимизированы для выживания племени в джунглях, в то время как нейронные сети больших языковых моделей оптимизированы для имитации человеческого текста, получения наград в математических задачах и завоевания одобрения людей на арене. С появлением проверяемых областей, предоставляющих условия для обучения с подкреплением на основе проверяемых наград, способности больших языковых моделей вблизи этих областей “внезапно увеличиваются”, демонстрируя интересную, зубчатую характеристику производительности. Они могут одновременно быть эрудированными гениями и запутанными, испытывающими трудности с познанием, младшеклассниками, которые в любой момент могут раскрыть ваши данные под давлением.

!

Человеческий интеллект: синий, ИИ-интеллект: красный. Мне нравится эта версия мемов (извините, я не могу найти оригинальный пост в Твиттере), потому что она указывает на то, что человеческий интеллект на самом деле также проявляется в своей уникальной форме в виде зубчатых волн.

Связано с этим, в 2025 году у меня возникло общее равнодушие и недоверие к различным типам бенчмарков. Основная проблема заключается в том, что бенчмарки по своей сути почти всегда находятся в проверяемой среде, что делает их легкими для воздействия на основе проверяемых вознаграждений и более слабых форм, созданных с помощью синтетических данных. В типичном процессе «максимизации баллов» команды больших языковых моделей неизбежно будут создавать обучающую среду вблизи небольшого встраиваемого пространства, где находятся бенчмарки, и покрывать эти области с помощью «зубчатости способностей». «Обучение на тестовом наборе» стало новой нормой.

Провалив все бенчмарки и все же не достигнув общего искусственного интеллекта, и что с того?

3. Курсор: новый уровень применения LLM

Одним из самых впечатляющих аспектов Cursor (помимо его стремительного роста в этом году) является то, что он убедительно раскрывает новый уровень “LLM-приложений”, поскольку люди начинают говорить о “Cursor в области XX”. Как я подчеркивал в своей речи на Y Combinator в этом году, такие LLM-приложения, как Cursor, сосредоточены на интеграции и оркестрации вызовов LLM для конкретных вертикальных областей:

  • Они отвечают за “контекстное проектирование”;
  • На нижнем уровне несколько вызовов LLM организуются в все более сложный направленный ациклический граф, тщательно взвешивая баланс между производительностью и стоимостью; предоставление специализированного графического интерфейса для пользователей в контексте “человек в петле”;
  • И предоставить «слайдер для самостоятельной настройки».

В 2025 году вокруг развития этого нового уровня приложений уже ведется много обсуждений. Будет ли платформа больших языковых моделей охватывать все приложения, или у приложений больших языковых моделей все еще есть широкое пространство? Лично я предполагаю, что позиционирование платформы больших языковых моделей постепенно будет стремиться к подготовке “универсальных выпускников университетов”, в то время как приложения больших языковых моделей будут отвечать за организацию, тонкую настройку этих “выпускников” и, предоставляя частные данные, датчики, исполнительные механизмы и обратные связи, позволят им действительно стать “профессиональными командами”, которые могут быть вовлечены в практическую работу в определенных вертикальных областях.

4. Код Клода: Запуск на локальном AI

Появление Claude Code впервые убедительно продемонстрировало форму LLM-агентов, сочетая использование инструментов с процессом рассуждения в цикличном формате, что позволяет решать более сложные задачи на долговременной основе. Кроме того, меня впечатлило, что он работает на персональном компьютере пользователя, глубоко интегрируясь с его приватной средой, данными и контекстом. Я считаю, что OpenAI допустила ошибку в этом направлении, сосредоточив свои усилия на разработке помощников по коду и агентов в облачных развертываниях, а не в локальной среде. Хотя облачные кластеры агентов кажутся «конечной формой пути к общему искусственному интеллекту», мы находимся на этапе перехода, где развитие возможностей неравномерно и относительно медленно. В таких условиях более разумным путем является развертывание агентов непосредственно на локальных компьютерах, что позволяет тесно сотрудничать с разработчиками и их специфической рабочей средой. Claude Code точно уловил этот приоритет и упаковал его в простую, элегантную и очень привлекательную форму командного инструмента, тем самым переосмыслив способ взаимодействия с ИИ. Он больше не просто сайт, который нужно посещать, как Google, а маленький дух или призрак, «живущий» на вашем компьютере. Это совершенно новая, уникальная парадигма взаимодействия с ИИ.

5. Вибрационное программирование

В 2025 году ИИ преодолел ключевой порог возможностей, что сделало возможным создание различных удивительных программ только на основе описаний на английском языке, при этом людям даже не нужно беспокоиться о базовом коде. Забавно, что я создал термин “Vibe Coding” (атмосферное программирование) в одной из своих мыслей в твиттере во время принятия ванны, когда совершенно не думал, что он разовьется до нынешнего уровня. В парадигме атмосферного программирования программирование больше не ограничивается строго подготовленными профессионалами, а становится доступным для всех. С этой точки зрения это является еще одним доказательством явления, описанного мной в статье “Упрощение для людей: как большие языковые модели меняют модели распространения технологий”. В резком контрасте со всеми другими технологиями, обычные люди получают больше преимуществ от больших языковых моделей по сравнению с профессионалами, компаниями и государством. Однако атмосферное программирование не только дает возможность обычным людям попробовать программирование, но и позволяет профессиональным разработчикам создавать больше “программного обеспечения, которое в противном случае не было бы реализовано”. При разработке nanochat я использовал атмосферное программирование для написания пользовательского эффективного BPE-токенизатора на Rust, не полагаясь на существующие библиотеки или углубленное изучение Rust. В этом году я также быстро реализовал несколько прототипов проектов с помощью атмосферного программирования, чтобы проверить, жизнеспособны ли определенные идеи. Я даже написал целое одноразовое приложение только для того, чтобы найти конкретную уязвимость, потому что код внезапно стал бесплатным, кратковременным, податливым и одноразовым. Атмосферное программирование изменит экосистему разработки программного обеспечения и глубоко изменит границы определения профессии.

6.Нано банан: графический интерфейс LLM

Гемини Нано банан от Google — это один из самых разрушительных парадигмальных сдвигов 2025 года. На мой взгляд, большие языковые модели являются следующим крупным вычислительным парадигмальным сдвигом после компьютеров 1970-х и 1980-х годов. Таким образом, мы увидим аналогичные инновации, основанные на тех же коренных причинах, аналогично эволюционным формам персональных вычислений, микроконтроллеров и даже интернета. Особенно на уровне взаимодействия человек-компьютер текущая “диалоговая” модель с LLM отчасти напоминает ввод команд в компьютерные терминалы 1980-х годов. Текст является самой примитивной формой представления данных для компьютера (и LLM), но не является предпочтительным способом для человека (особенно при вводе). Люди на самом деле ненавидят читать текст, это медленно и утомительно. Напротив, люди склонны воспринимать информацию через визуальные и пространственные измерения, что и является причиной появления графических пользовательских интерфейсов в традиционных вычислениях. Точно так же большие языковые модели должны общаться с нами в формате, предпочтительном для человека, через изображения, информационные графики, слайды, доски, анимации, видео, веб-приложения и другие носители. Текущая ранняя форма уже реализована через “визуальные текстовые украшения”, такие как эмодзи и Markdown (например, заголовки, жирный шрифт, списки, таблицы и другие элементы верстки). Но кто действительно создаст графический интерфейс для больших языковых моделей? С этой точки зрения, нано банан является ранним прототипом этой будущей концепции. Стоит отметить, что прорыв нано банана заключается не только в самой способности генерации изображений, но и в комплексной способности, образуемой переплетением генерации текста, генерации изображений и мировых знаний в весах модели.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить