2025 року 6 великих парадигмальних змін в AI: від RLVR навчання, Vibe Coding до Nano banana

2025-12-22 09:29:59

Автор: Андрій Карпати

Переклад: Tim, PANews

2025 рік стане роком стрімкого розвитку великих мовних моделей і повним непередбачуваності, ми досягли значних результатів. Нижче я особисто вважаю, що варто звернути увагу на “парадигмальні зміни”, які, на мій погляд, змінили ситуацію і, принаймні на концептуальному рівні, справили на мене враження.

1. Посилене навчання на основі перевіряємих винагород (RLVR)

На початку 2025 року всі виробничі стекі LLM лабораторій ШІ будуть приблизно такими:

Попереднє навчання (GPT-2/3 2020 року);
Надзорне доопрацювання (InstructGPT 2022 року);
та навчання з підкріпленням на основі зворотного зв'язку від людини (RLHF, 2022 рік)

Протягом тривалого часу це була стабільна та зріла технологічна стек для навчання продуктивних великих мовних моделей. До 2025 року посилене навчання з підкріпленням на основі перевіряємих винагород стало основною прийнятою ключовою технологією. Навчаючи великі мовні моделі в різноманітних середовищах з автоматично перевірюваними винагородами (наприклад, математика, програмування для вирішення задач), ці моделі можуть спонтанно формувати стратегії, які для людей виглядають подібно до “міркування”. Вони вчаться розбивати вирішення проблеми на проміжні обчислювальні кроки та опановують різноманітні стратегії вирішення проблем через повторні міркування (можна звернутися до прикладів у статті DeepSeek-R1). У попередніх технологічних стеках ці стратегії було важко реалізувати, оскільки для великих мовних моделей оптимальний шлях міркування та механізм відкату не були чіткими, їх потрібно було досліджувати через оптимізацію винагород.

На відміну від етапу контролю за доопрацюванням та етапу підкріпленого навчання на основі зворотного зв'язку (ці два етапи відносно короткі та відносяться до доопрацювання з меншою обчислювальною навантаженістю), підкріплене навчання на основі перевіряємих винагород передбачає тривалу оптимізацію навчання об'єктивної, неігрової функції винагороди. Як виявилося, виконання підкріпленого навчання на основі перевіряємих винагород може суттєво підвищити можливості при одиничних витратах, що значно споживає обчислювальні ресурси, які спочатку планувались для попереднього навчання. Таким чином, прогрес у можливостях великих мовних моделей у 2025 році в основному проявляється в тому, що великі лабораторії штучного інтелекту впоралися з величезними обчислювальними вимогами, які приносить ця нова технологія. Загалом, ми бачимо, що масштаби моделей приблизно однакові, але час навчання з підкріпленням значно подовжується. Ще одна унікальна особливість цієї нової технології полягає в тому, що ми отримали абсолютно новий вимір регулювання (а також відповідні закони масштабування), а саме шляхом генерації довших траєкторій міркування, збільшення “часу на роздуми”, контролювати можливості моделі як функцію обчислювальних витрат під час тестування. Модель o1 від OpenAI (випущена наприкінці 2024 року) є першою демонстрацією моделі підкріпленого навчання на основі перевіряємих винагород, а випуск o3 (на початку 2025 року) стане помітним поворотним моментом, який дозволить відчути якісний стрибок.

2.Привидний інтелект проти Тваринного зубчастого інтелекту

2025 року я (а також, як мені здається, вся галузь) вперше почну зрозуміти “форму” інтелекту великих мовних моделей з більш інтуїтивної точки зору. Ми не “еволюціонуємо, вирощуємо тварин”, а “закликаємо духів”. Увесь технологічний стек великих мовних моделей (нейронна архітектура, навчальні дані, алгоритми навчання, особливо цілі оптимізації) є радикально іншим, тому ми отримуємо сутності в галузі інтелекту, які суттєво відрізняються від біологічного інтелекту, і це не є несподіванкою, адже розглядання їх з точки зору тварин є недоречним. З точки зору наглядової інформації, людські нейронні мережі оптимізовані для виживання племені в джунглях, тоді як нейронні мережі великих мовних моделей оптимізовані для імітації людського тексту, отримання винагороди за розв'язання математичних задач, здобуття схвалення людей на арені. Оскільки перевірені області надають умови для навчання з підкріпленням на основі перевірених винагород, здатності великих мовних моделей в цих областях “різко зростуть”, демонструючи загалом цікаву, зубчасту характеристику продуктивності. Вони можуть одночасно бути ерудованими геніями і заплутаними, з когнітивними труднощами, учнями початкової школи, які в будь-який момент можуть випадково розкрити ваші дані під тиском.

Людський інтелект: синій, інтелект ШІ: червоний. Мені подобається ця версія мемів (вибачте, я не можу знайти оригінальне посилання в Твіттері), оскільки вона вказує на те, що людський інтелект насправді також проявляється хвилеподібно, характерним для нього способом.

Пов'язане з цим, у 2025 році я відчув загальну байдужість і недовіру до різних типів бенчмарків. Основна проблема полягає в тому, що бенчмарки за своєю суттю є майже усіма верифікованими середовищами, тому вони легко піддаються впливу посиленого навчання на основі верифікованих винагород, а також слабших форм, які генеруються за допомогою синтетичних даних. У типовому процесі “максимізації балів” команди великих мовних моделей неминуче будуть конструювати навчальне середовище поблизу маленького вбудованого простору, в якому знаходяться бенчмарки, і покривати ці області за допомогою “зубчастості здібностей”. “Навчання на тестовому наборі” стало новою нормою.

Перемігши всі бенчмарки, все ж не зміг досягти загального штучного інтелекту, то що з того?

3. Курсор: новий рівень застосування LLM

Найбільш вражаючим аспектом Cursor (крім його швидкого зростання цього року) є те, що він переконливо розкриває новий рівень “LLM-додатків”, оскільки люди починають говорити про “Cursor у XX-сфері”. Як я підкреслив у своїй промові в Y Combinator цього року, такі LLM-додатки, як Cursor, зосереджені на інтеграції та оркестрації викликів LLM для певних вертикальних областей:

Вони відповідають за “інженерію контексту”;
На базовому рівні організуйте кілька викликів LLM у дедалі складніші ациклічні графи, ретельно зважуючи баланс між продуктивністю та витратами; надайте спеціалізований графічний інтерфейс для осіб, які знаходяться в “людському контурі”;
І надайте «слайдер для автономного регулювання».

У 2025 році вже ведеться багато дискусій щодо простору розвитку цього нового застосункового рівня. Чи буде платформа великих мовних моделей охоплювати всі застосунки, чи все ж у великих мовних моделей є широкий простір для застосування? Я особисто припускаю, що позиціонування платформи великих мовних моделей поступово наближатиметься до підготовки “універсальних випускників університетів”, тоді як застосування великих мовних моделей відповідатиме за організацію цих “випускників”, їх тонке налаштування, а також через надання приватних даних, датчиків, виконавчих механізмів та зворотного зв’язку справжнім чином перетворить їх на “професійні команди”, готові до бойового застосування в певних вертикальних сферах.

4. Код Клода: працює на місцевому комп'ютері AI

Поява Claude Code вперше переконливо продемонструвала форму LLM-агентів, яка у циклічний спосіб поєднує використання інструментів з процесом міркування, що дозволяє досягати більш стійких рішень складних проблем. Крім того, Claude Code вразив мене тим, що він працює на особистому комп'ютері користувача, глибоко інтегруючись з приватним середовищем, даними та контекстом користувача. Я вважаю, що OpenAI в цьому напрямку ухилився від правильного курсу, оскільки зосередився на розробці кодових асистентів та агентів для хмарного розгортання, тобто у контейнеризованому середовищі, організованому ChatGPT, а не у локальному середовищі localhost. Хоча хмарні агентські кластери, здається, є “останнім формою на шляху до загального штучного інтелекту”, ми наразі знаходимося на переході, де розвиток можливостей є нерівномірним і прогрес відносно повільним. У таких реаліях розгортання агентів безпосередньо на локальних комп'ютерах, тісно співпрацюючи з розробниками та їх специфічним робочим середовищем, є більш розумним шляхом. Claude Code точно усвідомлює цей пріоритет і упакував його у просту, елегантну, надзвичайно привабливу форму командного рядка, що переосмислює спосіб взаємодії з AI. Це вже не просто веб-сайт, доступ до якого необхідно отримати, як у Google, а маленький дух або привид, що “живе” на вашому комп'ютері. Це абсолютно нова, унікальна парадигма взаємодії з AI.

5. Vibe Coding атмосферне програмування

У 2025 році штучний інтелект подолав критичний поріг можливостей, завдяки чому стало можливим створювати різноманітні вражаючі програми лише за описом англійською мовою, при цьому людям навіть не потрібно звертати увагу на базовий код. Цікаво, що під час одного з роздумів у душі я вигадала термін “Vibe Coding” (атмосферне програмування), тоді я зовсім не думала, що він розвинеться до нинішнього рівня. У парадигмі атмосферного програмування програмування вже не обмежується вузько навченими професіоналами, а стає чимось, у чому може брати участь кожен. З цієї точки зору, це ще один приклад явища, про яке я писала в статті “Уповноваження людей: як великі мовні моделі змінюють моделі розповсюдження технологій”. На відміну від усіх інших технологій до теперішнього часу, звичайні люди отримують більше вигоди від великих мовних моделей порівняно з професіоналами, підприємствами та урядами. Але атмосферне програмування не тільки надає можливості звичайним людям отримати доступ до програмування, але й дозволяє професійним розробникам створювати більше “програм, які інакше б не були реалізовані”. Під час розробки nanochat я створила ефективний BPE-токенізатор на Rust за допомогою атмосферного програмування, не покладаючись на вже існуючі бібліотеки чи глибоке вивчення Rust. Цього року я також швидко реалізувала кілька прототипів проектів за допомогою атмосферного програмування, лише щоб перевірити, чи є певні концепції життєздатними. Я навіть створювала цілі одноразові програми, лише щоб виявити конкретну вразливість, оскільки код раптово став безкоштовним, коротким, пластичним і одноразовим. Атмосферне програмування перетворить екосистему розробки програмного забезпечення та глибоко змінить межі визначення професії.

6.Нано банан: графічний інтерфейс LLM

Gemini Nano banana від Google є одним із найпотужніших парадигмальних зрушень 2025 року. На мою думку, великі мовні моделі є наступною великою обчислювальною парадигмою після комп'ютерів 1970-х і 1980-х років. Отже, ми побачимо подібні інновації, засновані на схожих корінних причинах, подібно до еволюції персональних комп'ютерів, мікроконтролерів і навіть Інтернету. Особливо на рівні взаємодії людини з комп'ютером, поточний «діалог» з LLM в певному сенсі подібний до введення команд на комп'ютерному терміналі в 1980-х роках. Текст є найпримітивнішою формою даних для комп'ютера (і LLM), але не є вибором людини (особливо під час введення). Люди насправді ненавидять читати текст, це повільно і складно. Натомість, люди більше схильні отримувати інформацію через зорові та просторові виміри, що також стало причиною виникнення графічного інтерфейсу користувача в традиційних обчисленнях. Аналогічно, великі мовні моделі повинні спілкуватися з нами у формі, що відповідає людським уподобанням, через зображення, інформаційні графіки, слайди, дошки, анімації, відео, веб-додатки тощо. Поточні ранні форми вже реалізовані через емодзі та «візуальні текстові прикраси» на кшталт Markdown (такі як заголовки, жирний шрифт, списки, таблиці та інші елементи верстки). Але хто насправді створить графічний інтерфейс для великих мовних моделей? З цієї точки зору, nano banana є раннім прототипом цього майбутнього плану. Варто зазначити, що прорив nano banana полягає не лише в здатності генерувати зображення, а й у комплексній здатності, що виникає з переплетення генерації тексту, генерації зображень та світових знань у вагах моделі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.