2025年のAIパラダイムシフトトップ6:RLVRトレーニング、VibeコーディングからNanoバナナまで著者: Andrej Karpathy
コンパイラ: Tim, PANews
2025年は大規模言語モデルが急速に発展し、変数に満ちた年であり、私たちは豊かな成果を得ました。以下は、私が個人的に注目すべきであり、少し意外だと思う「パラダイムシフト」です。これらの変革は、状況を変え、少なくとも概念的なレベルで私に印象を与えました。
1. 検証可能な報酬ベースの強化学習(RLVR)
2025年初、すべてのAIラボのLLM生産スタックは大まかに次の形を呈します:
プレトレーニング(2020年のGPT-2/3);
監督下微調整 (2022 年の InstructGPT)。
および人間のフィードバックに基づく強化学習(RLHF、2022年)
長い間、これは生産レベルの大規模言語モデルを訓練するための安定した成熟した技術スタックです。2025年までに、検証可能な報酬に基づく強化
PANews·30分前