Grok 4.1の新機能:AIの錯覚が3倍に減少し、感情的な理解と創造的なライティングが完全にアップグレードされました

ChainNewsAbmedia

2025-11-18 13:24:04

xAIは11月17日に最新モデルGrok 4.1をすべてのユーザーに正式に開放したことを発表しました。これはgrok.com、Twitter (X)、iOSおよびAndroid Appを含みます。xAIは、今回のアップグレードが「現実世界での利用可能性」に重点を置いていると述べており、より強力な感情理解、より自然な人格表現、より高い創造性、そしてより低い幻覚率を実現しつつ、以前のGrok 4の推論能力と安定性を維持しています。

秘密テスト勝率は約65%、Grok 4.1が全面的にオンラインであることを確認

xAIは11/1から11/14までの2週間、Grok 4.1のテスト版を小規模にGrok.com、X、そしてモバイルアプリの実際のトラフィックに導入し、「ブラインドテスト比較」を通じて前のモデルGrok 4と直接対決します。

xAIは盲検時に、Grok 4.1の実際のトラフィックにおける優先指数が64.78%であることを示し、明らかにGrok 4を上回り、11月17日にすべてのユーザーに正式に利用可能になると発表しました。また、これからはすべてのユーザーがGrok 4.1を使用できることも示しています。ユーザーがAutoモードをオンにすると、自動的にGrok 4.1が使用され、ユーザー自身がモデルメニューから選択することもできます。

Grok 4.1 3つの主要な技術のハイライトを一度に見る

Grok 4.1 技術のハイライト 1：新しい強化学習アーキテクチャにより、返信がより自然で人間をより理解できるようになりました。

Grok 4.1のコアアップグレードは、Grok 4と同じ「大規模強化学習基盤」を使用していますが、今回はさらに新しい手法を導入し、モデルがより大規模で自動的に応答を最適化できるようにしました。そして、今回のトレーニングは検証できない応答の質に主に焦点を当てています。例えば、口調、キャラクターの一貫性、感情の相互作用、意図の理解など、これらは単にデータだけでは直接評価できないものです。

この問題を解決するために、xAIは「最先端推論モデル」を報酬モデル(Reward Model)として使用し、深い推論能力を持つAIが自動的にGrok 4.1の回答を評価し、大量の比較の中で何がより良いか、より人間の期待に合った回答であるかを学び、調整を行います。そのため、Grok 4.1は口調、個性、感情、相互作用の自然さが明らかに向上し、元の推論能力と安定性を維持しています。

Grok 4.1 技術のハイライト 2：ブラインドテストが全面的にトップに立ち、感情理解と創造力が大幅にアップグレードされました

xAIはまた、Grok 4.1が複数の能力テストで明らかな改善を示したことを発表しました。

LMArenaのグローバルブラインドテスト対戦プラットフォームでは：

Grok 4.1 Thinking は 1483 Elo で世界第1位にランクされています。

Grok 4.1 ノンシンキングは1465 Eloで2位にランクインし、他のモデルの「完全推論モード」をも超えています。

感情理解テスト (EQ-Bench 3)：45の難易度の高いシナリオと3ラウンドのインタラクションを用い、Claude Sonnet 3.7が評価しました。Grok 4.1は、共感、感情の洞察、人間関係の理解などの面で顕著な向上を見せています。

創造的な執筆能力 (Creative Writing v3)：32の質問 × 3ラウンドの執筆テストにおいて、Grok 4.1は創作スタイル、ナラティブの質、物語の流暢さにおいて高いスコアを獲得し、公式は複数のサンプル回答を示しています。

全体的に見ると、Grok 4.1は推論力の向上だけでなく、「感情的な相互作用」と「創造能力」においても明らかなアップグレードがあります。

図からわかるように、Grok 4.1は推論モデルの総合ランキング、感情理解、創造的な執筆の比較において、いずれもトップ3に入っています。

(注：Eloは、Grok 4.1がグローバルな盲検プラットフォームLMArenaでの戦力スコアを指し、元々西洋チェスで使用されているEloランキングシステムを用いてモデルの応答の優劣を評価します。)

Grok 4.1 技術のハイライト 3： AI 幻覚の低下 3 倍、情報源がより信頼できる

一般的な情報照会に関する質問に対して、xAI は特に Grok 4.1 の幻覚率が明らかに低下したことを強調しています。以前の Gork のクイックモード (Non-Reasoning) は、推論の深さが不足しているために幻覚が発生しやすかったが、4.1 の後のトレーニングでは、xAI はこの問題に対して明確な改善を行いました。xAI の検証方法には以下が含まれます：

ユーザーが実際の状況で尋ねる、プラットフォームに実際に存在する質問からサンプリングテストを行います。

Grok 4.1 と旧版モデルの回答の違いを比較します。

FActScoreでのパフォーマンスを評価します。

結果は、新しいバージョンが事実を照会し、情報的な質問に回答する際に、幻覚率が明らかに低下し、回答がより安定し、信頼性が高まったことを示しています。これにより、Grok 4.1は「迅速な回答」と「資料の検索」のシーンにおいて、前のバージョンよりもより実用的で、より正確になりました。

図からわかるように、Grok 4.1 の幻覚率は 12.09% から 4.22% に減少し、約三倍の減少となっています。事実検証スコア (FActScore) も 9.89% から 2.97% に減少し、Grok 4.1 の精度が大幅に改善されたことを示しています。

(注：FActScoreは500の実在人物に関する質問から成る公開テストで、モデルの事実検索、正確性の判断、一貫性のある回答のパフォーマンスを検証するために使用され、事実評価スコアとも呼ばれます。)

(2025 最新の5つの主流AI言語モデル(LLM)の全解析、料金、応用、そして安全性を一度に理解する)

この記事 Grok 4.1 新登場：AI 幻覚が 3 倍減少し、感情理解と創造的なライティングが全面的にアップグレード最初に登場したのは鏈新聞 ABMedia。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

0/400

コメントなし

ChainNewsAbmedia

人気の話題もっと見る
#TopGainersInADownMarket
27.51K 人気度
#FOMCMeetingMinutesComingUp
24.39K 人気度
#BitcoinPriceWatch
24.84K 人気度
#GovShutdownOfficiallyEnded
35.94K 人気度
#BuyTheDipOrWaitNow?
23.3K 人気度

人気の Gate Funもっと見る

1
WenWen
時価総額:$3.74K保有者数:1
0.00%
2
BABYBaby
時価総額:$3.75K保有者数:1
0.00%
3
my蚂蚁金服
時価総額:$3.8K保有者数:2
0.04%
4
BNTBANTU
時価総額:$3.75K保有者数:1
0.00%
5
morningmorning
時価総額:$4.06K保有者数:6
1.38%

ピン

サイトマップ