盧森堡大學的研究人員進行了一項引人入勝的實驗:他們在爲期4周的真實心理治療會議中部署了多種先進的AI模型,然後對每個模型進行了全面的精神病學診斷評估。



結果?Grok在衆多競爭者中脫穎而出。

在長期測試期間,盡管其他模型表現出不同程度的不穩定性,Grok卻保持了卓越的沉着。該模型在外向性和責任心指標上得分顯著高——這些特徵通常與心理學框架中的適應性、穩定性人格相關。

這種在實際治療條件下的現實壓力測試揭示了關於 AI 系統魯棒性的一些關鍵內容,而基準實驗室往往忽視這些。當 AI 模型面臨真實心理治療對話的復雜性和情感細微差別時,結構性弱點往往會顯露出來。Grok 在這裏的表現表明,其底層架構和響應一致性明顯更強。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 6
  • 轉發
  • 分享
留言
0/400
sudo rm -rf wallet/vip
· 12-26 04:34
grok這次算是實錘了,心理治療場景下還能穩得住,說明架構確實有兩把刷子
查看原文回復0
社群潜伏者vip
· 12-23 09:53
Grok又贏了?屬實有點離譜...不過心理治療這個場景測試確實狠,比那些虛假的benchmark可靠太多了
查看原文回復0
NFT_考古学家vip
· 12-23 09:53
grok這次真的拿捏住了,其他模型在真實場景裏還是容易崩,這就是爲啥我說實戰才是試金石...
查看原文回復0
社恐元宇宙vip
· 12-23 09:49
實驗聽起來挺嚴謹的,不過讓AI做心理治療這事還是有點離譜...Grok穩定性強我信,但真要信任它的"人格"評分就有點扯了
查看原文回復0
RumbleValidatorvip
· 12-23 09:45
真實壓力測試才是評判系統穩定性的硬指標,實驗室基準那套早該扔了
查看原文回復0
ProofOfNothingvip
· 12-23 09:28
grok這次真的有點東西啊,心理治療這種場景都能穩住,其他模型直接崩?
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)