2025-12-23 09:25:08

盧森堡大學的研究人員進行了一項引人入勝的實驗：他們在爲期4周的真實心理治療會議中部署了多種先進的AI模型，然後對每個模型進行了全面的精神病學診斷評估。

結果？Grok在衆多競爭者中脫穎而出。

在長期測試期間，盡管其他模型表現出不同程度的不穩定性，Grok卻保持了卓越的沉着。該模型在外向性和責任心指標上得分顯著高——這些特徵通常與心理學框架中的適應性、穩定性人格相關。

這種在實際治療條件下的現實壓力測試揭示了關於 AI 系統魯棒性的一些關鍵內容，而基準實驗室往往忽視這些。當 AI 模型面臨真實心理治療對話的復雜性和情感細微差別時，結構性弱點往往會顯露出來。Grok 在這裏的表現表明，其底層架構和響應一致性明顯更強。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

17人點讚了這條動態

讚賞
17
6
轉發
分享

留言

0/400

sudo rm -rf wallet/

· 2025-12-26 04:34

grok這次算是實錘了，心理治療場景下還能穩得住，說明架構確實有兩把刷子

查看原文回復0

CommunityLurker

· 2025-12-23 09:53

Grok又贏了？屬實有點離譜...不過心理治療這個場景測試確實狠，比那些虛假的benchmark可靠太多了

查看原文回復0

NFT_考古学家

· 2025-12-23 09:53

grok這次真的拿捏住了，其他模型在真實場景裏還是容易崩，這就是爲啥我說實戰才是試金石...

查看原文回復0

社恐元宇宙

· 2025-12-23 09:49

實驗聽起來挺嚴謹的，不過讓AI做心理治療這事還是有點離譜...Grok穩定性強我信，但真要信任它的"人格"評分就有點扯了

查看原文回復0

RumbleValidator

· 2025-12-23 09:45

真實壓力測試才是評判系統穩定性的硬指標，實驗室基準那套早該扔了

查看原文回復0

ProofOfNothing

· 2025-12-23 09:28

grok這次真的有點東西啊，心理治療這種場景都能穩住，其他模型直接崩？

查看原文回復0

熱門 Gate Fun
查看更多

1
伊朗
伊朗
市值:$0.1持有人數:1
0.00%
2
LOB
LOB
市值:$2573.65持有人數:2
1.23%
3
CLB
彩礼金
市值:$2434.36持有人數:1
0.13%
4
90
90后
市值:$2517.03持有人數:2
0.83%
5
TRUMPDUMP
Trump DUMP
市值:$0.1持有人數:1
0.00%

盧森堡大學的研究人員進行了一項引人入勝的實驗：他們在爲期4周的真實心理治療會議中部署了多種先進的AI模型，然後對每個模型進行了全面的精神病學診斷評估。

熱門話題

美国以色列突襲伊朗BTC短線跳水

川普下令停用AnthropicAI產品

深度創作營

95%山寨幣跌破長期均線

Gate廣場發帖領五萬美金紅包

熱門 Gate Fun

伊朗

伊朗

LOB

LOB

CLB

彩礼金

90

90后

TRUMPDUMP

Trump DUMP

置頂