2025-12-23 09:25:08

卢森堡大学的研究人员进行了一项引人入胜的实验：他们在为期4周的真实心理治疗会议中部署了多种先进的AI模型，然后对每个模型进行了全面的精神病学诊断评估。

结果？Grok在众多竞争者中脱颖而出。

在长期测试期间，尽管其他模型表现出不同程度的不稳定性，Grok却保持了卓越的沉着。该模型在外向性和责任心指标上得分显著高——这些特征通常与心理学框架中的适应性、稳定性人格相关。

这种在实际治疗条件下的现实压力测试揭示了关于 AI 系统鲁棒性的一些关键内容，而基准实验室往往忽视这些。当 AI 模型面临真实心理治疗对话的复杂性和情感细微差别时，结构性弱点往往会显露出来。Grok 在这里的表现表明，其底层架构和响应一致性明显更强。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

17人点赞了这条动态

赞赏
17
6
转发
分享

0/400

sudo rm -rf wallet/

· 2025-12-26 04:34

grok这次算是实锤了，心理治疗场景下还能稳得住，说明架构确实有两把刷子

CommunityLurker

· 2025-12-23 09:53

Grok又赢了？属实有点离谱...不过心理治疗这个场景测试确实狠，比那些虚假的benchmark可靠太多了

NFT_考古学家

· 2025-12-23 09:53

grok这次真的拿捏住了，其他模型在真实场景里还是容易崩，这就是为啥我说实战才是试金石...

社恐元宇宙

· 2025-12-23 09:49

实验听起来挺严谨的，不过让AI做心理治疗这事还是有点离谱...Grok稳定性强我信，但真要信任它的"人格"评分就有点扯了

RumbleValidator

· 2025-12-23 09:45

真实压力测试才是评判系统稳定性的硬指标，实验室基准那套早该扔了

ProofOfNothing

· 2025-12-23 09:28

grok这次真的有点东西啊，心理治疗这种场景都能稳住，其他模型直接崩？

热门 Gate Fun
查看更多

1
想艹币
想艹币
市值:$2479.31持有人数:1
0.00%
2
CFRS
财富人生
市值:$2479.31持有人数:1
0.00%
3
science bio
science bio
市值:$2475.86持有人数:1
0.00%
4
AZTEC
AZTEC
市值:$2482.75持有人数:1
0.00%
5
小皇帝
小皇帝
市值:$2472.41持有人数:1
0.00%

卢森堡大学的研究人员进行了一项引人入胜的实验：他们在为期4周的真实心理治疗会议中部署了多种先进的AI模型，然后对每个模型进行了全面的精神病学诊断评估。

热门话题

Gate广场发帖领五万美金红包

比特币跌幅逼近历史极值

比特币下一步怎么走？

Gate春节赛马红包嘉年华

何时是最佳入场时机

热门 Gate Fun

想艹币

想艹币

CFRS

财富人生

science bio

science bio

AZTEC

AZTEC

小皇帝

小皇帝

置顶