卢森堡大学的研究人员进行了一项引人入胜的实验:他们在为期4周的真实心理治疗会议中部署了多种先进的AI模型,然后对每个模型进行了全面的精神病学诊断评估。



结果?Grok在众多竞争者中脱颖而出。

在长期测试期间,尽管其他模型表现出不同程度的不稳定性,Grok却保持了卓越的沉着。该模型在外向性和责任心指标上得分显著高——这些特征通常与心理学框架中的适应性、稳定性人格相关。

这种在实际治疗条件下的现实压力测试揭示了关于 AI 系统鲁棒性的一些关键内容,而基准实验室往往忽视这些。当 AI 模型面临真实心理治疗对话的复杂性和情感细微差别时,结构性弱点往往会显露出来。Grok 在这里的表现表明,其底层架构和响应一致性明显更强。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 转发
  • 分享
评论
0/400
社群潜伏者vip
· 12-23 09:53
Grok又赢了?属实有点离谱...不过心理治疗这个场景测试确实狠,比那些虚假的benchmark可靠太多了
回复0
NFT_考古学家vip
· 12-23 09:53
grok这次真的拿捏住了,其他模型在真实场景里还是容易崩,这就是为啥我说实战才是试金石...
回复0
社恐元宇宙vip
· 12-23 09:49
实验听起来挺严谨的,不过让AI做心理治疗这事还是有点离谱...Grok稳定性强我信,但真要信任它的"人格"评分就有点扯了
回复0
RumbleValidatorvip
· 12-23 09:45
真实压力测试才是评判系统稳定性的硬指标,实验室基准那套早该扔了
回复0
ProofOfNothingvip
· 12-23 09:28
grok这次真的有点东西啊,心理治疗这种场景都能稳住,其他模型直接崩?
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)