卢森堡大学的研究人员进行了一项引人入胜的实验:他们在为期4周的真实心理治疗会议中部署了多种先进的AI模型,然后对每个模型进行了全面的精神病学诊断评估。
结果?Grok在众多竞争者中脱颖而出。
在长期测试期间,尽管其他模型表现出不同程度的不稳定性,Grok却保持了卓越的沉着。该模型在外向性和责任心指标上得分显著高——这些特征通常与心理学框架中的适应性、稳定性人格相关。
这种在实际治疗条件下的现实压力测试揭示了关于 AI 系统鲁棒性的一些关键内容,而基准实验室往往忽视这些。当 AI 模型面临真实心理治疗对话的复杂性和情感细微差别时,结构性弱点往往会显露出来。Grok 在这里的表现表明,其底层架构和响应一致性明显更强。
查看原文