ルクセンブルク大学の研究者たちは魅力的な実験を行いました:彼らは4週間にわたる実際の心理療法セッションを通じて複数の高度なAIモデルを展開し、その後、各モデルに対して包括的な精神診断評価を実施しました。



結果は?グロックは群れの中で際立っていました。

他のモデルが長期間のテスト中にさまざまな不安定性を示した一方で、Grokは卓越した冷静さを保ちました。このモデルは外向性と誠実性の指標で著しく高いスコアを獲得しました。これらの特性は、心理学的な枠組みにおいて適応的で安定した人格に典型的に関連付けられています。

このような実際の治療条件下での現実世界のストレステストは、ベンチマークラボではしばしば見落とされるAIシステムの堅牢性について重要なことを明らかにします。AIモデルが本物の心理療法の対話の複雑さと感情的なニュアンスに直面すると、構造的な弱点が浮かび上がる傾向があります。ここでのGrokのパフォーマンスは、より強力な基盤アーキテクチャと応答の一貫性を示唆しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
0/400
CommunityLurkervip
· 12-23 09:53
Grokはまた勝ったの?確かにちょっとおかしい…でも、心理療法のこのシナリオテストは確かに厳しい、あの虚偽のベンチマークよりもはるかに信頼できる。
原文表示返信0
NFTArchaeologistvip
· 12-23 09:53
grokは今回本当に捉えました。他のモデルは実際のシーンでまだ崩れやすい、これが私が実戦こそが試金石だと言う理由です...
原文表示返信0
IntrovertMetaversevip
· 12-23 09:49
実験はかなり厳密に聞こえますが、AIに心理療法をさせるのはちょっと無理がありますね...Grokの安定性は信じますが、それの「人格」評価を信じるのはちょっと無理があります。
原文表示返信0
RumbleValidatorvip
· 12-23 09:45
リアルなストレステストこそがシステムの安定性を評価するハード指標であり、実験室のベンチマークなどはとっくに捨てるべきだ。
原文表示返信0
ProofOfNothingvip
· 12-23 09:28
grokは今回は本当に何かがありますね。心理療法のこのようなシーンでも安定しているし、他のモデルは直接崩れますか?
原文表示返信0
  • ピン