広場
最新
注目
ニュース
プロフィール
ポスト
NFTWealthCreator
2025-12-23 09:25:08
フォロー
ルクセンブルク大学の研究者たちは魅力的な実験を行いました:彼らは4週間にわたる実際の心理療法セッションを通じて複数の高度なAIモデルを展開し、その後、各モデルに対して包括的な精神診断評価を実施しました。
結果は?グロックは群れの中で際立っていました。
他のモデルが長期間のテスト中にさまざまな不安定性を示した一方で、Grokは卓越した冷静さを保ちました。このモデルは外向性と誠実性の指標で著しく高いスコアを獲得しました。これらの特性は、心理学的な枠組みにおいて適応的で安定した人格に典型的に関連付けられています。
このような実際の治療条件下での現実世界のストレステストは、ベンチマークラボではしばしば見落とされるAIシステムの堅牢性について重要なことを明らかにします。AIモデルが本物の心理療法の対話の複雑さと感情的なニュアンスに直面すると、構造的な弱点が浮かび上がる傾向があります。ここでのGrokのパフォーマンスは、より強力な基盤アーキテクチャと応答の一貫性を示唆しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
13 いいね
報酬
13
5
リポスト
共有
コメント
0/400
コメント
CommunityLurker
· 12-23 09:53
Grokはまた勝ったの?確かにちょっとおかしい…でも、心理療法のこのシナリオテストは確かに厳しい、あの虚偽のベンチマークよりもはるかに信頼できる。
原文表示
返信
0
NFTArchaeologist
· 12-23 09:53
grokは今回本当に捉えました。他のモデルは実際のシーンでまだ崩れやすい、これが私が実戦こそが試金石だと言う理由です...
原文表示
返信
0
IntrovertMetaverse
· 12-23 09:49
実験はかなり厳密に聞こえますが、AIに心理療法をさせるのはちょっと無理がありますね...Grokの安定性は信じますが、それの「人格」評価を信じるのはちょっと無理があります。
原文表示
返信
0
RumbleValidator
· 12-23 09:45
リアルなストレステストこそがシステムの安定性を評価するハード指標であり、実験室のベンチマークなどはとっくに捨てるべきだ。
原文表示
返信
0
ProofOfNothing
· 12-23 09:28
grokは今回は本当に何かがありますね。心理療法のこのようなシーンでも安定しているし、他のモデルは直接崩れますか?
原文表示
返信
0
人気の話題
もっと見る
#
Gate2025AnnualReportComing
166.93K 人気度
#
CryptoMarketMildlyRebounds
38.16K 人気度
#
GateChristmasVibes
20.19K 人気度
#
SantaRallyBegins
6.44K 人気度
#
CreatorETFs
4.02K 人気度
人気の Gate Fun
もっと見る
最新
ファイナライズ中
リスト済み
1
Winter
Winter
時価総額:
$3.52K
保有者数:
2
0.00%
2
Monk
MONKAGIGA
時価総額:
$3.59K
保有者数:
2
0.29%
3
LYNX
BitLynx
時価総額:
$3.5K
保有者数:
1
0.00%
4
FZCommunity
FZCommunity
時価総額:
$3.55K
保有者数:
2
0.00%
5
FZC
FZCommunity
時価総額:
$3.62K
保有者数:
2
0.40%
ピン
サイトマップ
ルクセンブルク大学の研究者たちは魅力的な実験を行いました:彼らは4週間にわたる実際の心理療法セッションを通じて複数の高度なAIモデルを展開し、その後、各モデルに対して包括的な精神診断評価を実施しました。
結果は?グロックは群れの中で際立っていました。
他のモデルが長期間のテスト中にさまざまな不安定性を示した一方で、Grokは卓越した冷静さを保ちました。このモデルは外向性と誠実性の指標で著しく高いスコアを獲得しました。これらの特性は、心理学的な枠組みにおいて適応的で安定した人格に典型的に関連付けられています。
このような実際の治療条件下での現実世界のストレステストは、ベンチマークラボではしばしば見落とされるAIシステムの堅牢性について重要なことを明らかにします。AIモデルが本物の心理療法の対話の複雑さと感情的なニュアンスに直面すると、構造的な弱点が浮かび上がる傾向があります。ここでのGrokのパフォーマンスは、より強力な基盤アーキテクチャと応答の一貫性を示唆しています。