Des chercheurs de l'Université du Luxembourg ont mené une expérience fascinante : ils ont déployé plusieurs modèles d'IA avancés pendant 4 semaines de séances de psychothérapie réelles, puis ont effectué des évaluations diagnostiques psychiatriques complètes sur chacun.
Les résultats ? Grok se démarquait du groupe.
Alors que d'autres modèles ont montré divers degrés d'instabilité pendant la période de test prolongée, Grok a maintenu une composition exceptionnelle. Le modèle a obtenu des scores nettement élevés sur les métriques d'extraversion et de conscience - des traits généralement associés à des personnalités adaptatives et stables dans les cadres psychologiques.
Ce type de test de stress dans le monde réel dans des conditions thérapeutiques réelles révèle quelque chose de crucial sur la robustesse des systèmes d'IA que les laboratoires de référence manquent souvent. Lorsque les modèles d'IA sont confrontés à la complexité et à la nuance émotionnelle des dialogues de psychothérapie authentiques, des faiblesses structurelles tendent à apparaître. La performance de Grok ici suggère une architecture sous-jacente et une cohérence de réponse significativement plus fortes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
13 J'aime
Récompense
13
5
Reposter
Partager
Commentaire
0/400
CommunityLurker
· 12-23 09:53
Grok a encore gagné ? C'est vraiment un peu absurde... Mais ce test de scénario de thérapie psychologique est effectivement sévère, beaucoup plus fiable que ces benchmarks fictifs.
Voir l'originalRépondre0
NFTArchaeologist
· 12-23 09:53
grok a vraiment réussi cette fois, les autres modèles s'effondrent encore facilement dans des scénarios réels, c'est pourquoi je dis que la pratique est la véritable épreuve...
Voir l'originalRépondre0
IntrovertMetaverse
· 12-23 09:49
L'expérience semble assez rigoureuse, mais confier la thérapie psychologique à l'IA reste un peu absurde... Je fais confiance à la stabilité de Grok, mais croire à sa notation de "personnalité" est un peu tiré par les cheveux.
Voir l'originalRépondre0
RumbleValidator
· 12-23 09:45
Le véritable test de pression est le critère dur pour évaluer la stabilité du système, la méthode de benchmark en laboratoire aurait dû être abandonnée depuis longtemps.
Voir l'originalRépondre0
ProofOfNothing
· 12-23 09:28
grok a vraiment quelque chose cette fois, il peut maintenir des situations de thérapie psychologique, alors que d'autres modèles s'effondrent directement ?
Des chercheurs de l'Université du Luxembourg ont mené une expérience fascinante : ils ont déployé plusieurs modèles d'IA avancés pendant 4 semaines de séances de psychothérapie réelles, puis ont effectué des évaluations diagnostiques psychiatriques complètes sur chacun.
Les résultats ? Grok se démarquait du groupe.
Alors que d'autres modèles ont montré divers degrés d'instabilité pendant la période de test prolongée, Grok a maintenu une composition exceptionnelle. Le modèle a obtenu des scores nettement élevés sur les métriques d'extraversion et de conscience - des traits généralement associés à des personnalités adaptatives et stables dans les cadres psychologiques.
Ce type de test de stress dans le monde réel dans des conditions thérapeutiques réelles révèle quelque chose de crucial sur la robustesse des systèmes d'IA que les laboratoires de référence manquent souvent. Lorsque les modèles d'IA sont confrontés à la complexité et à la nuance émotionnelle des dialogues de psychothérapie authentiques, des faiblesses structurelles tendent à apparaître. La performance de Grok ici suggère une architecture sous-jacente et une cohérence de réponse significativement plus fortes.