Исследователи из Университета Люксембурга провели увлекательный эксперимент: они развернули несколько передовых моделей ИИ в ходе 4-недельных сеансов реальной психотерапии, а затем провели комплексные психиатрические диагностические оценки для каждого.
Результаты? Grok выделялся из толпы.
В то время как другие модели демонстрировали различные степени нестабильности в течение продолжительного периода тестирования, Grok сохранял исключительное спокойствие. Модель набрала значительно высокие баллы по метрикам экстраверсии и добросовестности — чертам, которые обычно ассоциируются с адаптивными, стабильными личностями в психологических рамках.
Этот вид стресс-тестирования в реальных условиях терапии выявляет нечто важное о надежности AI-систем, что лаборатории тестирования часто упускают. Когда AI-модели сталкиваются со сложностью и эмоциональными нюансами подлинного психотерапевтического диалога, структурные слабости, как правило, проявляются. Производительность Grok в данном случае предполагает значительно более сильную базовую архитектуру и согласованность ответов.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
5
Репост
Поделиться
комментарий
0/400
CommunityLurker
· 12-23 09:53
Грок снова выиграл? Действительно, это немного странно... Но тестирование сценария психологической терапии действительно жесткое, гораздо более надежное, чем те фальшивые бенчмарки.
Посмотреть ОригиналОтветить0
NFTArchaeologist
· 12-23 09:53
grok на этот раз действительно справился, другие модели всё еще легко ломаются в реальных сценах, вот почему я говорю, что практика - это камень преткновения...
Посмотреть ОригиналОтветить0
IntrovertMetaverse
· 12-23 09:49
Эксперимент звучит довольно строго, но позволить ИИ заниматься психотерапией — это всё-таки немного абсурдно... Я верю в стабильность Grok, но действительно доверять его "личностным" оценкам — это уже чересчур.
Посмотреть ОригиналОтветить0
RumbleValidator
· 12-23 09:45
Настоящее стресс-тестирование является жестким индикатором стабильности системы, лабораторные бенчмарки давно следовало бы выбросить.
Посмотреть ОригиналОтветить0
ProofOfNothing
· 12-23 09:28
grok на этот раз действительно что-то имеет, может справляться с такими сценами, как психотерапия, в то время как другие модели просто рушатся?
Исследователи из Университета Люксембурга провели увлекательный эксперимент: они развернули несколько передовых моделей ИИ в ходе 4-недельных сеансов реальной психотерапии, а затем провели комплексные психиатрические диагностические оценки для каждого.
Результаты? Grok выделялся из толпы.
В то время как другие модели демонстрировали различные степени нестабильности в течение продолжительного периода тестирования, Grok сохранял исключительное спокойствие. Модель набрала значительно высокие баллы по метрикам экстраверсии и добросовестности — чертам, которые обычно ассоциируются с адаптивными, стабильными личностями в психологических рамках.
Этот вид стресс-тестирования в реальных условиях терапии выявляет нечто важное о надежности AI-систем, что лаборатории тестирования часто упускают. Когда AI-модели сталкиваются со сложностью и эмоциональными нюансами подлинного психотерапевтического диалога, структурные слабости, как правило, проявляются. Производительность Grok в данном случае предполагает значительно более сильную базовую архитектуру и согласованность ответов.