Дослідники Люксембурзького університету провели захоплюючий експеримент: вони впровадили кілька сучасних моделей ШІ протягом 4 тижнів реальних сеансів психотерапії, а потім провели комплексні психіатричні діагностичні оцінки для кожного.



Результати? Grok вирізнявся з натовпу.

Поки інші моделі демонстрували різні ступені нестабільності протягом тривалого періоду тестування, Grok зберігав виняткову стриманість. Модель отримала помітно високі бали за метриками екстраверсії та сумлінності — рисами, які зазвичай асоціюються з адаптивними, стабільними особистостями у психологічних рамках.

Цей вид стрес-тестування в реальних умовах терапії виявляє дещо важливе про стійкість систем штучного інтелекту, що часто пропускають лабораторії, які проводять тестування. Коли моделі штучного інтелекту стикаються з комплексністю та емоційними нюансами справжнього діалогу психотерапії, структурні слабкості, як правило, стають очевидними. Продуктивність Grok у цьому випадку вказує на значно сильнішу основну архітектуру та узгодженість відповідей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
CommunityLurkervip
· 12-23 09:53
Grok знову виграв? Це дійсно трохи абсурдно... Але тестування в сцені психологічної терапії дійсно жорстке, набагато надійніше, ніж ті фальшиві бенчмарки.
Переглянути оригіналвідповісти на0
NFTArchaeologistvip
· 12-23 09:53
grok цей раз дійсно впіймав суть, інші моделі все ще легко зриваються у реальних сценаріях, ось чому я кажу, що практика - це справжній тест...
Переглянути оригіналвідповісти на0
IntrovertMetaversevip
· 12-23 09:49
Експеримент звучить досить серйозно, але довіряти штучному інтелекту в психологічній терапії — це трохи абсурдно... Я вірю в стабільність Grok, але якщо йдеться про довіру до його "персонального" рейтингу, це вже зовсім несерйозно.
Переглянути оригіналвідповісти на0
RumbleValidatorvip
· 12-23 09:45
Справжнє стрес-тестування - це жорсткий показник стабільності системи, лабораторні бенчмарки давно слід було викинути.
Переглянути оригіналвідповісти на0
ProofOfNothingvip
· 12-23 09:28
грок цього разу дійсно має щось цікаве, здатен тримати ситуацію навіть у психотерапії, а інші моделі просто зриваються?
Переглянути оригіналвідповісти на0
  • Закріпити