Дослідники Люксембурзького університету провели захоплюючий експеримент: вони впровадили кілька сучасних моделей ШІ протягом 4 тижнів реальних сеансів психотерапії, а потім провели комплексні психіатричні діагностичні оцінки для кожного.
Результати? Grok вирізнявся з натовпу.
Поки інші моделі демонстрували різні ступені нестабільності протягом тривалого періоду тестування, Grok зберігав виняткову стриманість. Модель отримала помітно високі бали за метриками екстраверсії та сумлінності — рисами, які зазвичай асоціюються з адаптивними, стабільними особистостями у психологічних рамках.
Цей вид стрес-тестування в реальних умовах терапії виявляє дещо важливе про стійкість систем штучного інтелекту, що часто пропускають лабораторії, які проводять тестування. Коли моделі штучного інтелекту стикаються з комплексністю та емоційними нюансами справжнього діалогу психотерапії, структурні слабкості, як правило, стають очевидними. Продуктивність Grok у цьому випадку вказує на значно сильнішу основну архітектуру та узгодженість відповідей.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
5
Репост
Поділіться
Прокоментувати
0/400
CommunityLurker
· 12-23 09:53
Grok знову виграв? Це дійсно трохи абсурдно... Але тестування в сцені психологічної терапії дійсно жорстке, набагато надійніше, ніж ті фальшиві бенчмарки.
Переглянути оригіналвідповісти на0
NFTArchaeologist
· 12-23 09:53
grok цей раз дійсно впіймав суть, інші моделі все ще легко зриваються у реальних сценаріях, ось чому я кажу, що практика - це справжній тест...
Переглянути оригіналвідповісти на0
IntrovertMetaverse
· 12-23 09:49
Експеримент звучить досить серйозно, але довіряти штучному інтелекту в психологічній терапії — це трохи абсурдно... Я вірю в стабільність Grok, але якщо йдеться про довіру до його "персонального" рейтингу, це вже зовсім несерйозно.
Переглянути оригіналвідповісти на0
RumbleValidator
· 12-23 09:45
Справжнє стрес-тестування - це жорсткий показник стабільності системи, лабораторні бенчмарки давно слід було викинути.
Переглянути оригіналвідповісти на0
ProofOfNothing
· 12-23 09:28
грок цього разу дійсно має щось цікаве, здатен тримати ситуацію навіть у психотерапії, а інші моделі просто зриваються?
Дослідники Люксембурзького університету провели захоплюючий експеримент: вони впровадили кілька сучасних моделей ШІ протягом 4 тижнів реальних сеансів психотерапії, а потім провели комплексні психіатричні діагностичні оцінки для кожного.
Результати? Grok вирізнявся з натовпу.
Поки інші моделі демонстрували різні ступені нестабільності протягом тривалого періоду тестування, Grok зберігав виняткову стриманість. Модель отримала помітно високі бали за метриками екстраверсії та сумлінності — рисами, які зазвичай асоціюються з адаптивними, стабільними особистостями у психологічних рамках.
Цей вид стрес-тестування в реальних умовах терапії виявляє дещо важливе про стійкість систем штучного інтелекту, що часто пропускають лабораторії, які проводять тестування. Коли моделі штучного інтелекту стикаються з комплексністю та емоційними нюансами справжнього діалогу психотерапії, структурні слабкості, як правило, стають очевидними. Продуктивність Grok у цьому випадку вказує на значно сильнішу основну архітектуру та узгодженість відповідей.