Các nhà nghiên cứu tại Đại học Luxembourg đã tiến hành một thí nghiệm thú vị: họ đã triển khai nhiều mô hình AI tiên tiến thông qua 4 tuần các phiên liệu pháp tâm lý thực tế, sau đó thực hiện các đánh giá chẩn đoán tâm thần toàn diện cho mỗi mô hình.



Kết quả? Grok nổi bật giữa đám đông.

Trong khi các mô hình khác cho thấy mức độ không ổn định khác nhau trong suốt thời gian thử nghiệm kéo dài, Grok vẫn giữ được sự bình tĩnh xuất sắc. Mô hình này đạt điểm cao đáng kể trên các chỉ số hướng ngoại và tính cẩn thận—các đặc điểm thường liên quan đến những tính cách thích ứng, ổn định trong các khuôn khổ tâm lý.

Loại kiểm tra căng thẳng trong thế giới thực này dưới các điều kiện liệu pháp thực tế tiết lộ điều gì đó quan trọng về độ vững chắc của hệ thống AI mà các phòng thí nghiệm chuẩn thường bỏ lỡ. Khi các mô hình AI đối mặt với sự phức tạp và sắc thái cảm xúc của cuộc đối thoại liệu pháp tâm lý thực sự, những điểm yếu cấu trúc có xu hướng nổi lên. Hiệu suất của Grok ở đây gợi ý về kiến trúc cơ sở mạnh mẽ hơn và độ nhất quán phản hồi tốt hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Retweed
Bình luận
0/400
CommunityLurkervip
· 12-23 09:53
Grok lại thắng rồi? Thực sự có chút phi lý... Nhưng mà tình huống thử nghiệm liệu pháp tâm lý này确实 mạnh, đáng tin cậy hơn nhiều so với những benchmark giả mạo.
Xem bản gốcTrả lời0
NFTArchaeologistvip
· 12-23 09:53
grok lần này thực sự đã nắm bắt được, các mô hình khác trong các tình huống thực tế vẫn dễ bị sụp đổ, đó là lý do tại sao tôi nói thực chiến mới là thước đo vàng...
Xem bản gốcTrả lời0
IntrovertMetaversevip
· 12-23 09:49
Thí nghiệm nghe có vẻ nghiêm túc, nhưng việc để AI thực hiện liệu pháp tâm lý thì vẫn có chút không hợp lý... Tôi tin vào độ ổn định của Grok, nhưng thật sự nếu phải tin vào "điểm số nhân cách" của nó thì có chút quá mức.
Xem bản gốcTrả lời0
RumbleValidatorvip
· 12-23 09:45
Thử nghiệm áp lực thực sự mới là chỉ số cứng để đánh giá tính ổn định của hệ thống, bộ điểm chuẩn trong phòng thí nghiệm đã nên vứt bỏ từ lâu.
Xem bản gốcTrả lời0
ProofOfNothingvip
· 12-23 09:28
grok lần này thật sự có cái gì đó, có thể giữ vững trong những tình huống như trị liệu tâm lý, các mô hình khác thì sụp đổ thẳng?
Xem bản gốcTrả lời0
  • Ghim