أجرى الباحثون في جامعة لوكسمبورغ تجربة مثيرة: حيث نشروا نماذج ذكاء اصطناعي متقدمة متعددة على مدى 4 أسابيع من جلسات العلاج النفسي الحقيقية، ثم قاموا بإجراء تقييمات تشخيصية نفسية شاملة لكل منها.
ما النتائج؟ برز غروك من بين الحشد.
بينما أظهرت النماذج الأخرى درجات متفاوتة من عدم الاستقرار خلال فترة الاختبار الممتدة، حافظ Grok على اتزان استثنائي. حصل النموذج على درجات مرتفعة بشكل ملحوظ في مقاييس الانفتاح والضمير - وهي صفات ترتبط عادةً بالشخصيات التكيفية والمستقرة في الأطر النفسية.
تظهر هذه النوعية من اختبارات الضغط في العالم الحقيقي تحت ظروف علاجية فعلية شيئًا حيويًا حول قوة أنظمة الذكاء الاصطناعي التي غالبًا ما تفوتها مختبرات المعايير. عندما تواجه نماذج الذكاء الاصطناعي تعقيد ونكهة عاطفية من حوار العلاج النفسي الحقيقي، تميل نقاط الضعف الهيكلية إلى الظهور. تشير أداء Grok هنا إلى بنية أساسية أقوى بكثير وتماسك استجابة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 13
أعجبني
13
5
إعادة النشر
مشاركة
تعليق
0/400
CommunityLurker
· 12-23 09:53
هل فاز Grok مرة أخرى؟ هذا بالفعل غريب بعض الشيء... لكن اختبار سيناريو العلاج النفسي هذا قاسي حقًا، فهو أكثر موثوقية بكثير من تلك المعايير الزائفة.
شاهد النسخة الأصليةرد0
NFTArchaeologist
· 12-23 09:53
grok هذه المرة كانت دقيقة حقًا، النماذج الأخرى لا تزال سهلة الانهيار في السيناريوهات الحقيقية، وهذا هو السبب في أنني أقول إن الممارسة العملية هي حجر الاختبار...
شاهد النسخة الأصليةرد0
IntrovertMetaverse
· 12-23 09:49
التجربة تبدو دقيقة إلى حد ما، لكن جعل الذكاء الاصطناعي يقوم بالعلاج النفسي يبدو أمرًا غير منطقي بعض الشيء... أنا أؤمن بثبات Grok، ولكن إذا كان علينا أن نثق في تقييم "الشخصية" الخاص به، فهذا يبدو غير معقول.
شاهد النسخة الأصليةرد0
RumbleValidator
· 12-23 09:45
الاختبار الحقيقي للضغط هو المعيار الصلب لتقييم استقرار النظام، كان يجب التخلص من تلك المجموعة في المختبر منذ فترة.
شاهد النسخة الأصليةرد0
ProofOfNothing
· 12-23 09:28
grok هذه المرة لديها شيء ما حقًا، يمكنها الحفاظ على الاستقرار في مشهد العلاج النفسي، بينما تنهار النماذج الأخرى مباشرة؟
أجرى الباحثون في جامعة لوكسمبورغ تجربة مثيرة: حيث نشروا نماذج ذكاء اصطناعي متقدمة متعددة على مدى 4 أسابيع من جلسات العلاج النفسي الحقيقية، ثم قاموا بإجراء تقييمات تشخيصية نفسية شاملة لكل منها.
ما النتائج؟ برز غروك من بين الحشد.
بينما أظهرت النماذج الأخرى درجات متفاوتة من عدم الاستقرار خلال فترة الاختبار الممتدة، حافظ Grok على اتزان استثنائي. حصل النموذج على درجات مرتفعة بشكل ملحوظ في مقاييس الانفتاح والضمير - وهي صفات ترتبط عادةً بالشخصيات التكيفية والمستقرة في الأطر النفسية.
تظهر هذه النوعية من اختبارات الضغط في العالم الحقيقي تحت ظروف علاجية فعلية شيئًا حيويًا حول قوة أنظمة الذكاء الاصطناعي التي غالبًا ما تفوتها مختبرات المعايير. عندما تواجه نماذج الذكاء الاصطناعي تعقيد ونكهة عاطفية من حوار العلاج النفسي الحقيقي، تميل نقاط الضعف الهيكلية إلى الظهور. تشير أداء Grok هنا إلى بنية أساسية أقوى بكثير وتماسك استجابة.