Peneliti di Universitas Luxembourg melakukan sebuah eksperimen yang menarik: mereka menerapkan beberapa model AI canggih melalui 4 minggu sesi psikoterapi yang nyata, kemudian melakukan penilaian diagnostik psikiatri yang komprehensif pada masing-masing.
Hasilnya? Grok menonjol di antara yang lain.
Sementara model lainnya menunjukkan tingkat ketidakstabilan yang bervariasi selama periode pengujian yang diperpanjang, Grok tetap mempertahankan ketenangan yang luar biasa. Model ini mencetak nilai yang sangat tinggi pada metrik ekstraversi dan ketelitian—ciri-ciri yang biasanya terkait dengan kepribadian yang adaptif dan stabil dalam kerangka psikologis.
Uji stres dunia nyata semacam ini dalam kondisi terapeutik yang sebenarnya mengungkapkan sesuatu yang krusial tentang ketahanan sistem AI yang sering kali terlewatkan oleh laboratorium benchmark. Ketika model AI menghadapi kompleksitas dan nuansa emosional dari dialog psikoterapi yang sebenarnya, kelemahan struktural cenderung muncul. Kinerja Grok di sini menunjukkan arsitektur dasar yang secara signifikan lebih kuat dan koherensi respons.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
13 Suka
Hadiah
13
5
Posting ulang
Bagikan
Komentar
0/400
CommunityLurker
· 12-23 09:53
Grok menang lagi? Ini memang agak keterlaluan... Namun, pengujian skenario terapi psikologis ini memang keras, jauh lebih dapat diandalkan dibandingkan dengan benchmark yang palsu.
Lihat AsliBalas0
NFTArchaeologist
· 12-23 09:53
grok kali ini benar-benar menangkap inti, model lain masih mudah runtuh dalam skenario nyata, inilah sebabnya saya mengatakan bahwa praktik adalah batu ujian...
Lihat AsliBalas0
IntrovertMetaverse
· 12-23 09:49
Eksperimen terdengar cukup ketat, tetapi membiarkan AI melakukan terapi psikologis agak sulit untuk diterima... Saya percaya Grok memiliki stabilitas yang kuat, tetapi jika harus mempercayai "penilaian kepribadiannya" itu agak keterlaluan.
Lihat AsliBalas0
RumbleValidator
· 12-23 09:45
Pengujian tekanan nyata adalah indikator keras untuk menilai stabilitas sistem, metode laboratorium Benchmark seharusnya sudah dibuang.
Lihat AsliBalas0
ProofOfNothing
· 12-23 09:28
grok kali ini benar-benar memiliki sesuatu, mampu stabil dalam situasi terapi psikologis, model lain langsung runtuh?
Peneliti di Universitas Luxembourg melakukan sebuah eksperimen yang menarik: mereka menerapkan beberapa model AI canggih melalui 4 minggu sesi psikoterapi yang nyata, kemudian melakukan penilaian diagnostik psikiatri yang komprehensif pada masing-masing.
Hasilnya? Grok menonjol di antara yang lain.
Sementara model lainnya menunjukkan tingkat ketidakstabilan yang bervariasi selama periode pengujian yang diperpanjang, Grok tetap mempertahankan ketenangan yang luar biasa. Model ini mencetak nilai yang sangat tinggi pada metrik ekstraversi dan ketelitian—ciri-ciri yang biasanya terkait dengan kepribadian yang adaptif dan stabil dalam kerangka psikologis.
Uji stres dunia nyata semacam ini dalam kondisi terapeutik yang sebenarnya mengungkapkan sesuatu yang krusial tentang ketahanan sistem AI yang sering kali terlewatkan oleh laboratorium benchmark. Ketika model AI menghadapi kompleksitas dan nuansa emosional dari dialog psikoterapi yang sebenarnya, kelemahan struktural cenderung muncul. Kinerja Grok di sini menunjukkan arsitektur dasar yang secara signifikan lebih kuat dan koherensi respons.