Grok 4.1 Baru Diluncurkan: Penurunan Ilusi AI 3 Kali Lipat, Pemahaman Emosional dan Penulisan Kreatif Sepenuhnya Ditingkatkan

ChainNewsAbmedia

2025-11-18 13:24:04

xAI pada 11/17 mengumumkan bahwa model terbaru Grok 4.1 kini resmi dibuka untuk semua pengguna, termasuk grok.com, Twitter (X) serta aplikasi iOS dan Android. xAI menyatakan bahwa peningkatan kali ini berfokus pada “kegunaan di dunia nyata”, termasuk pemahaman emosi yang lebih kuat, ekspresi kepribadian yang lebih alami, kreativitas yang lebih tinggi, dan tingkat halusinasi yang lebih rendah, sambil mempertahankan kemampuan penalaran dan stabilitas dari Grok 4 sebelumnya.

Rasio kemenangan tes rahasia mendekati 65%, Grok 4.1 dikonfirmasi secara resmi diluncurkan.

xAI akan melakukan dua minggu pengujian rahasia dari 11/1 – 11/14, dengan mengimplementasikan versi beta Grok 4.1 dalam proporsi kecil ke aliran nyata Grok.com, X, dan aplikasi seluler, serta membandingkannya secara “blind test” dengan model sebelumnya, Grok 4.

xAI menyatakan bahwa selama pengujian buta, indeks preferensi Grok 4.1 terhadap lalu lintas nyata adalah 64.78%, jelas mengalahkan Grok 4, dan diumumkan akan resmi dibuka untuk semua pengguna pada 17/11. Juga dinyatakan bahwa mulai sekarang, semua pengguna dapat menggunakan Grok 4.1. Selama pengguna mengaktifkan mode Auto, itu akan otomatis menggunakan Grok 4.1, dan pengguna juga dapat memilihnya sendiri di menu model.

Grok 4.1 Tiga Sorotan Teknologi Sekaligus

Grok 4.1 Sorotan Teknologi 1: Arsitektur pembelajaran penguatan yang sepenuhnya baru, membuat balasan lebih alami dan lebih memahami manusia

Pembaruan inti Grok 4.1 berasal dari penggunaan “infrastruktur pembelajaran penguatan skala besar” yang sama dengan Grok 4, namun kali ini diperkenalkan metode baru yang memungkinkan model untuk secara otomatis mengoptimalkan respons pada skala yang lebih besar. Pelatihan kali ini terutama berfokus pada kualitas respons yang tidak dapat diverifikasi, seperti nada, konsistensi karakter, interaksi emosional, pemahaman maksud, dan lain-lain, yang semuanya tidak dapat dinilai hanya berdasarkan data.

Untuk mengatasi masalah ini, xAI menggunakan “model inferensi terdepan” sebagai model penghargaan (Reward Model), yang memungkinkan AI dengan kemampuan inferensi mendalam untuk secara otomatis mengevaluasi balasan Grok 4.1, dan belajar secara mandiri dari banyak perbandingan tentang apa yang merupakan jawaban yang lebih baik dan lebih sesuai dengan harapan manusia, serta melakukan penyesuaian. Oleh karena itu, Grok 4.1 secara signifikan meningkat dalam nada, kepribadian, emosi, dan tingkat interaksi, sambil mempertahankan kemampuan dan stabilitas inferensi aslinya.

Grok 4.1 Sorotan Teknologi 2: Penilaian Buta Mendapat Puncak Secara Menyeluruh, Pemahaman Emosi dan Kreativitas Meningkat Secara Signifikan

xAI juga mengumumkan berbagai hasil pengujian, menunjukkan bahwa Grok 4.1 telah mengalami peningkatan yang signifikan dalam berbagai tes kemampuan.

Di platform pertempuran uji coba global LMArena:

Grok 4.1 Thinking menduduki peringkat pertama dunia dengan 1483 Elo.

Grok 4.1 Non-Thinking dengan peringkat 1465 Elo di posisi kedua, bahkan melampaui “mode penalaran lengkap” model lainnya.

Uji Pemahaman Emosi (EQ-Bench 3): Menggunakan 45 situasi sulit dan 3 putaran interaksi, dinilai oleh Claude Sonnet 3.7. Grok 4.1 menunjukkan peningkatan signifikan dalam empati, wawasan emosional, dan pemahaman interpersonal.

Kemampuan menulis kreatif (Creative Writing v3): Dalam tes menulis dengan 32 pertanyaan × 3 putaran, Grok 4.1 mendapatkan skor lebih tinggi dalam gaya penulisan, kualitas narasi, dan kelancaran cerita, dan secara resmi menunjukkan beberapa contoh balasan.

Secara keseluruhan, Grok 4.1 tidak hanya meningkatkan kemampuan penalaran, tetapi juga memiliki peningkatan yang jelas dalam “interaksi emosional” dan “kemampuan kreatif”.

Dari gambar tersebut, dapat diketahui bahwa Grok 4.1 menduduki peringkat tiga besar dalam peringkat model inferensi, pemahaman emosi, dan penulisan kreatif.

(Catatan: Elo, yang berarti Grok 4.1 dalam platform pengujian buta global LMArena, adalah skor kekuatan yang menggunakan sistem peringkat Elo yang awalnya digunakan untuk catur untuk menilai kualitas respons model. )

Grok 4.1 Sorotan Teknologi 3: Penurunan Ilusi AI 3 kali lipat, sumber informasi lebih dapat diandalkan

Untuk masalah umum terkait pencarian informasi, xAI secara khusus menekankan bahwa tingkat ilusi Grok 4.1 telah menurun secara signifikan. Sebelumnya, mode cepat Gork (Non-Reasoning) cenderung menghasilkan ilusi akibat kedalaman penalaran yang tidak memadai, tetapi dalam pelatihan lanjutan 4.1, xAI secara jelas telah melakukan perbaikan terhadap masalah ini. Metode verifikasi xAI mencakup:

Melakukan pengujian sampling berdasarkan pertanyaan yang diajukan oleh pengguna dalam situasi nyata, yang benar-benar muncul di platform.

Bandingkan perbedaan jawaban antara Grok 4.1 dan model versi lama.

Evaluasi kinerja di FActScore.

Hasil menunjukkan bahwa versi baru memiliki tingkat halusinasi yang jelas menurun saat menanyakan fakta dan menjawab pertanyaan informatif, dengan jawaban yang lebih stabil dan lebih dapat dipercaya. Ini menjadikan Grok 4.1 lebih praktis dan lebih akurat dalam skenario “menjawab cepat” dan “mencari informasi” dibandingkan dengan versi sebelumnya.

Dari gambar dapat diketahui bahwa tingkat ilusi Grok 4.1 turun dari 12,09% menjadi 4,22%, turun sekitar tiga kali lipat. Skor verifikasi fakta (FActScore) juga turun dari 9,89% menjadi 2,97%, menunjukkan bahwa akurasi Grok 4.1 mengalami perbaikan yang signifikan.

(Catatan: FActScore adalah tes publik yang terdiri dari 500 pertanyaan biografi nyata untuk menguji kinerja model dalam mencari fakta, menilai akurasi, dan konsistensi jawaban, yang dapat disebut sebagai penilaian verifikasi fakta.)

(2025 Lima model bahasa AI utama terbaru (LLM) analisis lengkap, biaya, aplikasi, dan keamanan semua dijelaskan dalam satu panduan )

Artikel ini Grok 4.1 yang baru diluncurkan: Ilusi AI berkurang 3 kali lipat, pemahaman emosi dan penulisan kreatif mengalami peningkatan menyeluruh. Pertama kali muncul di Berita Chain ABMedia.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.