Grok 4.1 Yeni Çıktı: AI İllüzyonları 3 Kat Azaldı, Duygu Anlama ve Yaratıcı Yazma Tamamen Güncellendi

ChainNewsAbmedia

2025-11-18 13:24:04

xAI, 11/17 tarihinde en son modeli Grok 4.1'in tüm kullanıcılara açık olduğunu duyurdu. Bu model, grok.com, Twitter (X) ve iOS, Android uygulamalarını içermektedir. xAI, bu güncellemenin “gerçek dünya kullanılabilirliğine” odaklandığını, daha güçlü duygusal anlayış, daha doğal kişilik ifadeleri, daha yüksek yaratıcılık ve daha düşük hayal oranı sağladığını belirtirken, önceki Grok 4'ün akıl yürütme yetenekleri ve istikrarını da koruduklarını vurguladı.

Gizli testin kazanma oranı yaklaşık %65, Grok 4.1 tamamen çevrimiçi olduğu onaylandı.

xAI, 11/1 – 11/14 tarihleri arasında iki haftalık gizli bir test gerçekleştiriyor. Grok 4.1 test versiyonunu Grok.com, X ve mobil uygulamanın gerçek trafiğine düşük bir oranda entegre ediyor ve “kör test karşılaştırması” ile önceki model Grok 4 ile doğrudan karşılaştırma yapıyor.

xAI, kör test sırasında Grok 4.1'in gerçek trafik üzerindeki tercih indeksinin %64.78 olduğunu, bu oranla Grok 4'ü belirgin bir şekilde geride bıraktığını belirtti ve 11/17 tarihinde tüm kullanıcılara resmi olarak erişime açılacağını duyurdu. Aynı zamanda, artık tüm kullanıcıların Grok 4.1'i kullanabileceğini de ifade etti. Kullanıcıların Auto modunu açması yeterli, bu mod otomatik olarak Grok 4.1'i kullanacak ve kullanıcılar model menüsünden kendileri de seçebilir.

Grok 4.1 Üç Büyük Teknik Özellik Bir Arada

Grok 4.1 Teknik Özellikler 1: Yenilenen güçlendirilmiş öğrenme yapısı, yanıtların daha doğal olmasını ve insanları daha iyi anlamasını sağlar.

Grok 4.1'in ana yükseltmesi, Grok 4 ile aynı “büyük ölçekli pekiştirmeli öğrenme altyapısını” kullanmaktan gelmektedir, ancak bu sefer modelin daha büyük ölçeklerde yanıtları otomatik olarak optimize etmesini sağlamak için yeni yöntemler tanıtılmıştır. Bu eğitim, doğrulanamayan yanıt kalitesine, üslup, karakter tutarlılığı, duygusal etkileşim, niyeti anlama gibi unsurlara odaklanmıştır; bunlar yalnızca verilerle doğrudan değerlendirilebilecek unsurlar değildir.

Bu sorunu çözmek için xAI, ödül modeli olarak “öncü akıl yürütme modelini” kullandı (Reward Model). Bu derin akıl yürütme yeteneğine sahip AI'ların Grok 4.1'in yanıtlarını otomatik olarak değerlendirmelerine ve çok sayıda karşılaştırma ile neyin daha iyi ve insan beklentilerine daha uygun yanıtlar olduğunu öğrenmelerine olanak tanıyarak ayarlamalar yapmalarını sağladı. Böylece Grok 4.1, üslup, kişilik, duygu ve etkileşim doğallığı açısından belirgin bir şekilde gelişti, aynı zamanda orijinal akıl yürütme yeteneğini ve istikrarını korudu.

Grok 4.1 Teknik Özellikler 2: Kör Test Değerlendirmeleri Tüm Zirveye Çıktı, Duygu Anlayışı ve Yaratıcılık Büyük Ölçüde Gelişti

xAI, Grok 4.1'in birçok yetenek testinde belirgin bir iyileşme gösterdiğini ortaya koyan birçok test sonucunu da açıkladı.

LMArena küresel kör test savaş platformunda:

Grok 4.1 Düşünme 1483 Elo ile dünyada birinci sırada.

Grok 4.1 Non-Thinking, 1465 Elo ile ikinci sırada, hatta diğer modellerin “tam akıl yürütme modunu” bile geride bırakıyor.

Duygu Anlama Testi (EQ-Bench 3): 45 yüksek zorlukta senaryo ve 3 tur etkileşim ile, Claude Sonnet 3.7 tarafından puanlandı. Grok 4.1, empati, duygusal içgörü ve kişilerarası anlayış gibi alanlarda belirgin bir gelişim gösterdi.

Yaratıcı Yazma Yeteneği (Yaratıcı Yazma v3): 32 soru × 3 tur yazma testinde, Grok 4.1 yaratım tarzı, anlatı kalitesi ve hikaye akıcılığı açısından daha yüksek puanlar aldı, resmi olarak birçok örnek yanıt gösterildi.

Genel olarak bakıldığında, Grok 4.1 sadece akıl yürütme yeteneğini artırmakla kalmıyor, aynı zamanda “duygusal etkileşim” ve “yaratıcı yetenek” konusunda da belirgin bir gelişim gösteriyor.

Grafikten görüldüğü üzere, Grok 4.1, çıkarım modeli genel sıralamasında, duygu anlama ve yaratıcı yazım karşılaştırmasında, ilk üçte yer alıyor.

( Not: Elo, Grok 4.1'in küresel kör test platformu LMArena'daki savaş gücü puanını ifade etmektedir; bu, model yanıtlarının kalitesini değerlendirmek için klasik satranç Elo sıralama sistemini kullanmaktadır. )

Grok 4.1 Teknik Özellikler 3: AI İllüzyonları 3 Kat Azaldı, Bilgi Kaynağı Daha Güvenilir

Sıkça karşılaşılan bilgi sorgulama türü sorular için, xAI özellikle Grok 4.1'in hayal oranının belirgin şekilde düştüğünü vurgulamaktadır. Önceki Gork'un hızlı modu (Non-Reasoning), mantıksal derinlik yetersizliği nedeniyle kolayca hayal görme sorunları yaşayabiliyordu, ancak 4.1'in son eğitiminde, xAI bu sorunu açıkça ele almıştır. xAI'nin doğrulama yöntemleri şunları içerir:

Kullanıcıların gerçek durumlarda sorduğu ve platformda gerçekten ortaya çıkan sorulardan örnekleme testi yapmak.

Grok 4.1 ile eski modelin cevapları arasındaki farkları karşılaştırın.

FActScore üzerindeki performansı değerlendirin.

Sonuçlar, yeni sürümün gerçekleri sorgulama ve bilgiye dayalı sorulara yanıt verme sırasında halüsinasyon oranının belirgin şekilde düştüğünü, yanıtların daha kararlı ve güvenilir hale geldiğini göstermektedir. Bu da Grok 4.1'in “hızlı yanıt verme” ve “veri araştırma” senaryolarında önceki sürüme kıyasla daha kullanışlı ve daha hassas olmasını sağlamaktadır.

Grafikten anlaşılacağı üzere, Grok 4.1'in yanılsama oranı %12.09'dan %4.22'ye düşmüş, yaklaşık üç kat azalmıştır. Gerçek doğrulama skoru (FActScore) ise %9.89'dan %2.97'ye düşmüş, bu da Grok 4.1'in doğruluğunda büyük bir iyileşme olduğunu göstermektedir.

( Not: FActScore, gerçek insanların biyografi sorularından oluşan 500 soruluk bir açık testtir. Bu test, modelin gerçekleri arama, doğruluğu belirleme ve cevapların tutarlılığı konusundaki performansını değerlendirmek için kullanılır ve bu nedenle gerçekleri doğrulama puanı olarak adlandırılabilir. )

( 2025'in En Yeni Beş Ana Akıllı Yapay Zeka Dil Modeli ( LLM ) Tam Analiz, Ücretler, Uygulamalar ve Güvenlik Hakkında Her Şey )

Bu makale Grok 4.1 yeni tanıtıldı: AI yanılsaması 3 kat azaldı, duygusal anlama ve yaratıcı yazım tamamen yükseltildi. İlk olarak Chain News ABMedia'da ortaya çıktı.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.