Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Grok 4.1 Новинка: Искусственный интеллект иллюзии снижает в 3 раза, понимание эмоций и творческое письмо полностью обновлены

xAI объявила 11/17, что последняя модель Grok 4.1 теперь официально доступна всем пользователям, включая grok.com, Twitter (X), а также приложения для iOS и Android. xAI заявляет, что это обновление сосредоточено на «реальной применимости», включая более сильное понимание эмоций, более естественное проявление личности, более высокую творческую способность и более низкий уровень галлюцинаций, при этом сохраняя ранее достигнутые Grok 4 способности к рассуждению и стабильность.

Секретное тестирование показывает выигрышный процент почти 65%, Grok 4.1 подтверждено полное развертывание

xAI проводит двухнедельное секретное тестирование с 1 по 14 ноября, внедряя тестовую версию Grok 4.1 в небольшом объеме в реальный трафик Grok.com, X и мобильного приложения, а также проводит «слепое тестирование» в сравнении с предыдущей моделью Grok 4.

xAI сообщила, что в условиях слепого тестирования предпочтительный индекс Grok 4.1 на реальном трафике составил 64,78%, что значительно превысило Grok 4, и объявила, что с 17 ноября он будет официально доступен для всех пользователей. Также было сообщено, что с этого момента все пользователи смогут использовать Grok 4.1. Как только пользователь включит режим Auto, он автоматически будет использовать Grok 4.1, а пользователи также могут выбрать его самостоятельно в меню моделей.

Grok 4.1 Три ключевых технологических момента за раз

Grok 4.1 Технические особенности 1: Совершенно новая структура обучения с подкреплением, которая делает ответы более естественными и более понимающими людей.

Ядро обновления Grok 4.1 основано на использовании той же “инфраструктуры масштабного обучения с подкреплением”, что и Grok 4, но на этот раз дополнительно введены новые методы, позволяющие модели автоматически оптимизировать ответы на более крупномасштабном уровне. Это обучение в основном сосредоточено на качестве неподтвержденных ответов, таких как тон, согласованность персонажа, эмоциональное взаимодействие, понимание намерений и т.д., которые нельзя напрямую оценить только на основе данных.

Чтобы решить эту проблему, xAI использовал «модель передового вывода» в качестве модели вознаграждения (Reward Model), позволяя этим AI с глубокими способностями вывода автоматически оценивать ответы Grok 4.1 и самостоятельно обучаться на основе множества сравнений, что является лучшим и более соответствующим ожиданиям человека, и вносить коррективы. Таким образом, Grok 4.1 явно улучшил тон, личность, эмоции и естественность взаимодействия, сохраняя при этом исходные способности вывода и стабильность.

Grok 4.1 Технологические достижения 2: Полное лидерство в слепом тестировании, значительное улучшение понимания эмоций и креативности.

xAI также опубликовала несколько результатов тестирования, показывающих, что Grok 4.1 значительно улучшился в нескольких тестах на способности.

На глобальной платформе слепых тестов LMArena:

Grok 4.1 Thinking занимает первое место в мире с рейтингом 1483 Elo.

Grok 4.1 Non-Thinking занимает второе место с рейтингом 1465 Elo и даже превосходит другие модели в “полной режимной логике”.

Тест на понимание эмоций ( EQ-Bench 3): использует 45 сложных ситуаций и 3 раунда взаимодействия, оцененных Claude Sonnet 3.7. Grok 4.1 значительно улучшил свои показатели в области эмпатии, эмоционального восприятия и межличностного понимания.

Креативные навыки письма (Creative Writing v3): в тесте на написание из 32 вопросов × 3 раунда Grok 4.1 набрал более высокие баллы за стиль написания, качество повествования и плавность рассказа, официально были представлены несколько образцов ответов.

В целом, Grok 4.1 не только улучшил способности к выводу, но также заметно усовершенствовался в области “эмоционального взаимодействия” и “творческих способностей”.

Из изображения видно, что Grok 4.1 занимает три первых места по综合排名 моделей вывода, пониманию эмоций и креативному письму.

(Примечание: Elo, означающее, что Grok 4.1 имеет боевую силу на глобальной платформе слепого тестирования LMArena, использует оригинальную систему рейтинга Elo, предназначенную для шахмат, для оценки качества ответов модели. )

Grok 4.1 Технические особенности 3: Снижение ИИ-иллюзий в 3 раза, источники информации более надежные

Что касается распространенных вопросов информационного запроса, xAI особенно подчеркивает, что уровень галлюцинаций у Grok 4.1 значительно снизился. Ранее быстрый режим Gork (Non-Reasoning) мог легко проявлять галлюцинации из-за недостаточной глубины рассуждений, но в ходе послетренировки 4.1 xAI явно улучшил ситуацию с этой проблемой. Способы верификации xAI включают:

Проведение выборочного тестирования на основе реальных вопросов пользователей, которые действительно появляются на платформе.

Сравнение ответов Grok 4.1 с ответами старой модели.

Оцените производительность на FActScore.

Результаты показывают, что в новой версии уровень галлюцинаций явно снизился при запросе фактов и ответах на информационные вопросы, ответы стали более стабильными и надежными. Это делает Grok 4.1 более практичным и точным в сценариях «быстрого ответа» и «поиска информации» по сравнению с предыдущей версией.

Из графика видно, что уровень иллюзий Grok 4.1 снизился с 12,09% до 4,22%, что составляет примерно тройное снижение. Фактическая оценка (FActScore) также снизилась с 9,89% до 2,97%, что указывает на значительное улучшение точности Grok 4.1.

(Примечание: FActScore представляет собой открытый тест, состоящий из 500 вопросов о реальных биографиях, предназначенный для проверки работы модели в поиске фактов, оценке точности и согласованности ответов, который можно назвать верификацией оценок фактов. )

(2025 Новые пять основных языковых моделей ИИ ( LLM ) Полный анализ, платные услуги, применения и безопасность все в одном взгляде )

В этой статье представлен Grok 4.1: ИИ-галлюцинации уменьшены в 3 раза, полное обновление эмоционального понимания и творческого письма. Впервые опубликовано в Chain News ABMedia.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить