A xAI anunciou em 17/11 que o seu mais recente modelo Grok 4.1 está oficialmente disponível para todos os usuários, incluindo grok.com, Twitter (X) e aplicativos iOS e Android. A xAI afirmou que esta atualização foca na “utilidade no mundo real”, incluindo uma compreensão emocional mais forte, uma expressão de personalidade mais natural, maior criatividade e uma taxa de alucinação mais baixa, mantendo ao mesmo tempo a capacidade de raciocínio e estabilidade do Grok 4 anterior.
Taxa de sucesso do teste secreto próxima de 65%, Grok 4.1 confirmada para lançamento completo.
xAI irá realizar um teste secreto de duas semanas de 11/1 a 11/14, introduzindo uma pequena proporção da versão de teste Grok 4.1 no tráfego real do Grok.com, X e aplicativo móvel, e comparando-a diretamente com o modelo anterior Grok 4 através de “testes cegos”.
xAI indica que, durante os testes cegos, o índice de preferência do Grok 4.1 em tráfego real é de 64,78%, superando claramente o Grok 4, e anunciou que estará oficialmente disponível para todos os usuários a partir de 17/11. Também afirmou que, a partir de agora, todos os usuários poderão utilizar o Grok 4.1. Assim que os usuários ativarem o modo Auto, ele usará automaticamente o Grok 4.1, e os usuários também poderão escolher manualmente no menu de modelos.
Grok 4.1 Três principais destaques tecnológicos de uma só vez
Grok 4.1 Destaques técnicos 1: Nova estrutura de aprendizado reforçado, tornando as respostas mais naturais e mais compreensíveis para os humanos.
A atualização principal do Grok 4.1 vem da utilização da mesma “infraestrutura de aprendizado de reforço em grande escala” que o Grok 4, mas desta vez introduzindo novos métodos que permitem que o modelo otimize automaticamente as respostas em uma escala maior. Além disso, este treinamento foca principalmente na qualidade das respostas não verificáveis, como tom, consistência de personagem, interação emocional, compreensão de intenções, entre outros, que não podem ser avaliados diretamente apenas com dados.
Para resolver este problema, a xAI usou o “Modelo de Inferência de Vanguarda” como modelo de recompensa (Reward Model), permitindo que essas IAs com habilidades de raciocínio profundo avaliassem automaticamente as respostas do Grok 4.1 e aprendessem, através de muitas comparações, o que são respostas melhores e mais alinhadas com as expectativas humanas, fazendo ajustes. Assim, o Grok 4.1 melhorou claramente em tom, personalidade, emoção e naturalidade da interação, mantendo ao mesmo tempo a capacidade de raciocínio e estabilidade originais.
Grok 4.1 Destaques Técnicos 2: Testes cegos alcançaram o topo, compreensão emocional e criatividade significativamente aprimoradas
xAI também divulgou vários resultados de testes, mostrando que o Grok 4.1 teve melhorias significativas em vários testes de capacidade.
Na plataforma de batalhas cegas global LMArena:
Grok 4.1 Thinking classificado em primeiro lugar no mundo com 1483 Elo.
Grok 4.1 Non-Thinking está classificado em segundo lugar com 1465 Elo, superando até mesmo o “modo de raciocínio completo” de outros modelos.
Teste de compreensão emocional (EQ-Bench 3): utiliza 45 cenários de alta dificuldade e 3 rodadas de interação, avaliado por Claude Sonnet 3.7. Grok 4.1 mostrou melhorias significativas em empatia, percepção emocional e compreensão interpessoal.
Capacidade de Escrita Criativa (Creative Writing v3): No teste de escrita com 32 perguntas × 3 rodadas, o Grok 4.1 obteve pontuações mais altas em estilo de criação, qualidade narrativa e fluência da história, e a equipe oficial apresentou várias amostras de respostas.
No geral, o Grok 4.1 não só melhorou a capacidade de raciocínio, mas também teve um upgrade significativo nas áreas de “interação emocional” e “criatividade”.
A partir da figura, pode-se concluir que o Grok 4.1 ocupa os três primeiros lugares na classificação geral de modelos de raciocínio, compreensão emocional e escrita criativa.
(Nota: Elo, que significa que o Grok 4.1 tem uma pontuação de força no plataforma de teste cego global LMArena, usa o sistema de classificação Elo originalmente utilizado para xadrez para avaliar a qualidade das respostas do modelo. )
Grok 4.1 Destaques técnicos 3: Redução da ilusão de IA em 3 vezes, fontes de informação mais confiáveis
Em relação a questões comuns de consulta de informações, a xAI enfatiza que a taxa de alucinação do Grok 4.1 diminuiu significativamente. O modo rápido anterior do Gork (Non-Reasoning) era propenso a alucinações devido à profundidade de raciocínio insuficiente, mas no treinamento posterior do 4.1, a xAI abordou claramente esse problema. Os métodos de validação da xAI incluem:
Realizar testes de amostragem a partir das perguntas que os usuários fazem em situações reais, que aparecem realmente na plataforma.
Compare as diferenças nas respostas entre o Grok 4.1 e a versão anterior do modelo.
Avaliar o desempenho na FActScore.
Os resultados mostram que a nova versão tem uma taxa de alucinação claramente reduzida ao consultar fatos e responder a perguntas informativas, com respostas mais estáveis e confiáveis. Isso torna o Grok 4.1 mais prático e preciso em cenários de “respostas rápidas” e “pesquisa de dados” em comparação com a versão anterior.
A partir da imagem, pode-se observar que a taxa de alucinação do Grok 4.1 caiu de 12,09% para 4,22%, uma redução de cerca de três vezes. A pontuação de verificação de fato (FActScore) também caiu de 9,89% para 2,97%, indicando que a precisão do Grok 4.1 teve uma melhoria significativa.
( Nota: FActScore é um teste público composto por 500 perguntas sobre biografias de pessoas reais, usado para avaliar o desempenho do modelo na busca de fatos, na verificação de precisão e na consistência das respostas, podendo ser chamado de validação de pontuação de fatos. )
(2025 Os cinco principais modelos de linguagem AI em alta (LLM) Análise completa, pagamento, aplicações e segurança de forma clara )
Este artigo Grok 4.1 acaba de ser lançado: a ilusão da IA caiu 3 vezes, a compreensão emocional e a escrita criativa foram totalmente aprimoradas. Apareceu pela primeira vez na Chain News ABMedia.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Grok 4.1 Novo Lançamento: AI Ilusão Reduzida em 3 Vezes, Compreensão Emocional e Escrita Criativa Totalmente Atualizadas
A xAI anunciou em 17/11 que o seu mais recente modelo Grok 4.1 está oficialmente disponível para todos os usuários, incluindo grok.com, Twitter (X) e aplicativos iOS e Android. A xAI afirmou que esta atualização foca na “utilidade no mundo real”, incluindo uma compreensão emocional mais forte, uma expressão de personalidade mais natural, maior criatividade e uma taxa de alucinação mais baixa, mantendo ao mesmo tempo a capacidade de raciocínio e estabilidade do Grok 4 anterior.
Taxa de sucesso do teste secreto próxima de 65%, Grok 4.1 confirmada para lançamento completo.
xAI irá realizar um teste secreto de duas semanas de 11/1 a 11/14, introduzindo uma pequena proporção da versão de teste Grok 4.1 no tráfego real do Grok.com, X e aplicativo móvel, e comparando-a diretamente com o modelo anterior Grok 4 através de “testes cegos”.
xAI indica que, durante os testes cegos, o índice de preferência do Grok 4.1 em tráfego real é de 64,78%, superando claramente o Grok 4, e anunciou que estará oficialmente disponível para todos os usuários a partir de 17/11. Também afirmou que, a partir de agora, todos os usuários poderão utilizar o Grok 4.1. Assim que os usuários ativarem o modo Auto, ele usará automaticamente o Grok 4.1, e os usuários também poderão escolher manualmente no menu de modelos.
Grok 4.1 Três principais destaques tecnológicos de uma só vez
Grok 4.1 Destaques técnicos 1: Nova estrutura de aprendizado reforçado, tornando as respostas mais naturais e mais compreensíveis para os humanos.
A atualização principal do Grok 4.1 vem da utilização da mesma “infraestrutura de aprendizado de reforço em grande escala” que o Grok 4, mas desta vez introduzindo novos métodos que permitem que o modelo otimize automaticamente as respostas em uma escala maior. Além disso, este treinamento foca principalmente na qualidade das respostas não verificáveis, como tom, consistência de personagem, interação emocional, compreensão de intenções, entre outros, que não podem ser avaliados diretamente apenas com dados.
Para resolver este problema, a xAI usou o “Modelo de Inferência de Vanguarda” como modelo de recompensa (Reward Model), permitindo que essas IAs com habilidades de raciocínio profundo avaliassem automaticamente as respostas do Grok 4.1 e aprendessem, através de muitas comparações, o que são respostas melhores e mais alinhadas com as expectativas humanas, fazendo ajustes. Assim, o Grok 4.1 melhorou claramente em tom, personalidade, emoção e naturalidade da interação, mantendo ao mesmo tempo a capacidade de raciocínio e estabilidade originais.
Grok 4.1 Destaques Técnicos 2: Testes cegos alcançaram o topo, compreensão emocional e criatividade significativamente aprimoradas
xAI também divulgou vários resultados de testes, mostrando que o Grok 4.1 teve melhorias significativas em vários testes de capacidade.
Na plataforma de batalhas cegas global LMArena:
Grok 4.1 Thinking classificado em primeiro lugar no mundo com 1483 Elo.
Grok 4.1 Non-Thinking está classificado em segundo lugar com 1465 Elo, superando até mesmo o “modo de raciocínio completo” de outros modelos.
Teste de compreensão emocional (EQ-Bench 3): utiliza 45 cenários de alta dificuldade e 3 rodadas de interação, avaliado por Claude Sonnet 3.7. Grok 4.1 mostrou melhorias significativas em empatia, percepção emocional e compreensão interpessoal.
Capacidade de Escrita Criativa (Creative Writing v3): No teste de escrita com 32 perguntas × 3 rodadas, o Grok 4.1 obteve pontuações mais altas em estilo de criação, qualidade narrativa e fluência da história, e a equipe oficial apresentou várias amostras de respostas.
No geral, o Grok 4.1 não só melhorou a capacidade de raciocínio, mas também teve um upgrade significativo nas áreas de “interação emocional” e “criatividade”.
A partir da figura, pode-se concluir que o Grok 4.1 ocupa os três primeiros lugares na classificação geral de modelos de raciocínio, compreensão emocional e escrita criativa.
(Nota: Elo, que significa que o Grok 4.1 tem uma pontuação de força no plataforma de teste cego global LMArena, usa o sistema de classificação Elo originalmente utilizado para xadrez para avaliar a qualidade das respostas do modelo. )
Grok 4.1 Destaques técnicos 3: Redução da ilusão de IA em 3 vezes, fontes de informação mais confiáveis
Em relação a questões comuns de consulta de informações, a xAI enfatiza que a taxa de alucinação do Grok 4.1 diminuiu significativamente. O modo rápido anterior do Gork (Non-Reasoning) era propenso a alucinações devido à profundidade de raciocínio insuficiente, mas no treinamento posterior do 4.1, a xAI abordou claramente esse problema. Os métodos de validação da xAI incluem:
Realizar testes de amostragem a partir das perguntas que os usuários fazem em situações reais, que aparecem realmente na plataforma.
Compare as diferenças nas respostas entre o Grok 4.1 e a versão anterior do modelo.
Avaliar o desempenho na FActScore.
Os resultados mostram que a nova versão tem uma taxa de alucinação claramente reduzida ao consultar fatos e responder a perguntas informativas, com respostas mais estáveis e confiáveis. Isso torna o Grok 4.1 mais prático e preciso em cenários de “respostas rápidas” e “pesquisa de dados” em comparação com a versão anterior.
A partir da imagem, pode-se observar que a taxa de alucinação do Grok 4.1 caiu de 12,09% para 4,22%, uma redução de cerca de três vezes. A pontuação de verificação de fato (FActScore) também caiu de 9,89% para 2,97%, indicando que a precisão do Grok 4.1 teve uma melhoria significativa.
( Nota: FActScore é um teste público composto por 500 perguntas sobre biografias de pessoas reais, usado para avaliar o desempenho do modelo na busca de fatos, na verificação de precisão e na consistência das respostas, podendo ser chamado de validação de pontuação de fatos. )
(2025 Os cinco principais modelos de linguagem AI em alta (LLM) Análise completa, pagamento, aplicações e segurança de forma clara )
Este artigo Grok 4.1 acaba de ser lançado: a ilusão da IA caiu 3 vezes, a compreensão emocional e a escrita criativa foram totalmente aprimoradas. Apareceu pela primeira vez na Chain News ABMedia.