Dados do Jin10 de 8 de novembro: Segundo o site oficial do Moon’s Dark Side, o Kimi K2 Thinking estabeleceu novos recordes nas avaliações de referência de raciocínio, codificação e capacidades de agentes. O K2 Thinking alcançou uma pontuação SOTA de 44,9% na avaliação de referência HLE, atingiu 60,2% no teste BrowseComp e 71,3% no teste SWE-Bench Verified, demonstrando uma forte capacidade de generalização como um modelo de agente de pensamento de última geração.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Kimi K2 Thinking estabeleceu novos recordes na avaliação de referência de raciocínio, codificação e capacidades de agentes
Dados do Jin10 de 8 de novembro: Segundo o site oficial do Moon’s Dark Side, o Kimi K2 Thinking estabeleceu novos recordes nas avaliações de referência de raciocínio, codificação e capacidades de agentes. O K2 Thinking alcançou uma pontuação SOTA de 44,9% na avaliação de referência HLE, atingiu 60,2% no teste BrowseComp e 71,3% no teste SWE-Bench Verified, demonstrando uma forte capacidade de generalização como um modelo de agente de pensamento de última geração.