Dados do Jin10 de 8 de novembro: Segundo o site oficial do Moon’s Dark Side, o Kimi K2 Thinking estabeleceu novos recordes nas avaliações de referência de raciocínio, codificação e capacidades de agentes. O K2 Thinking alcançou uma pontuação SOTA de 44,9% na avaliação de referência HLE, atingiu 60,2% no teste BrowseComp e 71,3% no teste SWE-Bench Verified, demonstrando uma forte capacidade de generalização como um modelo de agente de pensamento de última geração.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Kimi K2 Thinking estabeleceu novos recordes na avaliação de referência de raciocínio, codificação e capacidades de agentes
Dados do Jin10 de 8 de novembro: Segundo o site oficial do Moon’s Dark Side, o Kimi K2 Thinking estabeleceu novos recordes nas avaliações de referência de raciocínio, codificação e capacidades de agentes. O K2 Thinking alcançou uma pontuação SOTA de 44,9% na avaliação de referência HLE, atingiu 60,2% no teste BrowseComp e 71,3% no teste SWE-Bench Verified, demonstrando uma forte capacidade de generalização como um modelo de agente de pensamento de última geração.