Según el sitio web de Moon’s Dark Side, Kimi K2 Thinking ha establecido nuevos récords en las evaluaciones de referencia de razonamiento, codificación y capacidades de agentes. K2 Thinking logró un rendimiento SOTA del 44.9% en la evaluación de referencia HLE, alcanzó un 60.2% en la prueba BrowseComp y un 71.3% en la prueba SWE-Bench Verified, demostrando una poderosa capacidad de generalización como el modelo de agente de pensamiento más avanzado.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Kimi K2 Thinking estableció un nuevo récord en las evaluaciones de referencia para evaluar habilidades de razonamiento, codificación y agentes
Según el sitio web de Moon’s Dark Side, Kimi K2 Thinking ha establecido nuevos récords en las evaluaciones de referencia de razonamiento, codificación y capacidades de agentes. K2 Thinking logró un rendimiento SOTA del 44.9% en la evaluación de referencia HLE, alcanzó un 60.2% en la prueba BrowseComp y un 71.3% en la prueba SWE-Bench Verified, demostrando una poderosa capacidad de generalización como el modelo de agente de pensamiento más avanzado.