¡Vaya, Grok 4 acaba de reclamar el trono en la tabla de líderes de GPQA Diamond! Estamos hablando de aplastar a cualquier otro modelo de IA cuando se trata de las preguntas científicas más difíciles que puedas lanzarle.

Esto no es una actualización menor; este es el modelo que maneja problemas que hacen sudar a los PhDs. Las pruebas GPQA Diamond están diseñadas específicamente para ser brutalmente difíciles, el tipo de cosas que requieren un razonamiento profundo en múltiples dominios científicos. ¿Y Grok 4? Directo al número uno.

Lo que hace esto realmente interesante es lo rápido que están iterando estos modelos. Hace solo unos meses, estábamos celebrando diferentes referencias, y ahora la barra sigue moviéndose. ¿Las implicaciones para la investigación, la computación científica y sí, incluso la optimización de la infraestructura blockchain? Bastante masivas si piensas en la potencia de cálculo y las capacidades de resolución de problemas que estamos desbloqueando aquí.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

15 me gusta