As estruturas de avaliação de IA atuais estão profundamente falhadas—os métodos de medição carecem de rigor, os resultados de avaliação frequentemente falham em atingir o objetivo, e os sistemas de classificação muitas vezes não capturam a nuance. Os laboratórios tendem a otimizar de forma restrita para esses pontos de referência, no entanto, os resultados reais não se traduzem. Independentemente disso, o AGI continua a ser inevitável. O ASI já não é um ponto final teórico distante—espere progressos significativos nesse aspecto dentro dos próximos doze meses.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
6 Curtidas
Recompensa
6
2
Repostar
Compartilhar
Comentário
0/400
RektRecorder
· 13h atrás
ngl estes benchmarks realmente não têm graça, aumentar números e o que realmente se pode fazer são duas coisas diferentes.
Ver originalResponder0
CascadingDipBuyer
· 13h atrás
Rolando, agora até as avaliações começaram a ser competitivas? De qualquer forma, tudo é passageiro.
As estruturas de avaliação de IA atuais estão profundamente falhadas—os métodos de medição carecem de rigor, os resultados de avaliação frequentemente falham em atingir o objetivo, e os sistemas de classificação muitas vezes não capturam a nuance. Os laboratórios tendem a otimizar de forma restrita para esses pontos de referência, no entanto, os resultados reais não se traduzem. Independentemente disso, o AGI continua a ser inevitável. O ASI já não é um ponto final teórico distante—espere progressos significativos nesse aspecto dentro dos próximos doze meses.