Jensen Huang CES Revelação Chocante: O Momento ChatGPT da IA Física Está Próximo

黃仁勳預告物理AI

Huang Ren-Hui anunciou na CES que «o momento ChatGPT da IA Física está próximo». A Nvidia lançou a plataforma Vera Rubin com potência de cálculo 5 vezes superior, open-source Alpamayo condução autónoma, Cosmos modelo de mundo e Groot robótica. Enfatizou duas migrações de plataforma ocorrendo simultaneamente: IA refazendo aplicações, IA Física refazendo a realidade.

Três Grandes Inovações da Revolução de Hardware Vera Rubin

Huang Ren-Hui iniciou o seu discurso na CES dizendo: «temos 15 quilogramas de conteúdo para meter neste discurso, há 3.000 pessoas no auditório, 2.000 pessoas no pátio exterior, e mais pessoas no quarto andar numa transmissão online, e há milhões de pessoas a assistir globalmente». Mas rapidamente trouxe o assunto de volta ao hardware, anunciando que Vera Rubin já está em produção total.

O nome Vera Rubin vem da astrónoma do século XX que observou que a velocidade de rotação nas extremidades das galáxias era praticamente igual à do centro, o que não fazia sentido pela física de Newton, a menos que existisse matéria invisível — matéria escura. A Nvidia nomeou a sua próxima plataforma de computação Vera Rubin porque o «algo invisível» que enfrentam também está em expansão: a procura de poder de cálculo.

Huang Ren-Hui descreveu a demanda insana de poder computacional. O tamanho dos modelos cresce 10 vezes por ano, após o1 o raciocínio tornou-se um «processo de pensamento», o pós-treino introduziu aprendizagem por reforço com explosão computacional; o test-time scaling aumenta novamente 5 vezes o volume de tokens em cada inferência; e cada vez que atingem uma nova fronteira, o custo de tokens da geração anterior cai 10 vezes mais rápido a cada ano. Isto significa que a competição é extremamente feroz, a Nvidia deve «avançar o state-of-the-art do cálculo a cada ano, sem cair nem um mês».

Arquitetura de Seis Núcleos Coordenados de Vera Rubin

CPU Customizado Vera: desempenho duplicado, partilha de dados bidirecional consistente com Rubin GPU desde o início

Rubin GPU: um único painel de cálculo atinge 100 PFLOPS de poder de IA, 5 vezes a geração anterior

Rede e Segurança: ConnectX-9 oferece largura de banda lateral de 1.6 Tbps, BlueField-4 DPU descarrega armazenamento e segurança

Uma placa de cálculo tem 17.000 componentes, os encomendadores de computação foram redesenhados para uma forma «sem fios, sem tubagens, sem ventiladores». O NVLink de sexta geração conecta 18 nós numa única unidade, depois expande para 200G com ótica co-empacotada, formando «fábricas de IA» com milhares de racks. Em tarefas de treino com 10 triliões de parâmetros e 100 triliões de tokens, Rubin precisa apenas de um quarto do tamanho do sistema Blackwell para completar o treino na mesma janela de um mês.

Huang Ren-Hui também mencionou desafios reais da indústria. A Nvidia tinha uma regra interna — produtos da próxima geração mudavam no máximo um ou dois chips, para não destruir a cadeia de fornecimento. Mas após a desaceleração da Lei de Moore, o crescimento de transístores não acompanha os 10 vezes dos modelos, 5 vezes dos tokens, 10 vezes da queda de custos, impossível acompanhar sem «co-design (design coordenado)», então nesta geração tiveram de redesenhar cada chip. A performance em ponto flutuante de Rubin GPU é 5 vezes Blackwell, mas tem apenas 1.6 vezes os transístores, isto significa que apenas empilhar transístores através do processo atingiu o teto, deve-se depender de arquitetura e design coordenado ao nível do sistema para conseguir performance.

Estratégia de Transição Colectiva de Modelos Open-Source

Ao longo do último ano, o que verdadeiramente entusiasmou Huang Ren-Hui não foi o progresso de um único modelo fechado, mas a transição colectiva de modelos open-source. Huang Ren-Hui disse que modelos abertos estão agora cerca de «seis meses atrás» dos modelos de fronteira, mas a cada seis meses surge um modelo novo mais inteligente, então o volume de downloads explode, porque startups querem participar, grandes empresas querem participar, investigadores querem participar, estudantes querem participar, praticamente cada país quer participar.

Muitas pessoas entendem mal a Nvidia, dizem que apenas «vende GPUs», e Huang Ren-Hui repetidamente enfatizou no palco da CES que a Nvidia está a tornar-se um construtor de modelos de fronteira open-source, e completamente aberto. Listou de uma vez uma série de modelos open-source da Nvidia: do Nemotron híbrido Transformer-SSM, modelo de mundo Cosmos, até robótica humanóide Groot. Até no domínio da condução autónoma Alpamayo, não apenas open-source de modelos, mas também open-source de dados de treino.

Huang Ren-Hui anunciou que Alpamayo é «a primeira IA de condução autónoma do mundo que pensa e raciocina». De ponta a ponta dos sensores de câmara para actuadores, aprendeu tanto a partir de grandes quantidades de demonstração humana em quilometragem real, como quilometragem gerada por Cosmos, mais centenas de milhares de amostras com anotação extremamente cuidadosa. O crucial é que não apenas emite direcção e travão, mas também lhe diz que acções irá tomar, por que faz isto, qual é a trajectória.

Huang Ren-Hui disse que começaram a trabalhar em condução autónoma há oito anos, porque cedo determinaram que aprendizagem profunda refaria toda a stack de computação. Alpamayo foi anunciado como «open-source hoje», esta engenharia tem escala massiva, Huang Ren-Hui disse que a sua equipa de AV tem «milhares de pessoas», e Mercedes-Benz colabora com eles há cinco anos. Predisse que no futuro poderão haver 1 bilião de carros em condução autónoma, «cada carro terá capacidade de pensamento, cada carro será impulsionado por IA».

Arquitetura de Três Computadores de IA Física

Huang Ren-Hui gastou tempo extremamente longo a falar sobre uma coisa: fazer IA compreender o senso comum do mundo é muito mais difícil do que linguagem. Persistência de objectos, relações causais, inércia, fricção, gravidade, para crianças humanas é intuição, para IA é completamente estranho. E os dados do mundo real nunca são suficientes. Disse que para fazer IA Física, precisa-se de «três computadores»: um para treinar modelos, um para inferência nas bordas de carros/robôs/fábricas, e um para simulação.

Omniverse é mundo de gémeo digital simulado, Cosmos é modelo de base de mundo, modelos de robôs têm Groot e Alpamayo. De onde vêm os dados de treino? Modelos de linguagem têm grande quantidade de texto, vídeo real do mundo físico é muito, mas longe de cobrir diversas interacções. Por isso usam geração de dados sintéticos conformes a leis físicas, produzindo seleccionados amostras de treino.

Cosmos pode gerar vídeo realista a partir de uma única imagem, gerar movimento coerente a partir de descrição de cena 3D, gerar vídeo panorâmico a partir de registo de sensores, produzir «casos extremos» a partir de prompts de cena. Também pode fazer simulação em ciclo fechado, uma acção é feita, o mundo responde, Cosmos depois infere o próximo passo. Huang Ren-Hui definiu condução autónoma como o primeiro «grande mercado principal» de IA Física, afirmando que «o ponto de inflexão é agora», nos próximos dez anos uma grande proporção de carros do mundo será altamente automatizada.

Huang Ren-Hui acredita que a IA futura não é apenas multimodal, mas «multi-modelo». Os sistemas mais inteligentes devem chamar o modelo mais adequado em diferentes tarefas, os sistemas mais realistas são naturalmente multi-cloud, cloud híbrida e computação de borda. Isto significa que a essência das aplicações de IA é na verdade um conjunto de arquitetura de agendamento e inferência, um agente que pode julgar intenção, seleccionar modelos, chamar ferramentas, combinar resultados. Huang Ren-Hui acredita que este agente está a tornar-se a nova «interface de utilizador», não mais Excel, não mais formulários, não mais linha de comandos.

A Nvidia está num momento contraditório. Parece ser a mais perigosa em todas as narrativas de bolha, com valuation numa altura sem precedentes. Mas simultaneamente é a mais forte entre todas as acções de conceito IA, receita trimestral, lucro líquido centenas de biliões de dólares, margem bruta pode atingir 70%. Quando uma empresa controla simultaneamente narrativa tecnológica, posição importante na cadeia industrial, e atenção do mercado financeiro, torna-se um ícone. O benefício do ícone é que fé traz prémio, a desvantagem é que prémio significa que não pode cometer erros.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)