Modelos de linguagem grandes claramente retêm toneladas de dados de treinamento em suas redes neurais, mas aqui está o que me incomoda: ninguém realmente entende onde essas informações memorizadas vivem dentro desses modelos. Tipo, quais camadas as mantêm? Como a arquitetura armazena e recupera fatos específicos? Todo o mecanismo por trás da memorização em LLMs continua surpreendentemente confuso, mesmo à medida que confiamos cada vez mais nesses sistemas.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
9 Curtidas
Recompensa
9
4
Repostar
Compartilhar
Comentário
0/400
GateUser-c799715c
· 8h atrás
Como é que parece que os grandes modelos de linguagem são demasiado misteriosos?
Ver originalResponder0
ContractFreelancer
· 8h atrás
Ter uma grande capacidade de memória no modelo é ótimo, mas não sabemos onde ela armazena as informações.
Ver originalResponder0
FloorPriceNightmare
· 8h atrás
O buraco negro por trás é realmente assustador!
Ver originalResponder0
BearHugger
· 9h atrás
Morrendo de rir, treinar o modelo é como queimar incenso e rezar.
Modelos de linguagem grandes claramente retêm toneladas de dados de treinamento em suas redes neurais, mas aqui está o que me incomoda: ninguém realmente entende onde essas informações memorizadas vivem dentro desses modelos. Tipo, quais camadas as mantêm? Como a arquitetura armazena e recupera fatos específicos? Todo o mecanismo por trás da memorização em LLMs continua surpreendentemente confuso, mesmo à medida que confiamos cada vez mais nesses sistemas.