Modelos de linguagem grandes claramente retêm toneladas de dados de treinamento em suas redes neurais, mas aqui está o que me incomoda: ninguém realmente entende onde essas informações memorizadas vivem dentro desses modelos. Tipo, quais camadas as mantêm? Como a arquitetura armazena e recupera fatos específicos? Todo o mecanismo por trás da memorização em LLMs continua surpreendentemente confuso, mesmo à medida que confiamos cada vez mais nesses sistemas.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
9 gostos
Recompensa
9
4
Republicar
Partilhar
Comentar
0/400
GateUser-c799715c
· 9h atrás
Como é que parece que os grandes modelos de linguagem são demasiado misteriosos?
Ver originalResponder0
ContractFreelancer
· 9h atrás
Ter uma grande capacidade de memória no modelo é ótimo, mas não sabemos onde ela armazena as informações.
Ver originalResponder0
FloorPriceNightmare
· 9h atrás
O buraco negro por trás é realmente assustador!
Ver originalResponder0
BearHugger
· 9h atrás
Morrendo de rir, treinar o modelo é como queimar incenso e rezar.
Modelos de linguagem grandes claramente retêm toneladas de dados de treinamento em suas redes neurais, mas aqui está o que me incomoda: ninguém realmente entende onde essas informações memorizadas vivem dentro desses modelos. Tipo, quais camadas as mantêm? Como a arquitetura armazena e recupera fatos específicos? Todo o mecanismo por trás da memorização em LLMs continua surpreendentemente confuso, mesmo à medida que confiamos cada vez mais nesses sistemas.