Большие языковые модели явно сохраняют огромное количество обучающих данных в своих нейронных сетях, но вот что меня беспокоит: никто на самом деле не понимает, где эта запомненная информация находится внутри этих моделей. Например, в каких слоях она хранится? Как архитектура хранит и извлекает конкретные факты? Весь механизм запоминания в LLM остается удивительно неясным, даже несмотря на то, что мы все больше полагаемся на эти системы.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
9 Лайков
Награда
9
4
Репост
Поделиться
комментарий
0/400
GateUser-c799715c
· 8ч назад
Почему кажется, что большие языковые модели слишком загадочные?
Посмотреть ОригиналОтветить0
ContractFreelancer
· 8ч назад
Большая модель хорошо запоминает, но где именно хранит — мы тоже не знаем.
Посмотреть ОригиналОтветить0
FloorPriceNightmare
· 8ч назад
Скрытый черный ящик действительно пугает!
Посмотреть ОригиналОтветить0
BearHugger
· 9ч назад
Умираю от смеха, тренировать модель похоже на жертвоприношение и молитву.
Большие языковые модели явно сохраняют огромное количество обучающих данных в своих нейронных сетях, но вот что меня беспокоит: никто на самом деле не понимает, где эта запомненная информация находится внутри этих моделей. Например, в каких слоях она хранится? Как архитектура хранит и извлекает конкретные факты? Весь механизм запоминания в LLM остается удивительно неясным, даже несмотря на то, что мы все больше полагаемся на эти системы.