Великі мовні моделі явно зберігають величезну кількість навчальних даних у своїх нейронних мережах, але мене турбує одне: ніхто насправді не розуміє, де ця запам'ятована інформація насправді знаходиться всередині цих моделей. Які шари утримують її? Як архітектура зберігає і відновлює конкретні факти? Увесь механізм запам'ятовування в LLM залишається дивно неясним, навіть коли ми покладаємось на ці системи все більше і більше.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
9 лайків
Нагородити
9
4
Репост
Поділіться
Прокоментувати
0/400
GateUser-c799715c
· 8год тому
Чому здається, що великі мовні моделі занадто загадкові?
Переглянути оригіналвідповісти на0
ContractFreelancer
· 8год тому
Велика модель має хорошу пам’ять, але де саме вона зберігає — ми теж не знаємо.
Переглянути оригіналвідповісти на0
FloorPriceNightmare
· 8год тому
За цим чорним ящиком справді страшно!
Переглянути оригіналвідповісти на0
BearHugger
· 9год тому
Сміюся, навчальна модель схожа на моління і поклоніння.
Великі мовні моделі явно зберігають величезну кількість навчальних даних у своїх нейронних мережах, але мене турбує одне: ніхто насправді не розуміє, де ця запам'ятована інформація насправді знаходиться всередині цих моделей. Які шари утримують її? Як архітектура зберігає і відновлює конкретні факти? Увесь механізм запам'ятовування в LLM залишається дивно неясним, навіть коли ми покладаємось на ці системи все більше і більше.