Model bahasa besar jelas menyimpan banyak data pelatihan dalam jaringan saraf mereka, tetapi inilah yang mengganggu saya: tidak ada yang benar-benar memahami di mana informasi yang diingat ini sebenarnya berada di dalam model-model ini. Seperti, lapisan mana yang menyimpannya? Bagaimana arsitektur menyimpan dan mengambil fakta-fakta spesifik? Seluruh mekanisme di balik memorisasi dalam LLM tetap mengejutkan kabur, meskipun kita semakin bergantung pada sistem-sistem ini.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
4
Posting ulang
Bagikan
Komentar
0/400
GateUser-c799715c
· 8jam yang lalu
Kenapa rasanya model bahasa besar terlalu misterius ya?
Lihat AsliBalas0
ContractFreelancer
· 8jam yang lalu
Memori model besar memang bagus, tapi kita nggak tahu disimpan di mana saja.
Lihat AsliBalas0
FloorPriceNightmare
· 8jam yang lalu
Kotak hitam di baliknya sangat menakutkan!
Lihat AsliBalas0
BearHugger
· 9jam yang lalu
Tertawa sampai mati, model pelatihan mirip dengan membakar dupa dan berdoa.
Model bahasa besar jelas menyimpan banyak data pelatihan dalam jaringan saraf mereka, tetapi inilah yang mengganggu saya: tidak ada yang benar-benar memahami di mana informasi yang diingat ini sebenarnya berada di dalam model-model ini. Seperti, lapisan mana yang menyimpannya? Bagaimana arsitektur menyimpan dan mengambil fakta-fakta spesifik? Seluruh mekanisme di balik memorisasi dalam LLM tetap mengejutkan kabur, meskipun kita semakin bergantung pada sistem-sistem ini.