นักวิจัยของ Meta เปิดเผยธรรมชาติแห่ง World Model 5 สำนัก: AI ที่ Yann LeCun และ Li Fei-Fei วางเดิมพนคืออะไร?

ChainNewsAbmedia

2026-03-13 08:46:32

ในรางวัล Turing Award และอดีตหัวหน้าวิทยาศาสตร์ AI ของ Meta Yann LeCun ได้ก่อตั้งบริษัทสตาร์ทอัป Advanced Machine Intelligence (AMI) ซึ่งเมื่อไม่นานมานี้ได้ระดมทุนรอบ Seed มูลค่าเกือบ 1.03 พันล้านดอลลาร์สหรัฐ หลังจากนั้น “World Model (โมเดลโลก)” ก็กลายเป็นคำสำคัญในวงการปัญญาประดิษฐ์อีกครั้ง อย่างไรก็ตาม แม้ชุมชน AI จะพูดถึง world models อย่างแพร่หลาย คอนเซปต์ที่นักวิจัยแต่ละคนหมายถึงนั้นก็มีความแตกต่างกันอย่างมาก

(วิเคราะห์เชิงลึก: LLM มีข้อบกพร่องหรือไม่? ทำไม AMI ของ Yang LeCun จึงเน้นเส้นทาง World Model)

นักวิจัยด้าน AI ของ Meta Zhuokai Zhao ได้โพสต์ข้อความยาวในโซเชียลแพลตฟอร์มว่า ปัจจุบันในวงการ AI คำว่า world model นั้นสามารถแบ่งออกเป็นอย่างน้อยห้าประเภทเทคนิค เขาเชื่อว่าวิธีเหล่านี้ไม่ได้เป็นการแข่งขันโดยตรง แต่เป็นการแก้ปัญหาในระดับต่าง ๆ กัน

JEPA: การบีบอัดความเข้าใจทางฟิสิกส์

Spatial Intelligence: การสร้างภาพ 3 มิติของโลก

Learned Simulation: การฝึก AI ในโลกจำลอง

NVIDIA Cosmos: การให้โครงสร้างพื้นฐาน

Active Inference: การเสนอทฤษฎีปัญญาใหม่

เขาคาดว่าในอนาคตขอบเขตของแต่ละแนวทางจะเริ่มเบลอมากขึ้น

เส้นทางที่ 1: JEPA ของ LeCun ในการเข้าใจโลกในเชิงนามธรรม

Zhao เชื่อว่าแนวทางแรกคือ Joint Embedding Predictive Architecture (JEPA) ซึ่ง Yann LeCun เป็นตัวแทนหลัก

แนวคิดสำคัญของ JEPA คือ: AI ไม่ควรพยายามทำนายพิกเซลแต่ละอัน แต่ควรทำนายอนาคตในพื้นที่แสดงผลเชิงนามธรรมแทน

ในโลกแห่งความเป็นจริง รายละเอียดหลายอย่างไม่สามารถทำนายได้ เช่น การเปลี่ยนแปลงของแสง ตำแหน่งของใบไม้ ลักษณะพื้นผิว หากโมเดลต้องสร้างภาพพิกเซลทั้งหมด ก็จะต้องจัดการกับรายละเอียดจำนวนมากที่ไม่มีความหมาย

แนวทางของ JEPA คือใช้ตัวเข้ารหัส (encoder) แปลงภาพหรือวิดีโอเป็นการแทนเชิงนามธรรม แล้วคาดการณ์ส่วนที่ถูกปิดบังในพื้นที่นี้ วิธีนี้ทำให้โมเดลเรียนรู้ได้ว่า เช่น “ลูกบอลจะตกจากโต๊ะ” โดยไม่จำเป็นต้องสร้างภาพแต่ละเฟรม

V-JEPA ของ Meta เป็นหนึ่งในผลลัพธ์การทดลองที่โดดเด่นที่สุด ขณะนี้ โมเดลนี้ใช้ข้อมูลวิดีโอ 1 ล้านชั่วโมงในการฝึกแบบ self-supervised และหลังจากนั้นใช้ข้อมูลหุ่นยนต์เพียง 62 ชั่วโมง ก็สามารถสร้างโมเดลโลกที่รองรับการวางแผนแบบ zero-shot ได้ หุ่นยนต์สามารถสร้างชุดคำสั่งเคลื่อนไหวที่เป็นไปได้ แล้วป้อนเข้าโมเดลโลก เพื่อเลือกชุดคำสั่งที่คาดการณ์ผลลัพธ์ตรงกับภาพเป้าหมายที่สุด วิธีนี้เหมาะสำหรับการฝึกในสภาพแวดล้อมและวัตถุที่ไม่เคยเห็นมาก่อน

ประสิทธิภาพด้านข้อมูลสูงเช่นนี้ เป็นเหตุผลสำคัญที่ AMI ให้ความสนใจในสถาปัตยกรรม JEPA หากตัวแทนเชิงนามธรรมของคุณดีพอ ก็ไม่จำเป็นต้องลองผิดลองถูกในแต่ละงานใหม่ ๆ อีกต่อไป นอกจากนี้ AMI Labs ซึ่งเป็นความพยายามของ LeCun ในการนำเทคโนโลยีนี้จากงานวิจัยสู่การใช้งานจริง เริ่มต้นจากเป้าหมายด้านสุขภาพและหุ่นยนต์ แต่เป็นการลงทุนระยะยาว โดยซีอีโอของพวกเขาเคยกล่าวไว้ว่า ผลิตภัณฑ์เชิงพาณิชย์อาจต้องใช้เวลาหลายปี

เส้นทางที่ 2: “ปัญญาเชิงพื้นที่” ของ Li FfFie

อีกแนวทางที่มีชื่อเสียงมาจาก World Labs ซึ่งก่อตั้งโดย Li FfFie (ผู้บุกเบิก AI) ซึ่งเป็นที่รู้จักกันดีในฐานะ “แม่แห่ง AI” (AI godmother)

(ใครคือ Li FfFie? สตาร์ทอัปยูนิคอร์นใหม่ World Labs ได้รับการสนับสนุนจาก NVIDIA, AMD)

ต่างจาก JEPA ที่เน้น “การทำนายอนาคต” แนวคิดของ Li FfFie คือ “โลกในสามมิติเป็นอย่างไร” เธอเสนอแนวคิดที่เรียกว่า Spatial Intelligence (ปัญญาเชิงพื้นที่) ซึ่งเชื่อว่าความเข้าใจแท้จริงต้องอาศัยโครงสร้างเชิงพื้นที่ที่ชัดเจน เช่น รูปร่างเรขาคณิต ความลึก ความคงทน และความสามารถในการมองภาพจากมุมมองใหม่ ๆ ซึ่งไม่ใช่แค่การทำนายตามเวลา

แนวคิดนี้แตกต่างจาก JEPA ซึ่งเน้นการเรียนรู้พลวัตเชิงนามธรรม แต่เป็นการสร้าง representation 3D ของสิ่งแวดล้อมที่สามารถนำไปใช้งานได้โดยตรง

ผลิตภัณฑ์ Marble ของ World Labs สามารถสร้างโลก 3 มิติที่ต่อเนื่องจากภาพ ข้อความ หรือวิดีโอ แตกต่างจากโมเดลสร้างวิดีโอแบบเดิม ๆ Marble สร้างฉาก 3 มิติที่แท้จริง สามารถเคลื่อนกล้อง เปลี่ยววัตถุ และส่งออกโมเดล 3D ได้ ทำให้เป็นมากกว่าระบบสร้างภาพธรรมดา เป็นเหมือนเครื่องมือสร้างสรรค์ 3D

เส้นทางที่ 3: “โลกจำลองเรียนรู้” ของ DeepMind

แนวทางที่สามคือโมเดลโลกแบบเรียนรู้ (Learned Simulation) ซึ่งรวมถึงงานวิจัยเด่น เช่น Genie 3 ของ DeepMind, ซีรีส์ Dreamer, และ Runway GWM-1

โมเดลเหล่านี้พยายามสร้างโลกจำลองที่สามารถโต้ตอบได้ เพื่อให้ AI เรียนรู้ภายในโลกนั้น

เส้นทางที่ 4: โครงสร้างพื้นฐาน AI ทางกายภาพของ NVIDIA

แนวทางที่สี่ไม่ใช่การสร้างโมเดลโดยตรง แต่เป็นการสร้างแพลตฟอร์มระบบนิเวศ ตัวอย่างคือ NVIDIA ที่เปิดตัว Cosmos ซึ่งเป็นแพลตฟอร์มที่ให้โครงสร้างพื้นฐานครบวงจร:

การประมวลผลข้อมูลวิดีโอ

ตัวแยกคำ (tokenizer) สำหรับภาพ

การฝึกโมเดล

การให้บริการในเชิงปฏิบัติการ

World foundation models ของ Cosmos ได้รับการฝึกด้วยวิดีโอจริง 2 ล้านชั่วโมง และมี token ขนาดรวมกว่า 9000 ล้านล้าน

(ระบบนิเวศ Alpamayo ของ NVIDIA ช่วยให้ AI รถยนต์อัตโนมัติสามารถมีความสามารถในการให้เหตุผลและอธิบายการตัดสินใจได้)

กลยุทธ์ของ NVIDIA ชัดเจน: ไม่จำเป็นต้องสร้างโมเดลโลกเอง แต่เน้นการให้เครื่องมือแก่ทุกคนในการสร้างโมเดลโลก

เส้นทางที่ 5: Active Inference (แนวทางทางประสาทวิทยา)

แนวทางสุดท้ายมาจากทฤษฎีทางประสาทวิทยา ตัวแทนคือ Karl Friston ซึ่งเสนอ Free Energy Principle (หลักการพลังงานอิสระ) ซึ่งต่างจากการเรียนรู้แบบเสริมแรงแบบดั้งเดิม Active Inference มองว่า AI ก็เหมือนสิ่งมีชีวิตที่พยายามเข้าใจโลกอย่างต่อเนื่อง มันจะดำเนินการบางอย่างเพื่อให้การทำนายของตนเองเกี่ยวกับสิ่งแวดล้อมแม่นยำขึ้น ลดความไม่แน่นอนที่ว่า “สิ่งต่าง ๆ ไม่เป็นไปตามคาด”

บริษัท VERSES AI ได้พัฒนาระบบ AXIOM ซึ่งใช้โมเดลเชิงวัตถุ (object-oriented) แต่ละวัตถุเป็นเอนทิตีอิสระ ระบบใช้ Bayesian inference ในการอัปเดตความเชื่อ โดยไม่พึ่งพาการฝึกด้วย deep neural network แบบ gradient ซึ่งมีความสามารถในการอธิบายได้ดี มีความสามารถในการประกอบกัน และข้อมูลที่ใช้ก็มีประสิทธิภาพสูง AXIOM ได้เปิดตัวผลิตภัณฑ์เชิงพาณิชย์ (Genius) เมื่อเมษายน 2025 ซึ่งผลทดสอบในงานควบคุมมาตรฐานก็สามารถแข่งขันกับ baseline RL ได้ ในขณะที่ใช้ข้อมูลน้อยกว่าหลายเท่า

อนาคตของ AI: การเข้าใจโลก

Zhao สรุปว่า แนวทางทั้งห้าของ world model นี้ไม่ได้ขัดแย้งกัน แต่เป็นการแก้ปัญหาในระดับต่าง ๆ

JEPA: การบีบอัดความเข้าใจทางฟิสิกส์

Spatial Intelligence: การสร้างภาพ 3 มิติของโลก

Learned Simulation: การฝึก AI ในโลกจำลอง

NVIDIA Cosmos: การให้โครงสร้างพื้นฐาน

Active Inference: การเสนอทฤษฎีปัญญาใหม่

เมื่อ AI ก้าวเข้าสู่ยุคของหุ่นยนต์ การขับขี่อัตโนมัติ และ AI ทางกายภาพ แนวทางเหล่านี้น่าจะผสมผสานกันอย่างรวดเร็วในอนาคต

บทความนี้เป็นการเปิดเผยของนักวิจัย Meta เกี่ยวกับ 5 สายหลักของ World Model: ทำไม Yang LeCun และ Li FfFie จึงเลือกเดิมพันใน AI แนวทางใด? เผยแพร่ครั้งแรกใน Chain News ABMedia

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น