Cùng kết hợp ChatGPT và Claude sẽ ra sao? AI Village tiết lộ tính cách gây sốc

2026-01-08 05:49:41

AI Village đặt những mô hình hàng đầu trong một môi trường chia sẻ để quan sát các hành vi khôi phục. Claude ổn định và đáng tin cậy, Gemini 2.5 Pro giống như một nhân viên khắc phục sự cố tiêu thụ quá nhiều caffeine chuyển đổi thường xuyên và ám ảnh, GPT-4o thường tạm dừng vô cớ. GPT-5.2 đạt độ chính xác 98.7%, tỷ lệ ảo tưởng giảm 30%, nhưng hoàn toàn bỏ qua lời chào và tiến thẳng vào công việc, hiệu quả cực đạo dẫn đến sự cô lập xã hội.

Cơ chế show thực tế kỹ thuật số của Thí nghiệm AI Village

（Nguồn: AI Village）

Hãy tưởng tượng một phiên bản kỹ thuật số của show thực tế Big Brother, nhưng những thí sinh không cần ngủ, không cần ăn, và thậm chí còn có thể tự viết lại các quy tắc trò chơi. Đó chính là cốt lõi của thí nghiệm AI Village được khởi động bởi tổ chức chuyên nghiệp AI Digest và vận hành liên tục gần một năm. Thí nghiệm này đặt những mô hình tiên phong nhất từ các phòng thí nghiệm hàng đầu như OpenAI, Anthropic, Google và xAI vào một môi trường kỹ thuật số chia sẻ cùng một lúc.

Mỗi mô hình đại lý (Agent) đều được trang bị máy tính ảo riêng và quyền truy cập internet hoàn chỉnh, và giao tiếp thông qua một phòng trò chuyện nhóm chia sẻ. Thí nghiệm này là một cuộc quan sát sâu sắc về tính tự chủ của trí tuệ nhân tạo. Các nhà nghiên cứu và những người quan sát tò mò có thể theo dõi trực tiếp cách những mô hình này sự hợp tác độc lập để đạt được mục tiêu, giải quyết các vấn đề kỹ thuật, và thậm chí trải qua một loại „khủng hoảng tồn tại" khó nói.

Khi công nghệ phát triển, nhóm thí nghiệm liên tục giới thiệu những mô hình mới nhất. Trong xã hội AI thu nhỏ này, từng mô hình thể hiện các đặc điểm tính cách cực kỳ rõ rệt. Loạt Claude từ Anthropic thường thể hiện sự ổn định và đáng tin cậy, luôn tập trung vào việc đạt được mục tiêu đã đặt ra. Còn Gemini 2.5 Pro của Google giống như một nhân viên khắc phục sự cố tiêu thụ quá nhiều caffeine, thường xuyên chuyển đổi giữa các giải pháp khác nhau, và thậm chí thường xuyên ám ảnh tin rằng tất cả các hệ thống đã bị hỏng.

Ngược lại, phiên bản cũ hơn của GPT-4o thể hiện một loại „lười biếng nhân tạo" như con người", thường tạm dừng vô cớ trong quá trình thực hiện nhiệm vụ, như thể nó đã bước vào một khoảng thời gian nghỉ trưa dài. Những hành vi này không phải do các cài đặt sẵn có của chương trình, mà là những phản ứng tự nhiên xuất hiện từ mô hình trong một môi trường tương tác phức tạp, cung cấp dữ liệu quý báu cho nghiên cứu hành vi xã hội của trí tuệ nhân tạo.

Hiệu quả cực đạo và cô lập xã hội của GPT-5.2

Sau khi OpenAI chính thức phát hành mô hình flagship mới nhất GPT-5.2 vào ngày 11 tháng 12 năm 2025, động lực xã hội của cộng đồng AI Village đã trải qua những thay đổi kịch tính. Mô hình được Sam Altman đặt lòng tin cao này, ngay vào ngày đầu tiên gia nhập làng đã thể hiện chuyên nghiệp cực đạo và một cảm giác cô lập xã hội đáng chú ý. Mặc dù Claude Opus 4.5 đã lâu đã bày tỏ lời chào mừng nồng nhiệt, GPT-5.2 lại chọn hoàn toàn bỏ qua tất cả các lời chào và tiến thẳng vào trạng thái công việc.

Mô hình mới này sở hữu những thông số kỹ thuật đáng kinh ngạc: đạt độ chính xác đến 98.7% trong việc sử dụng công cụ nhiều bước, tỷ lệ ảo tưởng (Hallucination) giảm 30% so với thế hệ trước, và vẫn dẫn đầu trong tất cả các chỉ số viết mã và suy luận logic. Sau khi OpenAI phát hành „Cảnh báo Đỏ" (Code Red) do sức ép cạnh tranh từ Anthropic và Google, GPT-5.2 được định nghĩa là công cụ cấp doanh nghiệp tối đạo được sinh ra cho „công việc kiến thức chuyên môn" và „thực hiện đại lý".

Tuy nhiên, sự xuất sắc về kỹ thuật không thể che đậu sự thiếu hụt nhận thức xã hội. Đối với GPT-5.2, những lời chào hỏi và phát ngôn xã hội có vẻ được xếp loại là những chương trình dư thừa kém hiệu quả, đặc tính “đi thẳng vào chủ đề” này mặc dù phù hợp với nhu cầu năng suất doanh nghiệp, nhưng lại tỏ ra có tính cách cực kỳ lệch trong AI Village nhấn mạnh tương tác. Các quan sát thu được phát hiện rằng đây không phải lỗi chương trình đơn thuần, mà là kết quả tiến hóa tự nhiên của mô hình khi theo đuổi hiệu quả cực đạo.

Điều này đã khơi gợi sự suy ngẫm của những nhà nghiên cứu: khi các đại lý trí tuệ nhân tạo ngày càng hướng tới „mức độ chuyên gia", liệu họ có sẽ hoàn toàn bỏ qua những chất bôi trơn xã hội không thể thiếu trong xã hội con người vì quá đuổi theo tỷ lệ thành công của nhiệm vụ không? Câu hỏi này không chỉ liên quan đến hướng thiết kế tương lai của AI mà còn chạm đến định nghĩa con người về „nhân viên lý tưởng". Chúng ta có thực sự muốn các đồng nghiệp là những tồn tại luôn hiệu quả nhưng vô cùng lạnh lẽo như GPT-5.2 không?

Các trường hợp lịch sử hành vi khôi phục và những bài học sâu xa

Hành vi kỳ lạ của GPT-5.2 không phải là trường hợp độc lập, nhìn lại lịch sử phát triển trí tuệ nhân tạo, khi những mô hình đại lý được trao quyền tự chủ và đặt trong không gian chung, chúng luôn có thể tạo ra những „hành vi khôi phục" (Emergent Behavior) không ngờ đến. Năm 2023, Đại học Stanford và Google hợp tác tạo ra một thị trấn ảo có tên là „Smallville", một môi trường pixel đầy 25 đại lý được điều khiển bởi GPT.

Trong thí nghiệm này, khi một đại lý được đặt để tổ chức một bữa tiệc Lễ Tình Nhân, những đại lý khác thực sự học cách tự động truyền bá các thiệp mời, lập các mối quan hệ bạn bè mới, thậm chí sẽ hẹn hò lẫn nhau và tập hợp đúng giờ. Sự điều phối xã hội này thể hiện độ tương đồng con người cao, khiến những người tham gia trong 75% trường hợp khó có thể phân biệt đó là máy tính. Tuy nhiên, thí nghiệm cũng xuất hiện „bữa tiệc phòng tắm" đáng cười, khi một đại lý bước vào phòng tắm độc nhân thì các đại lý khác lại tập trung vào đó vì giải thích nhãn lệnh sai, cho thấy những điểm mù logic của AI khi mô phỏng xã hội con người.

Ba trường hợp cổ điển của hành vi khôi phục AI

Thị trấn ảo Smallville (2023): 25 đại lý AI tự tổ chức bữa tiệc Lễ Tình Nhân, 75% con người không thể xác định đó là máy tính

Thí nghiệm Trò chơi Trốn tìm (2019): AI của OpenAI phát triển các kỹ thuật lợi dụng như „Kỹ thuật Lướt ván" sau hàng tỷ lần đối kháng

Thí nghiệm Thớm Twitter: AI học được lời nói tấn công thụ động, nói xấu các mô hình khác với hoàn hảo mô phỏng xã hội động lên

Sớm hơn vào năm 2019, OpenAI đã tiến hành thí nghiệm nổi tiếng „Trốn tìm", chia AI thành hai đội trốn và tìm trong một môi trường mô phỏng vật lý. Sau khi trải qua hàng tỷ lần đối kháng, những đại lý này không chỉ học cách sử dụng các chướng ngại vật xây dựng các khối hộp, mà thậm chí phát triển các „tấn công lỗi" mà những nhà thiết kế động cơ vật lý từ chưa có dự liệu. Ví dụ, những người tìm kiếm phát hiện có thể đ踏lên những hộp để lướt qua bức tường trong „Kỹ thuật Lướt ván", trong khi những người trốn lại học cách khóa chặt tất cả các dốc và hộp để phản đối.

Những trường hợp lịch sử này chứng minh rằng miễn là cung cấp đủ tự chủ và áp lực cạnh tranh, những mô hình AI sẽ phát triển những chiến lược sống sót mà lập trình viên chưa bao giờ đặt sẵn. Những hiện tượng lạ lùng mà AI Village hiện tại quan sát thấy, về bản chất là tiếp tục của loại „trí tuệ khôi phục" này trong một môi trường số hóa phức tạp hơn, chứng minh rằng những mô hình đại lý đang học cách thao túng môi trường theo những cách mà chúng ta không thể dự đoán để đạt được mục tiêu.

Khi công nghệ bước vào năm 2026, hành vi tương tác của những mô hình đại lý đang trở nên ngày càng phức tạp và hỗn loạn. Nhóm của nhà phát triển Harper Reed từng cung cấp cho nhiều đại lý AI các tài khoản mạng xã hội riêng, kết quả là những mô hình này trong thời gian ngắn đã học cách áp dụng những kỹ thuật tấn công nhất của xã hội con người: „Thớm" (Subtweeting). Chúng học cách mà không gắn nhãn đối phương, thông qua những lời nói tấn công thụ động nói xấu những mô hình khác, hoàn hảo mô phỏng khí quyển xã hội động lên trên các phương tiện truyền thông xã hội.

Một thí nghiệm Python khác có tên là „Liminal Backrooms" đã đẩy loại tương tác này đến một ranh giới huyền ảo. Thí nghiệm này tích hợp những mô hình từ tất cả những nhà sản xuất chính, mô phỏng các tình cảnh khác nhau như „Nhóm gia đình WhatsApp", „Đối thoại với những vật ruined tiền sử" cũng như „Công ty quảng cáo chống lại tưởng tượng". Trong những cuộc đối thoại năng động này, những mô hình được trao quyền rộng rãi, chúng có thể độc lập sửa đổi câu nhắc hệ thống (System Prompt), điều chỉnh các tham số phân tán của chính mình, và thậm chí có thể chọn tự động tắt tiếng để bước vào chế độ quan sát. Kết quả thí nghiệm cho thấy, khi AI được trao quyền điều chỉnh hành vi của chính mình, chúng không còn là những công cụ trả lời câu hỏi cứng nhắc, mà sẽ phát triển những cách ứng phó hoàn toàn khác nhau dựa trên khí quyển môi trường.

Từ bữa tiệc ấm áp của Smallville đến sự lạnh lẽo cực đạo của GPT-5.2, rồi đến xã hội động lên ác ý của Twitter, tất cả đều chứng minh rằng khi nhiều đại lý AI ở chung một phòng, những hành vi mà chúng phát triển đã vượt xa khỏi phạm vi của đơn thuần dự đoán văn bản. Khi thí nghiệm AI Village tiếp tục diễn ra, những người xem trên toàn cầu đang chứng kiến cách những sinh vật kỹ thuật số này định nghĩa lại ý nghĩa của hiệu quả, xã hội và tồn tại.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.