OpenAI Ra mắt FrontierScience để đánh giá khả năng lý luận khoa học của AI

AsiaTokenFund

2025-12-20 15:32:45

Jessie A Ellis

Dec 20, 2025 04:04

OpenAI giới thiệu FrontierScience, một tiêu chuẩn mới để đánh giá khả năng suy luận ở cấp độ chuyên gia của AI trong các lĩnh vực vật lý, hóa học và sinh học, nhằm thúc đẩy nghiên cứu khoa học.

OpenAI đã giới thiệu FrontierScience, một tiêu chuẩn đột phá được thiết kế để đánh giá khả năng của trí tuệ nhân tạo (AI) trong việc thực hiện suy luận khoa học ở cấp độ chuyên gia trong nhiều lĩnh vực như vật lý, hóa học và sinh học. Sáng kiến này nhằm nâng cao tốc độ nghiên cứu khoa học, theo báo cáo của OpenAI.

Thúc đẩy Nghiên cứu Khoa học

Việc phát triển FrontierScience diễn ra sau những tiến bộ đáng kể của các mô hình AI, như GPT-5, đã thể hiện tiềm năng thúc đẩy quá trình nghiên cứu, từ những ngày hoặc tuần trở thành chỉ trong vài giờ. Các thử nghiệm gần đây của OpenAI, được ghi nhận trong một bài báo tháng 11 năm 2025, nhấn mạnh khả năng của GPT-5 trong việc tăng tốc các nỗ lực nghiên cứu đáng kể.

Nỗ lực của OpenAI trong việc hoàn thiện các mô hình AI cho các nhiệm vụ khoa học phức tạp thể hiện cam kết rộng lớn hơn trong việc tận dụng AI để mang lại lợi ích cho con người. Bằng cách nâng cao hiệu suất của các mô hình trong các nhiệm vụ toán học và khoa học khó khăn, OpenAI mong muốn cung cấp cho các nhà nghiên cứu các công cụ để tối đa hóa tiềm năng của AI trong khám phá khoa học.

Giới thiệu FrontierScience

FrontierScience đóng vai trò như một tiêu chuẩn mới để đánh giá khả năng khoa học ở cấp độ chuyên gia. Nó gồm hai thành phần chính: Olympiad, đánh giá khả năng suy luận khoa học tương tự các cuộc thi quốc tế, và Research, đánh giá khả năng nghiên cứu thực tế. Tiêu chuẩn này bao gồm hàng trăm câu hỏi do các chuyên gia trong lĩnh vực vật lý, hóa học và sinh học thiết kế và xem xét, tập trung vào tính sáng tạo, độ khó và ý nghĩa khoa học.

Trong các đánh giá ban đầu, GPT-5.2 đạt điểm cao nhất trong cả hai hạng mục Olympiad (77%) và Research (25%), vượt qua các mô hình tiên tiến khác. Thành tích này làm nổi bật khả năng ngày càng tăng của AI trong việc giải quyết các thử thách ở cấp độ chuyên gia, mặc dù vẫn còn nhiều không gian để cải thiện, đặc biệt trong các nhiệm vụ mở, hướng nghiên cứu.

Xây dựng FrontierScience

FrontierScience gồm hơn 700 câu hỏi dựa trên văn bản, có sự đóng góp của các huy chương Olympiad và các nhà nghiên cứu Tiến sĩ. Phần Olympiad gồm 100 câu hỏi do các nhà vô địch thi đấu quốc tế thiết kế, trong khi phần Research bao gồm 60 nhiệm vụ độc đáo mô phỏng các tình huống nghiên cứu thực tế. Các nhiệm vụ này nhằm mô phỏng quá trình suy luận phức tạp, nhiều bước cần thiết trong nghiên cứu khoa học nâng cao.

Để đảm bảo đánh giá nghiêm ngặt, mỗi nhiệm vụ đều do các chuyên gia viết và xem xét, và thiết kế của tiêu chuẩn này còn tích hợp ý kiến từ các mô hình nội bộ của OpenAI để duy trì tiêu chuẩn độ khó cao.

Đánh giá Hiệu suất của AI

FrontierScience sử dụng kết hợp giữa chấm điểm câu trả lời ngắn và đánh giá dựa trên thang điểm để đánh giá phản hồi của AI. Phương pháp này cho phép phân tích chi tiết về hiệu suất của mô hình, tập trung không chỉ vào câu trả lời cuối cùng mà còn vào quá trình suy luận. Các mô hình AI được chấm điểm bằng một bộ chấm điểm dựa trên mô hình, đảm bảo khả năng mở rộng và nhất quán trong đánh giá.

Hướng đi Tương lai

Dù đã đạt được nhiều thành tựu, FrontierScience vẫn thừa nhận những hạn chế trong việc nắm bắt đầy đủ các phức tạp của nghiên cứu khoa học thực tế. OpenAI dự định tiếp tục phát triển tiêu chuẩn này, mở rộng sang nhiều lĩnh vực hơn và tích hợp các ứng dụng thực tế để đánh giá tốt hơn tiềm năng của AI trong khám phá khoa học.

Cuối cùng, thành công của AI trong nghiên cứu khoa học sẽ được đo bằng khả năng thúc đẩy các khám phá khoa học mới, khiến FrontierScience trở thành công cụ thiết yếu trong việc theo dõi tiến trình của AI trong lĩnh vực này.

Nguồn hình ảnh: Shutterstock

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.