OpenAI Meluncurkan FrontierScience untuk Mengukur Perkiraan Ilmiah AI

AsiaTokenFund

2025-12-20 15:32:45

Jessie A Ellis

20 Des 2025 04:04

OpenAI memperkenalkan FrontierScience, sebuah tolok ukur baru untuk mengevaluasi kemampuan AI(AI) dalam melakukan penalaran ilmiah tingkat ahli di bidang fisika, kimia, dan biologi, bertujuan mempercepat penelitian ilmiah.

OpenAI telah memperkenalkan FrontierScience, sebuah tolok ukur inovatif yang dirancang untuk menilai kapasitas kecerdasan buatan (AI) dalam melakukan penalaran ilmiah tingkat ahli di berbagai bidang seperti fisika, kimia, dan biologi. Inisiatif ini bertujuan meningkatkan kecepatan penelitian ilmiah, sebagaimana dilaporkan oleh OpenAI.

Mempercepat Penelitian Ilmiah

Pengembangan FrontierScience muncul setelah kemajuan signifikan dalam model AI, seperti GPT-5, yang telah menunjukkan potensi untuk mempercepat proses penelitian yang biasanya memakan waktu berhari-hari atau berminggu-minggu menjadi hanya beberapa jam. Eksperimen terbaru OpenAI, yang didokumentasikan dalam makalah November 2025, menyoroti kemampuan GPT-5 untuk mempercepat upaya penelitian secara signifikan.

Upaya OpenAI untuk menyempurnakan model AI untuk tugas ilmiah yang kompleks menegaskan komitmen yang lebih luas untuk memanfaatkan AI demi manfaat manusia. Dengan meningkatkan kinerja model dalam tugas matematika dan ilmiah yang menantang, OpenAI bertujuan menyediakan alat bagi peneliti untuk memaksimalkan potensi AI dalam eksplorasi ilmiah.

Memperkenalkan FrontierScience

FrontierScience berfungsi sebagai standar baru untuk mengevaluasi kemampuan ilmiah tingkat ahli. Ini terdiri dari dua komponen utama: Olimpiade, yang menilai penalaran ilmiah seperti kompetisi internasional, dan Penelitian, yang mengevaluasi kemampuan penelitian dunia nyata. Tolok ukur ini mencakup ratusan pertanyaan yang dirancang dan ditinjau oleh para ahli di bidang fisika, kimia, dan biologi, dengan fokus pada orisinalitas, tingkat kesulitan, dan signifikansi ilmiah.

Dalam evaluasi awal, GPT-5.2 meraih skor tertinggi di kategori Olimpiade (77%) dan Penelitian 25%, mengungguli model-model canggih lainnya. Kemajuan ini menyoroti kemampuan AI yang semakin meningkat dalam menangani tantangan tingkat ahli, meskipun masih ada ruang untuk perbaikan, terutama dalam tugas terbuka dan berorientasi penelitian.

Membangun FrontierScience

FrontierScience terdiri dari lebih dari 700 pertanyaan berbasis teks, dengan kontribusi dari peraih medali Olimpiade dan peneliti PhD. Bagian Olimpiade menampilkan 100 pertanyaan yang dirancang oleh pemenang kompetisi internasional, sementara bagian Penelitian mencakup 60 tugas unik yang mensimulasikan skenario penelitian dunia nyata. Tugas-tugas ini bertujuan meniru penalaran kompleks multi-langkah yang diperlukan dalam penelitian ilmiah tingkat lanjut.

Untuk memastikan evaluasi yang ketat, setiap tugas ditulis dan ditinjau oleh para ahli, dan desain tolok ukur ini mengintegrasikan masukan dari model internal OpenAI untuk menjaga standar kesulitan yang tinggi.

Menilai Kinerja AI

FrontierScience menggunakan kombinasi penilaian jawaban singkat dan penilaian berbasis rubrik untuk mengevaluasi respons AI. Pendekatan ini memungkinkan analisis mendalam terhadap kinerja model, tidak hanya pada jawaban akhir tetapi juga pada proses penalaran. Model AI dinilai menggunakan penilai berbasis model, memastikan skalabilitas dan konsistensi dalam evaluasi.

Arah Masa Depan

Meskipun telah mencapai keberhasilan, FrontierScience mengakui keterbatasannya dalam sepenuhnya menangkap kompleksitas penelitian ilmiah dunia nyata. OpenAI berencana terus mengembangkan tolok ukur ini, memperluas ke lebih banyak bidang dan mengintegrasikan aplikasi dunia nyata untuk menilai potensi AI dalam penemuan ilmiah secara lebih baik.

Akhirnya, keberhasilan AI dalam penelitian ilmiah akan diukur dari kemampuannya untuk memfasilitasi penemuan ilmiah baru, menjadikan FrontierScience alat penting dalam memantau kemajuan AI di bidang ini.

Sumber gambar: Shutterstock

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.