أشار بحث مشترك بين أكاديمية الإنترنت في أكسفورد وغيرها من المؤسسات إلى أن طرق تقييم الذكاء الاصطناعي غالبًا ما تُبالغ في أدائها، وتفتقر إلى الدقة العلمية والصرامة. قام الباحثون بتحليل 445 اختبارًا معياريًا، ووجدوا أن العديد من الأهداف في هذه الاختبارات غير واضحة، وتفتقر إلى الموثوقية، مما يثير الشكوك حول فعاليتها. ودعا الباحثون إلى إجراء مراجعة معمقة لهذه الاختبارات.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أشار بحث مشترك بين أكاديمية الإنترنت في أكسفورد وغيرها من المؤسسات إلى أن طرق تقييم الذكاء الاصطناعي غالبًا ما تُبالغ في أدائها، وتفتقر إلى الدقة العلمية والصرامة. قام الباحثون بتحليل 445 اختبارًا معياريًا، ووجدوا أن العديد من الأهداف في هذه الاختبارات غير واضحة، وتفتقر إلى الموثوقية، مما يثير الشكوك حول فعاليتها. ودعا الباحثون إلى إجراء مراجعة معمقة لهذه الاختبارات.