برای ارزیابی دقیقتر هوش مصنوعی، کنسرسیومی جهانی "آزمون نهایی بشریت" (HLE) را با ۲۵۰۰ سوال تخصصی طراحی کرده است. این آزمون که از حوزههای مختلف دانش بشری بهره میبرد، فراتر از تواناییهای کنونی AI است.
نتایج اولیه حاکی از عملکرد ضعیف مدلهای پیشرفته AI مانند GPT-4o و Claude 3.5 است که امتیازات بسیار پایینی کسب کردهاند. این امر نشاندهنده شکاف عمیق بین پردازش داده توسط ماشین و تخصص واقعی انسانی است.
HLE ابزاری کلیدی برای درک محدودیتهای AI و تاکید بر اهمیت دانش تخصصی انسانی محسوب میشود و آینده تحقیق در این حوزه را هدایت خواهد کرد.