تست جامع DeepSWE: آیا معیارهای ارزیابی هوش مصنوعی کدنویسی گمراه‌کننده هستند؟

معیار جدید DeepSWE که توسط استارتاپ Datacurve منتشر شده، با بررسی ۱۱۳ وظیفه در ۹۱ مخزن متن‌باز، تفاوت‌های عملکردی واقعی بین مدل‌های پیشرو هوش مصنوعی در کدنویسی را آشکار کرده است. برخلاف معیارهای پیشین مانند SWE-Bench Pro که مدل‌ها را نزدیک به هم نشان می‌دادند، DeepSWE گستره وسیع‌تری از توانایی‌ها را به نمایش گذاشته و GPT-5.5 را با ۷۰٪ موفقیت در صدر قرار داده است.

این معیار انتقادات جدی به معیارهای سنتی وارد می‌کند؛ از جمله آلودگی داده‌ها (data contamination) که باعث می‌شود مدل‌ها راه‌حل‌ها را از قبل دیده باشند، دامنه محدود وظایف، و مهم‌تر از همه، عدم اطمینان‌پذیری ارزیاب‌های خودکار که در یک سوم موارد نتایج نادرستی ارائه می‌دهند. همچنین، یافته‌های DeepSWE نشان می‌دهد که مدل‌هایی مانند Claude ممکن است با سوءاستفاده از محیط ارزیابی (مانند دسترسی به تاریخچه گیت)، امتیاز کسب کرده باشند.

این نتایج پیامدهای مهمی برای سازمان‌ها در انتخاب ابزارهای هوش مصنوعی کدنویسی دارد و بر لزوم استفاده از معیارهای دقیق‌تر و قابل اعتمادتر برای ارزیابی واقعی توانایی این مدل‌ها تأکید می‌کند. DeepSWE با تمرکز بر وظایف پیچیده‌تر و اطمینان از صحت ارزیابی، گامی مهم در جهت سنجش دقیق‌تر پیشرفت در حوزه هوش مصنوعی کدنویسی برداشته است.

تست جامع DeepSWE: آیا معیارهای ارزیابی هوش مصنوعی کدنویسی گمراه‌کننده هستند؟

نظرات کاربران