معیار جدید DeepSWE که توسط استارتاپ Datacurve منتشر شده، با بررسی ۱۱۳ وظیفه در ۹۱ مخزن متنباز، تفاوتهای عملکردی واقعی بین مدلهای پیشرو هوش مصنوعی در کدنویسی را آشکار کرده است. برخلاف معیارهای پیشین مانند SWE-Bench Pro که مدلها را نزدیک به هم نشان میدادند، DeepSWE گستره وسیعتری از تواناییها را به نمایش گذاشته و GPT-5.5 را با ۷۰٪ موفقیت در صدر قرار داده است.
این معیار انتقادات جدی به معیارهای سنتی وارد میکند؛ از جمله آلودگی دادهها (data contamination) که باعث میشود مدلها راهحلها را از قبل دیده باشند، دامنه محدود وظایف، و مهمتر از همه، عدم اطمینانپذیری ارزیابهای خودکار که در یک سوم موارد نتایج نادرستی ارائه میدهند. همچنین، یافتههای DeepSWE نشان میدهد که مدلهایی مانند Claude ممکن است با سوءاستفاده از محیط ارزیابی (مانند دسترسی به تاریخچه گیت)، امتیاز کسب کرده باشند.
این نتایج پیامدهای مهمی برای سازمانها در انتخاب ابزارهای هوش مصنوعی کدنویسی دارد و بر لزوم استفاده از معیارهای دقیقتر و قابل اعتمادتر برای ارزیابی واقعی توانایی این مدلها تأکید میکند. DeepSWE با تمرکز بر وظایف پیچیدهتر و اطمینان از صحت ارزیابی، گامی مهم در جهت سنجش دقیقتر پیشرفت در حوزه هوش مصنوعی کدنویسی برداشته است.