OpenAI представила инновационный бенчмарк SWE-Lancer для оценки возможностей языковых моделей в решении реальных задач по разработке программного обеспечения. Исследователи собрали более 1400 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион, чтобы проверить, насколько эффективно ИИ может заменить программистов-фрилансеров.
Тестирование в реальных условиях
В отличие от предыдущих тестов, которые оценивали способности ИИ решать изолированные задачи программирования, SWE-Lancer предлагает моделям работать с реальными проектами из репозитория Expensify. Задания варьируются от простых исправлений багов стоимостью $50 до сложных внедрений новых функций за $32 000.
Бенчмарк включает два типа заданий:
- Задачи индивидуального разработчика, где ИИ должен написать код для решения конкретных проблем
- Задачи технического руководителя, где модели необходимо оценить конкурирующие предложения по реализации и выбрать оптимальное решение
Результаты тестирования
Исследование показало, что даже самые продвинутые модели ИИ пока не готовы полностью заменить программистов-фрилансеров. Лучший результат показала модель Claude 3.5 Sonnet от Anthropic:
- 26,2% успешных решений задач индивидуальной разработки
- 44,9% правильных решений в роли технического руководителя
- Общий заработок около $208 050 из возможных $500 800 в тестовом наборе Diamond
Модели GPT-4 и O1 показали более скромные результаты, что подчеркивает сложность реальных задач разработки программного обеспечения.
Инновационный подход к тестированию
SWE-Lancer выделяется среди других бенчмарков несколькими ключевыми особенностями:
- Использование комплексного end-to-end тестирования вместо простых юнит-тестов
- Оценка способностей ИИ работать со всем технологическим стеком
- Прямая связь между производительностью модели и реальной экономической ценностью
- Включение задач по управлению разработкой, что редко встречается во фрилансе
Перспективы и выводы
Результаты исследования показывают, что, хотя ИИ демонстрирует впечатляющие способности в программировании, до полной автоматизации фриланс-разработки еще далеко. «Модели могут быстро локализовать проблемы в коде, но часто не понимают, как изменения повлияют на работу всей системы», отмечают исследователи.
Тем не менее, успехи ИИ в решении определенных задач указывают на потенциал использования таких моделей в качестве помощников разработчиков, особенно для рутинных задач и начального анализа кода.
- KFC тестирует ИИ-помощника для управления ресторанами - 20/06/2025 20:39
- Тысячи Nintendo Switch 2 лишились доступа в онлайн из-за пиратов - 20/06/2025 20:27
- Технологические гиганты требуют десятилетний мораторий на регулирование ИИ - 20/06/2025 20:15