OpenAI протестировала способности ИИ зарабатывать на фрилансе

OpenAI представила инновационный бенчмарк SWE-Lancer для оценки возможностей языковых моделей в решении реальных задач по разработке программного обеспечения. Исследователи собрали более 1400 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион, чтобы проверить, насколько эффективно ИИ может заменить программистов-фрилансеров.

Тестирование в реальных условиях

В отличие от предыдущих тестов, которые оценивали способности ИИ решать изолированные задачи программирования, SWE-Lancer предлагает моделям работать с реальными проектами из репозитория Expensify. Задания варьируются от простых исправлений багов стоимостью $50 до сложных внедрений новых функций за $32 000.

Бенчмарк включает два типа заданий:

Задачи индивидуального разработчика, где ИИ должен написать код для решения конкретных проблем
Задачи технического руководителя, где модели необходимо оценить конкурирующие предложения по реализации и выбрать оптимальное решение

Результаты тестирования

Исследование показало, что даже самые продвинутые модели ИИ пока не готовы полностью заменить программистов-фрилансеров. Лучший результат показала модель Claude 3.5 Sonnet от Anthropic:

26,2% успешных решений задач индивидуальной разработки
44,9% правильных решений в роли технического руководителя
Общий заработок около $208 050 из возможных $500 800 в тестовом наборе Diamond

Модели GPT-4 и O1 показали более скромные результаты, что подчеркивает сложность реальных задач разработки программного обеспечения.

Инновационный подход к тестированию

SWE-Lancer выделяется среди других бенчмарков несколькими ключевыми особенностями:

Использование комплексного end-to-end тестирования вместо простых юнит-тестов
Оценка способностей ИИ работать со всем технологическим стеком
Прямая связь между производительностью модели и реальной экономической ценностью
Включение задач по управлению разработкой, что редко встречается во фрилансе

Перспективы и выводы

Результаты исследования показывают, что, хотя ИИ демонстрирует впечатляющие способности в программировании, до полной автоматизации фриланс-разработки еще далеко. «Модели могут быстро локализовать проблемы в коде, но часто не понимают, как изменения повлияют на работу всей системы», отмечают исследователи.

Тем не менее, успехи ИИ в решении определенных задач указывают на потенциал использования таких моделей в качестве помощников разработчиков, особенно для рутинных задач и начального анализа кода.

Об авторе
Недавние публикации

Digital Report

Digital-Report.ru — информационно-аналитический портал, который отслеживает изменения цифровой экономики. Мы описываем все технологические тренды, делаем обзоры устройств и технологических событий, которые влияют на жизнь людей.

Digital Report недавно публиковал (посмотреть все)