OpenAI протестировала способности ИИ зарабатывать на фрилансе

0

OpenAI представила инновационный бенчмарк SWE-Lancer для оценки возможностей языковых моделей в решении реальных задач по разработке программного обеспечения. Исследователи собрали более 1400 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион, чтобы проверить, насколько эффективно ИИ может заменить программистов-фрилансеров.

Тестирование в реальных условиях

В отличие от предыдущих тестов, которые оценивали способности ИИ решать изолированные задачи программирования, SWE-Lancer предлагает моделям работать с реальными проектами из репозитория Expensify. Задания варьируются от простых исправлений багов стоимостью $50 до сложных внедрений новых функций за $32 000.

Бенчмарк включает два типа заданий:

  • Задачи индивидуального разработчика, где ИИ должен написать код для решения конкретных проблем
  • Задачи технического руководителя, где модели необходимо оценить конкурирующие предложения по реализации и выбрать оптимальное решение

Результаты тестирования

Исследование показало, что даже самые продвинутые модели ИИ пока не готовы полностью заменить программистов-фрилансеров. Лучший результат показала модель Claude 3.5 Sonnet от Anthropic:

  • 26,2% успешных решений задач индивидуальной разработки
  • 44,9% правильных решений в роли технического руководителя
  • Общий заработок около $208 050 из возможных $500 800 в тестовом наборе Diamond

Модели GPT-4 и O1 показали более скромные результаты, что подчеркивает сложность реальных задач разработки программного обеспечения.

Инновационный подход к тестированию

SWE-Lancer выделяется среди других бенчмарков несколькими ключевыми особенностями:

  • Использование комплексного end-to-end тестирования вместо простых юнит-тестов
  • Оценка способностей ИИ работать со всем технологическим стеком
  • Прямая связь между производительностью модели и реальной экономической ценностью
  • Включение задач по управлению разработкой, что редко встречается во фрилансе

Перспективы и выводы

Результаты исследования показывают, что, хотя ИИ демонстрирует впечатляющие способности в программировании, до полной автоматизации фриланс-разработки еще далеко. «Модели могут быстро локализовать проблемы в коде, но часто не понимают, как изменения повлияют на работу всей системы», отмечают исследователи.

Тем не менее, успехи ИИ в решении определенных задач указывают на потенциал использования таких моделей в качестве помощников разработчиков, особенно для рутинных задач и начального анализа кода.

Digital Report
Share.

About Author

Digital-Report.ru — информационно-аналитический портал, который отслеживает изменения цифровой экономики. Мы описываем все технологические тренды, делаем обзоры устройств и технологических событий, которые влияют на жизнь людей.

Comments are closed.