«Каталога с таким количеством датасетов сейчас в России нет»: как соревнования по ИИ открывают разработчикам доступ к данным

0

Какие есть барьеры для интенсивного развития технологий искусственного интеллекта в России? Во-первых, хотя в России одни из лучших ИТ-специалистов в мире, их не хватает. Во-вторых, культура хранения данных, их обработки и подготовки находится на зачаточном уровне. Наконец, в России есть недостаток открытых датасетов. Расскажем, как эти проблемы помогают решить хакатоны и чемпионаты для ИТ-специалистов на примере конкурса «Цифровой прорыв. Сезон: искусственный интеллект», проекта президентской платформы «Россия – страна возможностей».

Во многих отраслях накоплены большие данные о технологических процессах, данные интернета вещей, геоданные и т.д. Эти данные собирают как коммерческие организации, так и госорганы. На основе их анализа можно делать выводы, прогнозировать возможные ситуации, определять зависимости и корреляционные связи. Например, можно предсказывать пандемии и прогнозировать ДТП.

Сейчас бизнес и общество создают немыслимые объёмы данных. Так, в 2020 году, по данным IDC, человечество сгенерировало 64,2 зеттабайт данных, но сохранило только 2% из всей массы. А обрабатывается и анализируется из них куда меньше.

«Важно правильно собрать и структурировать набор больших данных. Не все компании анализируют поток информации, генерируемый во время любого процесса. Это относится не только к технологическим нишам, но и к коммерческим организациям. Например, данные о продажах за 2-3 года уже помогают строить предсказания», — отмечает руководитель департамента методологии всероссийских и региональных чемпионатов проекта «Цифровой прорыв. Сезон: искусственный интеллект» Ольга Рыбакова.

Есть объективные ограничения, которые мешают открывать все больше и больше данных. Например, юридическая сложность заключается в том, что многие данные компаний содержат персональные данные. Такими данными не делятся с третьими лицами, поэтому их анонимизируют для передачи в различные конкурсы. Другой важный аспект — компании не хотят делиться данными, которые имеют для них коммерческую ценность.

Но ведь какие-то открытые данные есть? Есть, но их качество и полнота сомнительны.  А значит, нейросети, тренированные на этих данных, могут выдавать некорректные или неэтичные результаты.

«Каталога с таким количеством датасетов сейчас в России нет»: как соревнования по ИИ открывают разработчикам доступ к данным

Тем не менее, шаги по расширению доступа к обезличенным данным уже предпринимаются, хотя в основном это пока делают государственные структуры. Например, Москва недавно создала цифровую библиотеку обезличенных данных для разработчиков искусственного интеллекта в сфере медицины.

Такие конкурсы, как «Цифровой прорыв. Сезон: искусственный интеллект», открывают участникам доступ к большому количеству датасетов. Постановщики задач предоставляют доступ специалистам к массиву данных, чтобы те разработали алгоритм для решения той или иной задачи. Например, на Всероссийском чемпионате конкурса «Цифровой прорыв. Сезон: искусственный интеллект» ИТ-специалисты разрабатывают алгоритм определения железнодорожной колеи и подвижного состава для предотвращения чрезвычайных ситуаций на железной дороге для АО «НИИАС» (ОАО «РЖД»), ищут местоположение и ориентацию снимка на крайне большом изображении в задаче от МФТИ и создают радар тенденций новостных статей для РБК.

«Приоритетная задача чемпионатов — организация и проведение соревнований по большим данным. Также мы видим дополнительную цель нашей работы — открыть библиотеку датасетов с изображениями, видео, аудио и текстами после реализации проекта. Тогда все специалисты по Data Science, компании и ведомства смогут пользоваться данными и обучать свои модели. Каталога с таким количеством разнообразных датасетов не существует сейчас в России, но это очень нужно для отрасли и специалистов. ​​У нас уже собрано более 28 уникальных датасетов. До конца 2022 года “Цифровой прорыв” станет не только самой крупной площадкой для соревнований по машинному обучению с множеством интересных датасетов, но и открытым каталогом с рубрикатором по источникам данным, отраслям, применимости и технологиям. 

Тысячи решений на базе этих датасетов дадут возможность начинающим специалистам обучаться и тренировать личные компетенции. Стоит отметить, что в данный момент команда проекта оказывает консалтинг по подготовке данных для обучения моделей и разработке решений всем постановщикам задач. Тем самым, мы помогаем нашим ведомствам в работе с большими накопленными данными», — подчёркивает Татьяна Голубовская, руководитель всероссийских и региональных чемпионатов проекта «Цифровой прорыв. Сезон: искусственный интеллект».

Если компании собирают данные только по своему профилю, то такие конкурсы аккумулируют данные по всем направлениям задач. Например, в этом году задачи чемпионатов связаны с медициной, образованием, экологией, обработкой обращений граждан, прогнозированием чрезвычайных ситуаций и другими отраслями и вопросами. Соответственно, большие данные есть по всем этим и другим тематикам.

Есть ещё один плюс: для чемпионатов постановщики задач готовят качественные, выверенные датасеты. Так что решения, созданные на этих датасетах, избавляются от многих проблем ещё на этапе подготовки данных. Тренируясь в создании моделей на базе этих данных, ИТ-специалисты развивают компетенции в сфере Data Science и машинного обучения. И тем самым, у нас в стране формируется уникальный кадровый резерв по этим направлениям.

Наши разработчики лишились доступа к открытым зарубежным дата-репозиториям, которые часто использовались как для обучения нейросетей, так и для проверки корректности их работы. Поэтому сейчас особенно важно открывать как можно больше качественных датасетов, чтобы наши ИТ-специалисты могли обучать модели и обучаться сами. И одним из источников таких датасетов становятся хакатоны и чемпионаты по искусственному интеллекту.

Digital Report
Share.

About Author

Digital-Report.ru — информационно-аналитический портал, который отслеживает изменения цифровой экономики. Мы описываем все технологические тренды, делаем обзоры устройств и технологических событий, которые влияют на жизнь людей.

Comments are closed.

Перейти к верхней панели