Исследователи Facebook представили новую модель искусственного интеллекта (ИИ), которая может обучаться на любой случайной группе немаркированных изображений, размещенных в сети Интернет. Об этом сообщает Дафна Лепренс-Ринге в своей статье «ИИ: новый алгоритм Facebook обучен на миллиарде фото в Instagram» на портале ZDNet 4 марта 2021 года.

Иван Шилов ИА REGNUM
Facebook

С помощью этого «прорыва», который пока находится на своей ранней стадии, команда надеется произвести «революцию» в технологии компьютерного зрения. Модели, получившей название SEER (SElf-SupERvised), был «скормлен» один миллиард общедоступных неразмеченных изображений из сети Instagram. Но даже без меток и аннотаций, которые обычно используются при обучении алгоритмов, SEER могла автономно работать с набором данных, обучаясь обрабатывать изображения и в конечном итоге достигая высочайшего уровня точности в таких задачах, как распознавание объектов.

Искуственный интеллект

Метод, названный обучением с самоконтролем (self-supervised learning), уже хорошо зарекомендовал себя в области ИИ: он заключается в создании систем, которые могут учиться непосредственно на основе предоставленной информации, без необходимости полагаться на тщательно размеченные наборы данных, чтобы научить их выполнять такую задачу, как распознавание объекта на фотографии или перевод текста.

Самоконтролируемое обучение в последнее время привлекло внимание ученых, потому что это означает, что людям всё меньше требуется маркировать данные, то есть осуществлять кропотливые трудоемкие действия. В то же время без специально подобранного набора размеченных данных модель с самоконтролем может работать с большими и разнообразными наборами данных.

В некоторых областях, особенно в обработке естественного языка, этот метод уже привел к прорыву: алгоритмы, обученные на все большем количестве неразмеченного текста, позволили усовершенствовать такие приложения, как ответы на вопросы, машинный перевод, перевод на естественный язык и многое другое.

В отличие от этого, компьютерному зрению ещё предстоит революция в обучении с самоконтролем. Как объясняет Прия Гоял, инженер-программист Facebook AI Research, SEER является первой моделью в этой области.

«SEER — первая полностью контролируемая модель компьютерного зрения, которая обучается на случайных интернет-изображениях, в отличие от существующих технологий компьютерного зрения, которые были обучены на тщательно подобранном наборе данных ImageNet», — заявила она.

steve jurvetson
Время игр для роботов — творчество в искусственном интеллекте

ImageNet, по сути, представляет собой крупномасштабную базу данных из миллионов изображений, которые были помечены исследователями и открыты для более широкого сообщества, разрабатывающего технологию компьютерного зрения и занимающегося продвижением разработок в области ИИ.

База данных изображений использовалась исследователями Facebook в качестве эталона для оценки производительности SEER. В результате ученые обнаружили, что модель с самоконтролем превосходит современные контролируемые системы ИИ в таких задачах, как обнаружение объектов, сегментация и классификация изображений.

«SEER превосходит существующие модели обучения с самоконтролем тем, что она обучается только на случайных изображениях, — говорит Гоял. — Этот результат, по сути, указывает на то, что нам не нужны такие тщательно отобранные наборы данных, как ImageNet, а самоконтроль случайных изображений позволяет создавать модели очень высокого качества».

При той степени сложности, которой требует самостоятельное обучение, работа исследователей не обходилась без проблем. Когда дело доходит до текста, перед моделями ИИ стоит задача придавать значение словам; но с изображениями алгоритм должен решить, как каждый пиксель соответствует всей матрице, учитывая при этом различные углы, виды и формы, которые одна матрица может принимать на разных изображениях.

Другими словами, исследователям требовалось много данных и модель, способная вывести все возможные визуальные матрицы из этого сложного массива информации.

Чтобы выполнить эту задачу, Гоял и её команда использовали новый алгоритм Facebook AI в области самостоятельного обучения, названный SwAV, который объединяет изображения, показывающие похожие матрицы, в отдельные группы. Ученые также разработали сверточную сеть — алгоритм глубокого обучения, который моделирует паттерны связи нейронов в человеческом мозге, чтобы определить важность различных объектов на изображении.

ZEISS Microscopy
Нейронная сеть

С миллиардным набором визуальных данных на основе Instagram, новая модель стала масштабной. Для её создания команда Facebook использовала графические процессоры Nvidia V100 с 32 ГБ оперативной памяти. Гоял объясняет, что дальнейшие исследования будут направлены на то, чтобы убедиться, что вычислительные возможности адаптированы к новой модели.

«Поскольку мы обучаем модель на все большем и большем количестве графических процессоров, связь между этими графическими процессорами должна быть быстрой для более эффективного обучения. Эту проблему можно решить путем разработки четкого программного обеспечения и методов исследования, эффективных для данного объема памяти и времени выполнения вычислений, — сказала она. — С помощью SEER мы теперь можем добиться прогресса в области компьютерного зрения, обучая большие модели на большом количестве случайных изображений в Интернете. Этот прорыв может привести к революции в обучении с самоконтролем в области компьютерного зрения, подобной тому, что мы видели в обработке естественного языка с помощью текста».

В Facebook SEER можно использовать для решения широкого круга задач компьютерного зрения, от автоматического создания описания изображения до помощи в выявлении контента, нарушающего правила сообщества. За пределами компании эта технология также может быть полезна в областях с ограниченным количеством изображений и метаданных, таких как медицинская визуализация.

Команда Facebook намерена провести дополнительную работу, чтобы перевести SEER на следующий этап разработки. В рамках этого же исследования команда разработала универсальную библиотеку под названием VISSL на основе PyTorch с открытым исходным кодом, чтобы побудить более широкое ИИ-сообщество протестировать эту технологию.