
Avalon Nuovo для журнала Quanta
Представьте, что вы идете в местный хозяйственный магазин и видите на полке молоток нового типа. Вы слышали об этом молотке: он бьет быстрее и точнее, чем другие, и за последние несколько лет он сделал многие другие молотки устаревшими, по крайней мере, для большинства применений. И это еще не все! С помощью нескольких настроек — насадки здесь, поворота там — инструмент превращается в пилу, которая может резать так же быстро и точно, как и любой другой вариант. На самом деле, некоторые эксперты в области разработки инструментов говорят, что этот молоток может просто возвестить о слиянии всех инструментов в одном устройстве.
Похожая история разыгрывается среди инструментов искусственного интеллекта. Этот универсальный новый молоток представляет собой своего рода искусственную нейронную сеть — сеть узлов, которые «учатся» выполнять какую-либо задачу, обучаясь на существующих данных, — называемую преобразователем. Первоначально он был разработан для обработки языка, но недавно начал влиять на другие области ИИ.
Трансформатор впервые появился в 2017 году в статье, загадочно заявлявшей, что « внимание — это все, что вам нужно ». В других подходах к ИИ система сначала фокусировалась бы на локальных участках входных данных, а затем строилась бы до целого. Например, в языковой модели близлежащие слова сначала группируются вместе. Преобразователь, напротив, запускает процессы таким образом, что каждый элемент входных данных связан со всеми остальными элементами или обращает на них внимание. Исследователи называют это «самовниманием». Это означает, что как только он начнет обучение, преобразователь сможет увидеть следы всего набора данных.
До появления трансформеров прогресс в языковых задачах ИИ в значительной степени отставал от разработок в других областях. «В этой революции глубокого обучения, которая произошла за последние 10 лет или около того, обработка естественного языка была своего рода опозданием», — сказала ученый-компьютерщик Анна Румшиски из Массачусетского университета в Лоуэлле. «Таким образом, НЛП в некотором смысле стояло за компьютерным зрением. Трансформеры изменили это».
Трансформеры быстро стали лидерами в таких приложениях, как распознавание слов, которые сосредоточены на анализе и прогнозировании текста. Это привело к появлению целой волны инструментов, таких как Generative Pre-trained Transformer 3 (GPT-3) от OpenAI, который обучает сотни миллиардов слов и генерирует согласованный новый текст до пугающей степени.
Успех трансформеров побудил толпу ИИ задаться вопросом, что еще они могут сделать. Ответ раскрывается сейчас, поскольку исследователи сообщают, что трансформеры оказались на удивление универсальными. В некоторых задачах зрения, таких как классификация изображений, нейронные сети, использующие преобразователи, стали быстрее и точнее, чем те, которые их не используют. Появляющаяся работа в других областях ИИ, таких как одновременная обработка нескольких типов ввода или планирование задач, предполагает, что трансформеры могут справиться с еще большим.
«Похоже, что трансформеры действительно меняют многие проблемы машинного обучения, включая компьютерное зрение», — сказал Владимир Халтаков, работающий над компьютерным зрением, связанным с беспилотными автомобилями, в BMW в Мюнхене.
Всего 10 лет назад разрозненные области ИИ мало что могли сказать друг другу. Но появление трансформаторов предполагает возможность конвергенции. «Я думаю, что трансформер настолько популярен, потому что он предполагает возможность стать универсальным», — сказал ученый-компьютерщик Атлас Ван из Техасского университета в Остине. «У нас есть все основания попробовать трансформеры для всего спектра задач ИИ.
От языка к видению
Один из самых многообещающих шагов по расширению ассортимента трансформаторов начался всего через несколько месяцев после выхода «Внимание — это все, что вам нужно». Алексей Досовицкий , ученый-компьютерщик, тогда работавший в Google Brain Berlin, работал над компьютерным зрением — областью искусственного интеллекта, которая фокусируется на обучении компьютеров тому, как обрабатывать и классифицировать изображения. Как и почти все в этой области, он работал со свёрточными нейронными сетями (CNN), которые в течение многих лет двигали вперед все основные скачки в глубоком обучении и особенно в компьютерном зрении.
Ученый-компьютерщик Алексей Досовицкий помог создать нейронную сеть под названием «Преобразователь зрения», которая применила силу преобразователя к задачам визуального распознавания.
CNN работают, многократно применяя фильтры к пикселям изображения, чтобы создать распознавание функций. Именно благодаря сверткам приложения для фотографий могут организовать вашу библиотеку по лицам или отличить авокадо от облака. CNN считались незаменимыми для задач зрения.
Досовицкий работал над одной из самых больших задач в этой области, которая заключалась в масштабировании CNN для обучения на все больших наборах данных, представляющих изображения все более высокого разрешения, без увеличения времени обработки. Но затем он увидел, как трансформеры вытесняют прежние инструменты практически для каждой задачи ИИ, связанной с языком. «Мы были явно вдохновлены происходящим», — сказал он. «Они получали все эти потрясающие результаты. Мы начали задаваться вопросом, можем ли мы сделать что-то подобное в видении». В этой идее был определенный смысл — в конце концов, если трансформеры могут обрабатывать большие наборы данных слов, то почему не изображения?
Конечным результатом стала сеть, получившая название Vision Transformer, или ViT, которую исследователи представили на конференции в мае 2021 года . Архитектура модели была почти идентична архитектуре первого преобразователя, предложенного в 2017 году, с небольшими изменениями, позволяющими анализировать изображения вместо слов. « Язык имеет тенденцию быть дискретным, — сказал Румшиски, — поэтому для дискретизации изображения требуется множество адаптаций».
Команда ViT знала, что они не смогут в точности воспроизвести языковой подход, поскольку самостоятельный поиск каждого пикселя будет непомерно дорогим с точки зрения вычислительного времени. Вместо этого они разделили большее изображение на квадратные блоки или жетоны. Размер произвольный, так как токены могут быть увеличены или уменьшены в зависимости от разрешения исходного изображения (по умолчанию 16 пикселей на стороне). Но, обрабатывая пиксели группами и обращая внимание на каждый из них, ViT мог быстро обрабатывать огромные наборы обучающих данных, выдавая все более точные классификации.
Майтра Рагху, компьютерный специалист из Google Brain, проанализировала Vision Transformer, чтобы точно определить, как он «видит» изображения. В отличие от сверточных нейронных сетей, которые сначала сосредотачиваются на небольших частях, чтобы найти такие детали, как края или цвета, трансформеры могут захватывать все изображение с самого начала.
Ее группа определила способы, которыми само-внимание приводит к другим средствам восприятия в рамках алгоритма. В конечном счете, мощность преобразователя зависит от того, как он обрабатывает закодированные данные изображения. «В CNN вы начинаете очень локально и постепенно получаете глобальную перспективу», — сказал Рагху. CNN распознает изображение пиксель за пикселем, идентифицируя такие особенности, как углы или линии, выстраивая свой путь от локального к глобальному. Но у трансформеров, с вниманием к себе, даже самый первый уровень обработки информации устанавливает связи между удаленными местами изображения (точно так же, как и с языком). Если подход CNN подобен началу с одного пикселя и уменьшению масштаба, преобразователь медленно фокусирует все нечеткое изображение.
Эту разницу легче понять в области языка, где впервые были придуманы трансформеры. Рассмотрим эти предложения: «Сова заметила белку. Он попытался схватить его своими когтями, но получил только конец хвоста». Структура второго предложения сбивает с толку: к чему относятся эти «это»? Си-эн-эн, которая фокусируется только на словах, непосредственно стоящих рядом с «it», будет испытывать затруднения, но преобразователь, соединяющий каждое слово с любым другим словом, сможет определить, что сова схватила, а белка потеряла часть своего хвоста.
Теперь, когда стало ясно, что трансформеры обрабатывают изображения принципиально иначе, чем сверточные сети, исследователи только еще больше заволновались. Универсальность преобразователя в преобразовании данных из одномерной строки, такой как предложение, в двумерный массив, такой как изображение, предполагает, что такая модель может обрабатывать данные многих других разновидностей. Ван, например, считает, что трансформер может стать большим шагом к достижению своего рода конвергенции архитектур нейронных сетей, что приведет к универсальному подходу к компьютерному зрению — и, возможно, к другим задачам ИИ. «Конечно, существуют ограничения на то, чтобы это действительно произошло, — сказал он, — но если есть универсальная модель, в которой вы можете поместить все виды данных в одну машину, то это, безусловно, очень красиво».
Конвергенция грядет
Теперь исследователи хотят применить трансформеры для еще более сложной задачи: создания новых образов. Языковые инструменты, такие как GPT-3, могут генерировать новый текст на основе данных обучения. В статье , представленной в прошлом году, Ван объединил две модели трансформеров, чтобы сделать то же самое с изображениями, что является гораздо более сложной задачей. Когда сеть двойного преобразователя обучалась на лицах более 200 000 знаменитостей, она синтезировала новые изображения лиц с умеренным разрешением. Придуманные знаменитости впечатляюще реалистичны и, по крайней мере, так же убедительны, как те, что созданы CNN, согласно начальной оценке, стандартному способу оценки изображений, созданных нейронной сетью.
Ван утверждает, что успех преобразователя в создании изображений еще более удивителен, чем мастерство ViT в классификации изображений. «Генеративная модель должна синтезировать, должна иметь возможность добавлять информацию, чтобы выглядеть правдоподобно», — сказал он. Как и в случае с классификацией, подход преобразователя заменяет сверточные сети.
Рагху и Ван видят потенциал нового использования преобразователей в мультимодальной обработке — модели, которая может одновременно обрабатывать несколько типов данных, таких как необработанные изображения, видео и язык. «Раньше это было сделать сложнее, — сказал Рагху, — из-за того разрозненного подхода, когда у каждого типа данных была собственная специализированная модель. Но трансформаторы предлагают способ объединить несколько источников входного сигнала. «Существует целая сфера интересных приложений, объединяющих некоторые из этих различных типов данных и изображений». Например, мультимодальные сети могут питать систему, которая читает человека по губам в дополнение к прослушиванию его голоса. «Вы могли бы иметь полное представление как о языке, так и об изображении, — сказал Рагху, — и гораздо глубже, чем это было возможно раньше».

Эти лица были созданы сетью на основе трансформатора после обучения на наборе данных из более чем 200 000 лиц знаменитостей.
Предоставлено Атласом Ваном
Новые исследования предлагают спектр новых применений преобразователей в других областях ИИ, включая обучение роботов распознаванию движений человеческого тела , обучение машин распознаванию эмоций в речи и обнаружение уровней стресса на электрокардиограммах . Еще одна программа с компонентами-трансформерами — AlphaFold , которая в прошлом году попала в заголовки газет благодаря своей способности быстро предсказывать структуры белков — задача, которая раньше требовала десятилетнего интенсивного анализа.
Компромисс
Даже если трансформеры могут помочь объединить и улучшить инструменты искусственного интеллекта, новые технологии часто обходятся дорого, и этот пример ничем не отличается. Преобразователь требует более высоких затрат вычислительной мощности на этапе предварительной подготовки, прежде чем он сможет превзойти по точности своих обычных конкурентов.
Это может быть проблемой. «Люди всегда все больше и больше интересуются изображениями с высоким разрешением, — сказал Ван. Эти расходы на обучение могут быть недостатком для широкого внедрения трансформаторов. Тем не менее, Рагху считает, что трудности обучения можно легко преодолеть с помощью сложных фильтров и других инструментов.
Ван также отмечает, что, несмотря на то, что визуальные преобразователи вызвали новые усилия по продвижению ИИ — в том числе и его собственные — многие из новых моделей по-прежнему включают в себя лучшие части сверток. Это означает, что будущие модели с большей вероятностью будут использовать и то и другое, чем полностью откажутся от CNN, говорит он.
Это также предполагает заманчивую перспективу некой гибридной архитектуры, которая использует сильные стороны трансформаторов способами, которые сегодняшние исследователи не могут предсказать. «Возможно, нам не стоит спешить с выводом, что трансформер станет последней моделью», — сказал Ван. Но все более вероятно, что трансформер будет, по крайней мере, частью любого нового суперинструмента, который появится в магазине ИИ рядом с вами.