Skip to content

Смотреть мир по-русски

Переведи английское сообщение для русских

Menu
Menu

Смогут ли Трансформеры превзойти искусственный интеллект?

Posted on 11/03/2022
Иллюстрация, показывающая оранжево-синюю сеть линий, сфокусированных в четкую пирамиду, появляющуюся в виде белого света, попадающего в ясный глаз.

Avalon Nuovo для журнала Quanta

Представьте, что вы идете в местный хозяйственный магазин и видите на полке молоток нового типа. Вы слышали об этом молотке: он бьет быстрее и точнее, чем другие, и за последние несколько лет он сделал многие другие молотки устаревшими, по крайней мере, для большинства применений. И это еще не все! С помощью нескольких настроек — насадки здесь, поворота там — инструмент превращается в пилу, которая может резать так же быстро и точно, как и любой другой вариант. На самом деле, некоторые эксперты в области разработки инструментов говорят, что этот молоток может просто возвестить о слиянии всех инструментов в одном устройстве.

Похожая история разыгрывается среди инструментов искусственного интеллекта. Этот универсальный новый молоток представляет собой своего рода искусственную нейронную сеть — сеть узлов, которые «учатся» выполнять какую-либо задачу, обучаясь на существующих данных, — называемую преобразователем. Первоначально он был разработан для обработки языка, но недавно начал влиять на другие области ИИ.

Трансформатор впервые появился в 2017 году в статье, загадочно заявлявшей, что « внимание — это все, что вам нужно ». В других подходах к ИИ система сначала фокусировалась бы на локальных участках входных данных, а затем строилась бы до целого. Например, в языковой модели близлежащие слова сначала группируются вместе. Преобразователь, напротив, запускает процессы таким образом, что каждый элемент входных данных связан со всеми остальными элементами или обращает на них внимание. Исследователи называют это «самовниманием». Это означает, что как только он начнет обучение, преобразователь сможет увидеть следы всего набора данных.

До появления трансформеров прогресс в языковых задачах ИИ в значительной степени отставал от разработок в других областях. «В этой революции глубокого обучения, которая произошла за последние 10 лет или около того, обработка естественного языка была своего рода опозданием», — сказала ученый-компьютерщик Анна Румшиски из Массачусетского университета в Лоуэлле. «Таким образом, НЛП в некотором смысле стояло за компьютерным зрением. Трансформеры изменили это».

Трансформеры быстро стали лидерами в таких приложениях, как распознавание слов, которые сосредоточены на анализе и прогнозировании текста. Это привело к появлению целой волны инструментов, таких как Generative Pre-trained Transformer 3 (GPT-3) от OpenAI, который обучает сотни миллиардов слов и генерирует согласованный новый текст до пугающей степени.

Успех трансформеров побудил толпу ИИ задаться вопросом, что еще они могут сделать. Ответ раскрывается сейчас, поскольку исследователи сообщают, что трансформеры оказались на удивление универсальными. В некоторых задачах зрения, таких как классификация изображений, нейронные сети, использующие преобразователи, стали быстрее и точнее, чем те, которые их не используют. Появляющаяся работа в других областях ИИ, таких как одновременная обработка нескольких типов ввода или планирование задач, предполагает, что трансформеры могут справиться с еще большим.

«Похоже, что трансформеры действительно меняют многие проблемы машинного обучения, включая компьютерное зрение», — сказал Владимир Халтаков, работающий над компьютерным зрением, связанным с беспилотными автомобилями, в BMW в Мюнхене.

Всего 10 лет назад разрозненные области ИИ мало что могли сказать друг другу. Но появление трансформаторов предполагает возможность конвергенции. «Я думаю, что трансформер настолько популярен, потому что он предполагает возможность стать универсальным», — сказал ученый-компьютерщик Атлас Ван из Техасского университета в Остине. «У нас есть все основания попробовать трансформеры для всего спектра задач ИИ.

От языка к видению

Один из самых многообещающих шагов по расширению ассортимента трансформаторов начался всего через несколько месяцев после выхода «Внимание — это все, что вам нужно». Алексей Досовицкий , ученый-компьютерщик, тогда работавший в Google Brain Berlin, работал над компьютерным зрением — областью искусственного интеллекта, которая фокусируется на обучении компьютеров тому, как обрабатывать и классифицировать изображения. Как и почти все в этой области, он работал со свёрточными нейронными сетями (CNN), которые в течение многих лет двигали вперед все основные скачки в глубоком обучении и особенно в компьютерном зрении.

Алексей_фото_COLOR.jpg

Ученый-компьютерщик Алексей Досовицкий помог создать нейронную сеть под названием «Преобразователь зрения», которая применила силу преобразователя к задачам визуального распознавания.

CNN работают, многократно применяя фильтры к пикселям изображения, чтобы создать распознавание функций. Именно благодаря сверткам приложения для фотографий могут организовать вашу библиотеку по лицам или отличить авокадо от облака. CNN считались незаменимыми для задач зрения.

Досовицкий работал над одной из самых больших задач в этой области, которая заключалась в масштабировании CNN для обучения на все больших наборах данных, представляющих изображения все более высокого разрешения, без увеличения времени обработки. Но затем он увидел, как трансформеры вытесняют прежние инструменты практически для каждой задачи ИИ, связанной с языком. «Мы были явно вдохновлены происходящим», — сказал он. «Они получали все эти потрясающие результаты. Мы начали задаваться вопросом, можем ли мы сделать что-то подобное в видении». В этой идее был определенный смысл — в конце концов, если трансформеры могут обрабатывать большие наборы данных слов, то почему не изображения?

Конечным результатом стала сеть, получившая название Vision Transformer, или ViT, которую исследователи представили на конференции в мае 2021 года . Архитектура модели была почти идентична архитектуре первого преобразователя, предложенного в 2017 году, с небольшими изменениями, позволяющими анализировать изображения вместо слов. « Язык имеет тенденцию быть дискретным, — сказал Румшиски, — поэтому для дискретизации изображения требуется множество адаптаций».

Команда ViT знала, что они не смогут в точности воспроизвести языковой подход, поскольку самостоятельный поиск каждого пикселя будет непомерно дорогим с точки зрения вычислительного времени. Вместо этого они разделили большее изображение на квадратные блоки или жетоны. Размер произвольный, так как токены могут быть увеличены или уменьшены в зависимости от разрешения исходного изображения (по умолчанию 16 пикселей на стороне). Но, обрабатывая пиксели группами и обращая внимание на каждый из них, ViT мог быстро обрабатывать огромные наборы обучающих данных, выдавая все более точные классификации.

maithra_profile_photo._COLOR.jpg

Майтра Рагху, компьютерный специалист из Google Brain, проанализировала Vision Transformer, чтобы точно определить, как он «видит» изображения. В отличие от сверточных нейронных сетей, которые сначала сосредотачиваются на небольших частях, чтобы найти такие детали, как края или цвета, трансформеры могут захватывать все изображение с самого начала.

Ее группа определила способы, которыми само-внимание приводит к другим средствам восприятия в рамках алгоритма. В конечном счете, мощность преобразователя зависит от того, как он обрабатывает закодированные данные изображения. «В CNN вы начинаете очень локально и постепенно получаете глобальную перспективу», — сказал Рагху. CNN распознает изображение пиксель за пикселем, идентифицируя такие особенности, как углы или линии, выстраивая свой путь от локального к глобальному. Но у трансформеров, с вниманием к себе, даже самый первый уровень обработки информации устанавливает связи между удаленными местами изображения (точно так же, как и с языком). Если подход CNN подобен началу с одного пикселя и уменьшению масштаба, преобразователь медленно фокусирует все нечеткое изображение.

Эту разницу легче понять в области языка, где впервые были придуманы трансформеры. Рассмотрим эти предложения: «Сова заметила белку. Он попытался схватить его своими когтями, но получил только конец хвоста». Структура второго предложения сбивает с толку: к чему относятся эти «это»? Си-эн-эн, которая фокусируется только на словах, непосредственно стоящих рядом с «it», будет испытывать затруднения, но преобразователь, соединяющий каждое слово с любым другим словом, сможет определить, что сова схватила, а белка потеряла часть своего хвоста.

Transformers_graphic.svg

Теперь, когда стало ясно, что трансформеры обрабатывают изображения принципиально иначе, чем сверточные сети, исследователи только еще больше заволновались. Универсальность преобразователя в преобразовании данных из одномерной строки, такой как предложение, в двумерный массив, такой как изображение, предполагает, что такая модель может обрабатывать данные многих других разновидностей. Ван, например, считает, что трансформер может стать большим шагом к достижению своего рода конвергенции архитектур нейронных сетей, что приведет к универсальному подходу к компьютерному зрению — и, возможно, к другим задачам ИИ. «Конечно, существуют ограничения на то, чтобы это действительно произошло, — сказал он, — но если есть универсальная модель, в которой вы можете поместить все виды данных в одну машину, то это, безусловно, очень красиво».

Конвергенция грядет

Теперь исследователи хотят применить трансформеры для еще более сложной задачи: создания новых образов. Языковые инструменты, такие как GPT-3, могут генерировать новый текст на основе данных обучения. В статье , представленной в прошлом году, Ван объединил две модели трансформеров, чтобы сделать то же самое с изображениями, что является гораздо более сложной задачей. Когда сеть двойного преобразователя обучалась на лицах более 200 000 знаменитостей, она синтезировала новые изображения лиц с умеренным разрешением. Придуманные знаменитости впечатляюще реалистичны и, по крайней мере, так же убедительны, как те, что созданы CNN, согласно начальной оценке, стандартному способу оценки изображений, созданных нейронной сетью.

Ван утверждает, что успех преобразователя в создании изображений еще более удивителен, чем мастерство ViT в классификации изображений. «Генеративная модель должна синтезировать, должна иметь возможность добавлять информацию, чтобы выглядеть правдоподобно», — сказал он. Как и в случае с классификацией, подход преобразователя заменяет сверточные сети.

Рагху и Ван видят потенциал нового использования преобразователей в мультимодальной обработке — модели, которая может одновременно обрабатывать несколько типов данных, таких как необработанные изображения, видео и язык. «Раньше это было сделать сложнее, — сказал Рагху, — из-за того разрозненного подхода, когда у каждого типа данных была собственная специализированная модель. Но трансформаторы предлагают способ объединить несколько источников входного сигнала. «Существует целая сфера интересных приложений, объединяющих некоторые из этих различных типов данных и изображений». Например, мультимодальные сети могут питать систему, которая читает человека по губам в дополнение к прослушиванию его голоса. «Вы могли бы иметь полное представление как о языке, так и об изображении, — сказал Рагху, — и гораздо глубже, чем это было возможно раньше».

Коллаж из нескольких лиц, созданный искусственным интеллектом

Эти лица были созданы сетью на основе трансформатора после обучения на наборе данных из более чем 200 000 лиц знаменитостей.

Предоставлено Атласом Ваном

Новые исследования предлагают спектр новых применений преобразователей в других областях ИИ, включая обучение роботов распознаванию движений человеческого тела , обучение машин распознаванию эмоций в речи и обнаружение уровней стресса на электрокардиограммах . Еще одна программа с компонентами-трансформерами — AlphaFold , которая в прошлом году попала в заголовки газет благодаря своей способности быстро предсказывать структуры белков — задача, которая раньше требовала десятилетнего интенсивного анализа.

Компромисс

 Даже если трансформеры могут помочь объединить и улучшить инструменты искусственного интеллекта, новые технологии часто обходятся дорого, и этот пример ничем не отличается. Преобразователь требует более высоких затрат вычислительной мощности на этапе предварительной подготовки, прежде чем он сможет превзойти по точности своих обычных конкурентов.

Это может быть проблемой. «Люди всегда все больше и больше интересуются изображениями с высоким разрешением, — сказал Ван. Эти расходы на обучение могут быть недостатком для широкого внедрения трансформаторов. Тем не менее, Рагху считает, что трудности обучения можно легко преодолеть с помощью сложных фильтров и других инструментов.

Ван также отмечает, что, несмотря на то, что визуальные преобразователи вызвали новые усилия по продвижению ИИ — в том числе и его собственные — многие из новых моделей по-прежнему включают в себя лучшие части сверток. Это означает, что будущие модели с большей вероятностью будут использовать и то и другое, чем полностью откажутся от CNN, говорит он.

Это также предполагает заманчивую перспективу некой гибридной архитектуры, которая использует сильные стороны трансформаторов способами, которые сегодняшние исследователи не могут предсказать. «Возможно, нам не стоит спешить с выводом, что трансформер станет последней моделью», — сказал Ван. Но все более вероятно, что трансформер будет, по крайней мере, частью любого нового суперинструмента, который появится в магазине ИИ рядом с вами.

  • A learning a day
  • A Smart Bear
  • AddyOsmani.com
  • AddyOsmani.com (AddyOsmani.com)
  • Adwyat Krishna
  • Alex Turek
  • All That is Solid
  • André Staltz
  • Ars Technica
  • arxivblog (arxivblog)
  • Atoms vs Bits
  • AVC
  • Basic Apple Guy
  • Ben Thompson
  • Benedict Evans
  • Blog – storytelling with data
  • Bob Nystrom
  • Built For Mars
  • Caleb Porzio
  • Christian Heilmann
  • Christopher C
  • Chun Tian (binghe)
  • Codrops
  • Cold Takes
  • Daily Infographic
  • Dan Luu
  • Daniel Lemire's blog
  • David Amos
  • David Perell
  • David Walsh Blog
  • Derek Sivers
  • Desvl
  • Devon's Site
  • Digital Inspiration
  • DKB Blog
  • dropsafe
  • DSHR
  • Dunk
  • DYNOMIGHT
  • eagereyes
  • Endless Metrics
  • Engadget
  • Engadget (Engadget)
  • Entitled Opinions
  • Exception Not Found
  • Experimental History
  • Farnam Street
  • Fed Guy
  • Felix Krause
  • Florent Crivello
  • FlowingData
  • FlowingData (FlowingData)
  • Free Mind
  • Full Stack Economics
  • Funny JS
  • Future A16Z
  • GeekWire (GeekWire)
  • Glassnode Insights
  • Hacker News Daily
  • Harvard Health
  • Human Who Codes
  • Hunter Walk
  • Infographics – Cool Infographics
  • Information is Beautiful
  • Irrational Exuberance
  • Jacob Kaplan-Moss
  • Jakob Greenfeld
  • James Sinclair
  • Jason Fried
  • Jeff Kaufman
  • Joel on Software
  • John Resig
  • John's internet house
  • Johnny Rodgers
  • Julia Evans
  • Julian.com
  • Kevin Cox
  • Kevin Norman
  • KK – Cool Tools
  • KK – Recomendo
  • KK – The Technium
  • Krishna
  • Laurence Gellert's Blog
  • Lee Robinson
  • Lines and Colors
  • Lyn Alden – Investment Strategy
  • Martin Fowler
  • Matt Might's blog
  • Mobilism Forums
  • More To That
  • Morgan Housel
  • My Super Secret Diary
  • NASA Astronomy Picture
  • Neckar's New Money
  • News Letter
  • Nick Whitaker
  • Nicky's New Shtuff
  • nutcroft
  • Paul Graham
  • Paul Graham: Essays
  • Penguin Random House
  • Philip Walton
  • Phoenix's island
  • Product Hunt
  • Prof Galloway
  • Psyche
  • Python Weekly
  • Quanta Magazine
  • Rachel
  • Real Life
  • Riccardo Mori
  • Sasha
  • Science & technology
  • Science current issue
  • Scott Hanselman's Blog
  • Sébastien Dubois
  • Secretum Secretorum
  • Seth's Blog
  • Shu Ding
  • Sidebar
  • SignalFire
  • SignalFire (SignalFire)
  • Simon Willison's Weblog
  • Simons Foundation
  • Singularity HUB
  • SLIME MOLD TIME MOLD
  • Slyar Home
  • Spencer Greenberg
  • Stay SaaSy
  • Stephen Malina
  • Strange Loop Canon
  • Stratechery
  • Tech Notes
  • TechCrunch
  • TechCrunch (TechCrunch)
  • The Commonplace
  • The Intrinsic Perspective
  • The Latest in Hearing Health | HeardThat
  • The Rabbit Hole
  • The Verge
  • TLDR Newsletter
  • Tom's blog
  • Tomasz Tunguz
  • Troy Hunt
  • Tychlog
  • Uncharted Territories
  • Visual Capitalist
  • Visual.ly (Visual.ly)
  • Visualising Data
  • Vitalik Buterin
  • Weichen Liu
  • What's New
  • Works in Progress
  • Workspaces
  • Writing
  • Xe's Blog
  • xkcd.com
  • xkcd.com (xkcd.com)
  • Yihui Xie
  • Zoran Jambor
  • АВК (AVC)
  • Адвиат Кришна (Adwyat Krishna)
  • Арс Техника (Ars Technica)
  • Астральный кодекс десять (Astral Codex Ten)
  • Астрономическая фотография НАСА (NASA Astronomy Picture)
  • Атлантический океан (The Atlantic)
  • безопасный (dropsafe)
  • Бенедикт Эванс (Benedict Evans)
  • Бесконечные показатели (Endless Metrics)
  • Билл Гейтс (Bill Gates)
  • Блог — сторителлинг с данными (Blog – storytelling with data)
  • Блог | Хранитель (Datablog | The Guardian)
  • Блог ДКБ (DKB Blog)
  • Блог Дэвида Уолша (David Walsh Blog)
  • Блог Дэниела Лемира (Daniel Lemire's blog)
  • Блокчейн (BlockChain)
  • Боковая панель (Sidebar)
  • Бретт Винтон (Brett Winton)
  • Будущее A16Z (Future A16Z)
  • Вайхен Лю (Weichen Liu)
  • Визуализация данных (Visualising Data)
  • Визуальный капиталист (Visual Capitalist)
  • Виталик Бутерин (Vitalik Buterin)
  • Внутренняя перспектива (The Intrinsic Perspective)
  • Все
  • Гарвардское здоровье (Harvard Health)
  • Грань (The Verge)
  • Дерек Сиверс (Derek Sivers)
  • Джейсон Фрайд (Jason Fried)
  • Джефф Кауфман (Jeff Kaufman)
  • Джулия Эванс (Julia Evans)
  • ДИНАМАЙТ (DYNOMIGHT)
  • Дуглас Вагетти (Douglas Vaghetti)
  • Дэвид Амос (David Amos)
  • Ежедневная инфографика (Daily Infographic)
  • Ежедневные новости хакеров (Hacker News Daily)
  • Еженедельник Питона (Python Weekly)
  • Журнал "Уолл Стрит (The Wall Street Journal)
  • Журнал Кванта (Quanta Magazine)
  • Записка Безумного Неда (The Mad Ned Memo)
  • Зоран Джамбор (Zoran Jambor)
  • Илон Маск (Elon Musk)
  • Интернет-дом Джона (John's internet house)
  • Инфографика – Классная инфографика (Infographics – Cool Infographics)
  • Информационный бюллетень TLDR (TLDR Newsletter)
  • Информация прекрасна (Information is Beautiful)
  • Иррациональное Изобилие (Irrational Exuberance)
  • Исключение не найдено (Exception Not Found)
  • Используйте (Make Use Of)
  • Ихуи Се (Yihui Xie)
  • Канал Дурова (Durov's Channel)
  • Кевин Кокс (Kevin Cox)
  • КК – крутые инструменты (KK – Cool Tools)
  • КК – Рекомендую (KK – Recomendo)
  • КК – Техниум (KK – The Technium)
  • Колоссальный (Colossal)
  • Кристиан Хайльманн (Christian Heilmann)
  • Кришна (Krishna)
  • Кроличья нора (The Rabbit Hole)
  • Кэти Вуд (Cathie Wood)
  • Лин Олден – Инвестиционная стратегия (Lyn Alden – Investment Strategy)
  • Линии и цвета (Lines and Colors)
  • Марк Гурман (Mark Gurman)
  • Мозговые выборки (Brain Pickings)
  • Мой супер секретный дневник (My Super Secret Diary)
  • Морган Хаузел (Morgan Housel)
  • Морской (Naval)
  • Наткрофт (nutcroft)
  • Наука & технологии (Science & technology)
  • Неизведанные территории (Uncharted Territories)
  • нетерпеливые глаза (eagereyes)
  • Никаких классификаций
  • Новостная рассылка (News Letter)
  • Новые деньги Неккара (Neckar's New Money)
  • Обучение в день (A learning a day)
  • Обыденность (The Commonplace)
  • Обычный яблочный парень (Basic Apple Guy)
  • Охотничья прогулка (Hunter Walk)
  • Параг Агравал (Parag Agrawal)
  • Перевод из твиттера
  • Подробнее об этом (More To That)
  • Поиск продукта (Product Hunt)
  • Полная экономика стека (Full Stack Economics)
  • Практичный разработчик (The Practical Developer)
  • Проф Галлоуэй (Prof Galloway)
  • Психея (Psyche)
  • Рабочие области (Workspaces)
  • Рабочие пространства (Workspaces)
  • Реальная жизнь (Real Life)
  • Риккардо Мори (Riccardo Mori)
  • Рэй Далио (Ray Dalio)
  • Рэйчел (Rachel)
  • Саша (Sasha)
  • Себастьен Дюбуа (Sébastien Dubois)
  • СЛАЙМ ПЛЕСЕНИ ВРЕМЯ ПЛЕСЕНИ (SLIME MOLD TIME MOLD)
  • Статистика стеклянных узлов (Glassnode Insights)
  • Стеф Смит (Steph Smith)
  • Стратехия (Stratechery)
  • Текущий выпуск науки (Science current issue)
  • Тим Кук (Tim Cook)
  • Томаш Тунгуз (Tomasz Tunguz)
  • Трой Хант (Troy Hunt)
  • Фонд Саймонса (Simons Foundation)
  • ХАБ Сингулярности (Singularity HUB)
  • Хакер Новости (Hacker News)
  • Хакер полдень (Hacker Noon)
  • Холодные приемы (Cold Takes)
  • Цифровое вдохновение (Digital Inspiration)
  • Что нового (What's New)
  • что твердо (All That is Solid)
  • Экономика полного стека (Full Stack Economics)
  • Экономист (The Economist)
  • Энономист (Enonomist)
  • Энономист Печать (Enonomist Print)
  • Якоб Гринфельд (Jakob Greenfeld)

твиттер

На вашем сайте нет Метки, поэтому здесь нечего показывать.

  • Февраль 2023
  • Январь 2023
  • Декабрь 2022
  • Ноябрь 2022
  • Октябрь 2022
  • Сентябрь 2022
  • Август 2022
  • Июль 2022
  • Июнь 2022
  • Май 2022
  • Апрель 2022
  • Март 2022
©2023 Смотреть мир по-русски | Design: Newspaperly WordPress Theme