Нет такой вещи, как данные

Технологии полны историй, но одна из самых громких связана с тем, что называется «данными». ИИ — это будущее, и все дело в данных, а данные — это будущее, и мы должны владеть ими и, возможно, получать за это деньги, а странам нужны стратегии в отношении данных и суверенитет данных. Данные — это новое масло!

Это по большей части ерунда. Не существует такой вещи, как «данные», они ничего не стоят и в любом случае не принадлежат вам.

Совершенно очевидно, что «данные» — это не что-то одно, а бесчисленное множество различных наборов информации, каждый из которых специфичен для конкретного приложения и которые не являются взаимозаменяемыми. У Siemens есть телеметрия ветряных турбин, а в Transport for London есть билеты, и вы не можете использовать телеметрию турбины для планирования нового автобусного маршрута. Если вы предоставите оба набора данных Google или Tencent, это не поможет им построить лучшую систему распознавания изображений.

Напрямую это может показаться тривиальным, но это указывает на бесполезность очень распространенных утверждений, особенно от людей, не связанных с технологиями, вроде «У Китая больше данных» или «У Америки будет больше данных» — больше каких данных? Meituan доставляет 50 миллионов заказов из ресторанов в день, и это позволяет создать более эффективный алгоритм маршрутизации, но вы не можете использовать это для системы наведения ракет. Возможно, вы даже не сможете использовать его для организации доставки еды из ресторанов в Лондоне. «Данные» не существуют как единая, унифицированная вещь, где вы можете добавлять каждую строку и таблицу любого типа в один гигантский пул и получать все больше и больше информации. Создание «национальной стратегии данных» похоже на требование «национальной стратегии электронных таблиц» или «национальной стратегии SQL».

Конечно, когда люди говорят о «данных», они в основном имеют в виду ваши данные — вашу личную информацию и то, что вы делаете в Интернете, некоторые из которых просеиваются, агрегируются и используются технологическими компаниями. Мы хотим большего контроля конфиденциальности, но мы также считаем, что должны владеть этими данными, где бы они ни находились.

Проблема в том, что большая часть смысла и, следовательно, ценности большинства «ваших» данных заключается не в вас, а во всех пересечениях с другими людьми. То, что вы публикуете в Instagram, значит очень мало: сигнал заключается в том, кому понравились ваши посты и что еще им понравилось, в том, что понравилось вам и кому еще понравилось, и в том, кто следит за вами, за кем еще они следят и кто за ними, и так далее. -вовне в сети взаимодействий между миллиардом людей. Если мне нравится ваша фотография, это не только ваши «мои» данные или «ваши» данные, и они не имеют большого значения без контекста всех других лайков и подписок. Вы не можете взять это с собой, потому что это также много чужих данных (и конфиденциальности!), И даже если бы вы это сделали, вы, вероятно, не смогли бы подключить его к TikTok, потому что у TikTok другая сетка, и пользователи не не перекрываются.

То есть для многих из этих систем ценность вовсе не в «данных», а в потоке активности вокруг них — смысл не в картинке или видео, которое вы публикуете, а в том, как на это реагирует сеть, и как продукты создают и фиксируют эту реакцию. Вы могли бы видеть Instagram, TikTok или PageRank как огромных механических турок — у нас (пока) нет ИИ, который мог бы понять, что представляет собой каждая страница, изображение или видео, и поэтому нам нужны люди — все мы — где-то в петле, в нужной точке рычага, лайка, ссылки, нажатия и просмотра (и, конечно же, создания). Это системы, а не данные, и ценность находится в потоке.

Все это побудило Тима О’Рейли сказать, что « данные — это не нефть, это песок » — данные ценны только в совокупности миллионов. Действительно, это может быть правдой даже на простом денежном потоке — в первом квартале 2022 года Meta зарабатывала всего 99 центов бесплатного денежного потока на ежедневного активного пользователя в месяц.

Это также относится даже к «личным» данным, когда вы можете осмысленно сказать, что они «ваши». Ваше потребление электроэнергии не связано с другими людьми, но оно не имеет ценности само по себе, а только в совокупности всего бытового потребления электроэнергии в южном Лондоне или Бруклине. И исследователи DeepMind, возможно, смогут обнаружить какую-то новую и клинически важную корреляцию из миллиона рентген грудной клетки — но ваш сам по себе ничего им не даст, и они не вводили эти рентгеновские снимки в AlphaGo. Опять же, данные — это не одно и то же.

Мы уже были здесь раньше: сегодняшние дискуссии об ИИ и данных очень похожи на дискуссии о базах данных в 1980-х годах. Мы трансформируем то, что мы можем делать с информацией, какие вопросы мы можем задавать и как могут функционировать организации. Когда базы данных были новыми, мы беспокоились, и некоторые из этих опасений были реальными, но сегодня никто не спрашивает, есть ли в Америке больше SQL или имеет ли значение, что SAP — немецкая. Никто в Давосе не говорит о «колониализме SQL». Эти технологии не являются национальным стратегическим достоянием — они могут быть у любого, но зачем? Базы данных сделали возможными цепочки поставок «точно в срок», и Walmart, и позволили Apple производить iPhone в Китае — это стратегические вопросы. То же самое для ИИ и «данных» — это не новая нефть, просто больше программного обеспечения, так что вы строите с его помощью?

Версия этого эссе появилась в Financial Times в эти выходные.

Leave a Comment

Ваш адрес email не будет опубликован.