Skip to content

Смотреть мир по-русски

Переведи английское сообщение для русских

Menu
Menu

OSCAR: создание более значимых разбиений на корзины

Posted on 20/12/2022
Видья Сетлур
Видья Сетлур
Директор по исследованиям, Tableau

Кристин Аддерсон 6 декабря 2022 г. – 2:12

9 декабря 2022 г.

Биннинг — это метод, применяемый для категоризации значений данных или просмотра распределения данных. Он часто используется для сведения непрерывных данных к более управляемым дискретным категориям, сохранения конфиденциальности данных посредством агрегирования, создания гистограмм или создания разрывов для порядковых цветовых шкал. Выбор правильного количества бинов для диаграммы или карты часто рассматривается как компромисс. Слишком мало бинов и нюансы данных, такие как распределение данных, могут быть потеряны; слишком большое количество бинов может привести к зашумленной гистограмме, что затруднит восстановление информации о форме.

Существует множество способов разбить ваши данные, и каждый из них, скорее всего, даст читателю свое визуальное впечатление. Выбор наилучшего подхода к биннингу часто является тем, который поддерживает историю, которую автор хочет рассказать своей аудитории, или поддерживает исследование данных. Например, все три карты ниже показывают одни и те же исходные данные: процент бедного населения каждого округа США.

Как различные разрывы бинов влияют на закономерности, воспринимаемые в данных.

Рисунок 1. Как различные разрывы бинов влияют на закономерности, воспринимаемые в данных.

На левой карте на рисунке 1 показана непрерывная цветовая шкала, где каждый из примерно 3000 округов представлен оттенком, уникальным для его значения данных. Карта в середине показывает четыре разрыва бина, определяемые равными интервалами на числовой прямой. Наконец, на карте справа у нас есть разбивка бинов на основе квантилей, представленных четырьмя цветовыми оттенками, где каждый цвет представляет примерно одинаковое количество округов. Итак, как мы видим здесь, это одни и те же базовые данные, но закономерности можно интерпретировать совершенно по-разному.

Несмотря на то, что использовались различные методы биннинга, основанные на таких статистических свойствах, как равные интервалы, квантиль и классификация естественных интервалов Дженкса, эти методы часто игнорируют то, что может быть наиболее важным свойством схемы бинирования, предназначенной для использования в визуализации: удобочитаемость и семантическая согласованность бинов.

Использование семантики из опросов и общедоступных книг Tableau

Наше исследование специально изучает, как семантика известных, часто определяемых атрибутов, таких как возраст, численность населения, зарплата и т. д., может использоваться для создания значимых разрывов в данных. Он вдохновлен некоторым предыдущим исследованием именования цветов, проведенным в Tableau, которое автоматически генерирует семантически резонансные цветовые палитры для известных окрашиваемых значений данных (например, фруктов, овощей, логотипов компаний) с использованием семантического поиска названий цветов и соответствующих им цветовых значений.

В этом сообщении блога обсуждается новый метод биннинга под названием OSCAR, ориентированный на человека метод биннинга, который использует семантику данных и ограничения разборчивости, чтобы предлагать бины для количественных данных для использования в гистограммах, картах и ​​других диаграммах.

Вот процесс создания таблицы поиска семантической корзины.

Построение таблицы поиска семантического бина.

Рисунок 2: Построение таблицы поиска семантического бина.

Чтобы произвести поиск семантических категорий, мы используем подход, основанный на данных, путем изучения общедоступного корпуса опросных анкет, содержащих вопросы, которые классифицируют такую ​​информацию, как демографические данные, здоровье и информационные вопросы, такие как «Укажите свою возрастную группу» или «Какова ваша возрастная группа». уровень заработной платы?». Мы также включаем общедоступные визуализации Tableau , содержащие поля в бинах, в рабочие книги как часть нашего набора данных полей в бинах. Этот процесс показан на рисунке 2A.

Чтобы создать поиск строк бинов и связанных с ними размеров бинов, мы используем скрытое распределение Дирихле (LDA), популярную форму статистического тематического моделирования. В LDA документы представлены как смесь тем, а тема — это набор слов. Для каждого понятия бина у нас есть имя метки и набор связанных понятий, таких как синонимы, а также наборы возможных разрывов бина, как показано на рисунке 2B.

Рекомендация разбить корзину

Теперь давайте рассмотрим пример того, как OSCAR генерирует бины для заданного атрибута данных, скажем, «passenger_age», показанного на рисунке 3.

Процесс семантического биннинга.

Рисунок 3: Процесс семантического биннинга.

Мы применяем нечеткое сопоставление и лемматизацию, чтобы сопоставить атрибут с понятием бина «Возраст» в таблице поиска семантического бина, которая была создана в процессе, показанном на рисунке 2. Если есть совпадение, эти бины применяются к атрибуту для генерации гистограмма.

При отсутствии семантических бинов, скажем, для такого атрибута, как «numOfLiters», OSCAR вычисляет бины по умолчанию, применяя некоторые интеллектуальные значения по умолчанию для выбора удобочитаемых бинов, как показано на рисунке 4. Для создания бинов по умолчанию OSCAR ограничивает количество бинов до управляемый размер (максимум 20 бинов), чтобы избежать слишком большого количества бинов (рис. 4a), округляет экстенты бинов, чтобы избежать ненадлежащей точности бинов (рис. 4b), и округляет экстенты бинов до соответствующей степени 5 или 10, чтобы избежать произвольных разрывов в данные (рис. 4c), чтобы создать окончательную схему биннинга, показанную на рис. 4d.

Процесс бинирования по умолчанию Tableau Research OSCAR

Рисунок 4. Процесс бинирования по умолчанию.

Оценка семантических бинов, созданных OSCAR, показала, что участники предпочитали семантически бинарные диаграммы, поскольку разрывы казались более знакомыми и естественными, и предпочитали мелкие семантические бины более грубым, чтобы они могли более четко видеть распределение значений в различных бинах. Мы предполагаем, что OSCAR будет использоваться в инструментах визуального анализа, где бины могут быть рекомендованы для числовых атрибутов с возможностью исправления и уточнения этих системных значений по умолчанию. Дальнейшая работа должна быть направлена ​​на дальнейшую оценку качества семантического бина OSCAR во время аналитических рабочих процессов пользователей в этих инструментах.

На конференции IEEE Visualization Conference недавно был представлен документ с описанием этой работы, основанный на исследованиях Видьи Сетлур , Майкла Коррелла и Сары Баттерсби .

1 Название OSCAR навеяно любимым персонажем «Улицы Сезам», который живет своей жизнью из мусорного бака.
  • A learning a day
  • A Smart Bear
  • AddyOsmani.com
  • AddyOsmani.com (AddyOsmani.com)
  • Adwyat Krishna
  • Alex Turek
  • All That is Solid
  • André Staltz
  • Ars Technica
  • arxivblog (arxivblog)
  • Atoms vs Bits
  • AVC
  • Basic Apple Guy
  • Ben Thompson
  • Benedict Evans
  • Blog – storytelling with data
  • Bob Nystrom
  • Built For Mars
  • Caleb Porzio
  • Christian Heilmann
  • Christopher C
  • Chun Tian (binghe)
  • Codrops
  • Cold Takes
  • Daily Infographic
  • Dan Luu
  • Daniel Lemire's blog
  • David Amos
  • David Perell
  • David Walsh Blog
  • Derek Sivers
  • Desvl
  • Devon's Site
  • Digital Inspiration
  • DKB Blog
  • dropsafe
  • DSHR
  • Dunk
  • DYNOMIGHT
  • eagereyes
  • Endless Metrics
  • Engadget
  • Engadget (Engadget)
  • Entitled Opinions
  • Exception Not Found
  • Experimental History
  • Farnam Street
  • Fed Guy
  • Felix Krause
  • Florent Crivello
  • FlowingData
  • FlowingData (FlowingData)
  • Free Mind
  • Full Stack Economics
  • Funny JS
  • Future A16Z
  • GeekWire (GeekWire)
  • Glassnode Insights
  • Hacker News Daily
  • Harvard Health
  • Human Who Codes
  • Hunter Walk
  • Infographics – Cool Infographics
  • Information is Beautiful
  • Irrational Exuberance
  • Jacob Kaplan-Moss
  • Jakob Greenfeld
  • James Sinclair
  • Jason Fried
  • Jeff Kaufman
  • Joel on Software
  • John Resig
  • John's internet house
  • Johnny Rodgers
  • Julia Evans
  • Julian.com
  • Kevin Cox
  • Kevin Norman
  • KK – Cool Tools
  • KK – Recomendo
  • KK – The Technium
  • Krishna
  • Laurence Gellert's Blog
  • Lee Robinson
  • Lines and Colors
  • Lyn Alden – Investment Strategy
  • Martin Fowler
  • Matt Might's blog
  • Mobilism Forums
  • More To That
  • Morgan Housel
  • My Super Secret Diary
  • NASA Astronomy Picture
  • Neckar's New Money
  • News Letter
  • Nick Whitaker
  • Nicky's New Shtuff
  • nutcroft
  • Paul Graham
  • Paul Graham: Essays
  • Penguin Random House
  • Philip Walton
  • Phoenix's island
  • Product Hunt
  • Prof Galloway
  • Psyche
  • Python Weekly
  • Quanta Magazine
  • Rachel
  • Real Life
  • Riccardo Mori
  • Sasha
  • Science & technology
  • Science current issue
  • Scott Hanselman's Blog
  • Sébastien Dubois
  • Secretum Secretorum
  • Seth's Blog
  • Shu Ding
  • Sidebar
  • SignalFire
  • SignalFire (SignalFire)
  • Simon Willison's Weblog
  • Simons Foundation
  • Singularity HUB
  • SLIME MOLD TIME MOLD
  • Slyar Home
  • Spencer Greenberg
  • Stay SaaSy
  • Stephen Malina
  • Strange Loop Canon
  • Stratechery
  • Tech Notes
  • TechCrunch
  • TechCrunch (TechCrunch)
  • The Commonplace
  • The Intrinsic Perspective
  • The Latest in Hearing Health | HeardThat
  • The Rabbit Hole
  • The Verge
  • TLDR Newsletter
  • Tom's blog
  • Tomasz Tunguz
  • Troy Hunt
  • Tychlog
  • Uncharted Territories
  • Visual Capitalist
  • Visual.ly (Visual.ly)
  • Visualising Data
  • Vitalik Buterin
  • Weichen Liu
  • What's New
  • Works in Progress
  • Workspaces
  • Writing
  • Xe's Blog
  • xkcd.com
  • xkcd.com (xkcd.com)
  • Yihui Xie
  • Zoran Jambor
  • АВК (AVC)
  • Адвиат Кришна (Adwyat Krishna)
  • Арс Техника (Ars Technica)
  • Астральный кодекс десять (Astral Codex Ten)
  • Астрономическая фотография НАСА (NASA Astronomy Picture)
  • Атлантический океан (The Atlantic)
  • безопасный (dropsafe)
  • Бенедикт Эванс (Benedict Evans)
  • Бесконечные показатели (Endless Metrics)
  • Билл Гейтс (Bill Gates)
  • Блог — сторителлинг с данными (Blog – storytelling with data)
  • Блог | Хранитель (Datablog | The Guardian)
  • Блог ДКБ (DKB Blog)
  • Блог Дэвида Уолша (David Walsh Blog)
  • Блог Дэниела Лемира (Daniel Lemire's blog)
  • Блокчейн (BlockChain)
  • Боковая панель (Sidebar)
  • Бретт Винтон (Brett Winton)
  • Будущее A16Z (Future A16Z)
  • Вайхен Лю (Weichen Liu)
  • Визуализация данных (Visualising Data)
  • Визуальный капиталист (Visual Capitalist)
  • Виталик Бутерин (Vitalik Buterin)
  • Внутренняя перспектива (The Intrinsic Perspective)
  • Все
  • Гарвардское здоровье (Harvard Health)
  • Грань (The Verge)
  • Дерек Сиверс (Derek Sivers)
  • Джейсон Фрайд (Jason Fried)
  • Джефф Кауфман (Jeff Kaufman)
  • Джулия Эванс (Julia Evans)
  • ДИНАМАЙТ (DYNOMIGHT)
  • Дуглас Вагетти (Douglas Vaghetti)
  • Дэвид Амос (David Amos)
  • Ежедневная инфографика (Daily Infographic)
  • Ежедневные новости хакеров (Hacker News Daily)
  • Еженедельник Питона (Python Weekly)
  • Журнал "Уолл Стрит (The Wall Street Journal)
  • Журнал Кванта (Quanta Magazine)
  • Записка Безумного Неда (The Mad Ned Memo)
  • Зоран Джамбор (Zoran Jambor)
  • Илон Маск (Elon Musk)
  • Интернет-дом Джона (John's internet house)
  • Инфографика – Классная инфографика (Infographics – Cool Infographics)
  • Информационный бюллетень TLDR (TLDR Newsletter)
  • Информация прекрасна (Information is Beautiful)
  • Иррациональное Изобилие (Irrational Exuberance)
  • Исключение не найдено (Exception Not Found)
  • Используйте (Make Use Of)
  • Ихуи Се (Yihui Xie)
  • Канал Дурова (Durov's Channel)
  • Кевин Кокс (Kevin Cox)
  • КК – крутые инструменты (KK – Cool Tools)
  • КК – Рекомендую (KK – Recomendo)
  • КК – Техниум (KK – The Technium)
  • Колоссальный (Colossal)
  • Кристиан Хайльманн (Christian Heilmann)
  • Кришна (Krishna)
  • Кроличья нора (The Rabbit Hole)
  • Кэти Вуд (Cathie Wood)
  • Лин Олден – Инвестиционная стратегия (Lyn Alden – Investment Strategy)
  • Линии и цвета (Lines and Colors)
  • Марк Гурман (Mark Gurman)
  • Мозговые выборки (Brain Pickings)
  • Мой супер секретный дневник (My Super Secret Diary)
  • Морган Хаузел (Morgan Housel)
  • Морской (Naval)
  • Наткрофт (nutcroft)
  • Наука & технологии (Science & technology)
  • Неизведанные территории (Uncharted Territories)
  • нетерпеливые глаза (eagereyes)
  • Никаких классификаций
  • Новостная рассылка (News Letter)
  • Новые деньги Неккара (Neckar's New Money)
  • Обучение в день (A learning a day)
  • Обыденность (The Commonplace)
  • Обычный яблочный парень (Basic Apple Guy)
  • Охотничья прогулка (Hunter Walk)
  • Параг Агравал (Parag Agrawal)
  • Перевод из твиттера
  • Подробнее об этом (More To That)
  • Поиск продукта (Product Hunt)
  • Полная экономика стека (Full Stack Economics)
  • Практичный разработчик (The Practical Developer)
  • Проф Галлоуэй (Prof Galloway)
  • Психея (Psyche)
  • Рабочие области (Workspaces)
  • Рабочие пространства (Workspaces)
  • Реальная жизнь (Real Life)
  • Риккардо Мори (Riccardo Mori)
  • Рэй Далио (Ray Dalio)
  • Рэйчел (Rachel)
  • Саша (Sasha)
  • Себастьен Дюбуа (Sébastien Dubois)
  • СЛАЙМ ПЛЕСЕНИ ВРЕМЯ ПЛЕСЕНИ (SLIME MOLD TIME MOLD)
  • Статистика стеклянных узлов (Glassnode Insights)
  • Стеф Смит (Steph Smith)
  • Стратехия (Stratechery)
  • Текущий выпуск науки (Science current issue)
  • Тим Кук (Tim Cook)
  • Томаш Тунгуз (Tomasz Tunguz)
  • Трой Хант (Troy Hunt)
  • Фонд Саймонса (Simons Foundation)
  • ХАБ Сингулярности (Singularity HUB)
  • Хакер Новости (Hacker News)
  • Хакер полдень (Hacker Noon)
  • Холодные приемы (Cold Takes)
  • Цифровое вдохновение (Digital Inspiration)
  • Что нового (What's New)
  • что твердо (All That is Solid)
  • Экономика полного стека (Full Stack Economics)
  • Экономист (The Economist)
  • Энономист (Enonomist)
  • Энономист Печать (Enonomist Print)
  • Якоб Гринфельд (Jakob Greenfeld)

твиттер

На вашем сайте нет Метки, поэтому здесь нечего показывать.

  • Февраль 2023
  • Январь 2023
  • Декабрь 2022
  • Ноябрь 2022
  • Октябрь 2022
  • Сентябрь 2022
  • Август 2022
  • Июль 2022
  • Июнь 2022
  • Май 2022
  • Апрель 2022
  • Март 2022
©2023 Смотреть мир по-русски | Design: Newspaperly WordPress Theme