
Кристин Аддерсон 6 декабря 2022 г. – 2:12
Биннинг — это метод, применяемый для категоризации значений данных или просмотра распределения данных. Он часто используется для сведения непрерывных данных к более управляемым дискретным категориям, сохранения конфиденциальности данных посредством агрегирования, создания гистограмм или создания разрывов для порядковых цветовых шкал. Выбор правильного количества бинов для диаграммы или карты часто рассматривается как компромисс. Слишком мало бинов и нюансы данных, такие как распределение данных, могут быть потеряны; слишком большое количество бинов может привести к зашумленной гистограмме, что затруднит восстановление информации о форме.
Существует множество способов разбить ваши данные, и каждый из них, скорее всего, даст читателю свое визуальное впечатление. Выбор наилучшего подхода к биннингу часто является тем, который поддерживает историю, которую автор хочет рассказать своей аудитории, или поддерживает исследование данных. Например, все три карты ниже показывают одни и те же исходные данные: процент бедного населения каждого округа США.
Рисунок 1. Как различные разрывы бинов влияют на закономерности, воспринимаемые в данных.
На левой карте на рисунке 1 показана непрерывная цветовая шкала, где каждый из примерно 3000 округов представлен оттенком, уникальным для его значения данных. Карта в середине показывает четыре разрыва бина, определяемые равными интервалами на числовой прямой. Наконец, на карте справа у нас есть разбивка бинов на основе квантилей, представленных четырьмя цветовыми оттенками, где каждый цвет представляет примерно одинаковое количество округов. Итак, как мы видим здесь, это одни и те же базовые данные, но закономерности можно интерпретировать совершенно по-разному.
Несмотря на то, что использовались различные методы биннинга, основанные на таких статистических свойствах, как равные интервалы, квантиль и классификация естественных интервалов Дженкса, эти методы часто игнорируют то, что может быть наиболее важным свойством схемы бинирования, предназначенной для использования в визуализации: удобочитаемость и семантическая согласованность бинов.
Использование семантики из опросов и общедоступных книг Tableau
Наше исследование специально изучает, как семантика известных, часто определяемых атрибутов, таких как возраст, численность населения, зарплата и т. д., может использоваться для создания значимых разрывов в данных. Он вдохновлен некоторым предыдущим исследованием именования цветов, проведенным в Tableau, которое автоматически генерирует семантически резонансные цветовые палитры для известных окрашиваемых значений данных (например, фруктов, овощей, логотипов компаний) с использованием семантического поиска названий цветов и соответствующих им цветовых значений.
В этом сообщении блога обсуждается новый метод биннинга под названием OSCAR, ориентированный на человека метод биннинга, который использует семантику данных и ограничения разборчивости, чтобы предлагать бины для количественных данных для использования в гистограммах, картах и других диаграммах.
Вот процесс создания таблицы поиска семантической корзины.
Рисунок 2: Построение таблицы поиска семантического бина.
Чтобы произвести поиск семантических категорий, мы используем подход, основанный на данных, путем изучения общедоступного корпуса опросных анкет, содержащих вопросы, которые классифицируют такую информацию, как демографические данные, здоровье и информационные вопросы, такие как «Укажите свою возрастную группу» или «Какова ваша возрастная группа». уровень заработной платы?». Мы также включаем общедоступные визуализации Tableau , содержащие поля в бинах, в рабочие книги как часть нашего набора данных полей в бинах. Этот процесс показан на рисунке 2A.
Чтобы создать поиск строк бинов и связанных с ними размеров бинов, мы используем скрытое распределение Дирихле (LDA), популярную форму статистического тематического моделирования. В LDA документы представлены как смесь тем, а тема — это набор слов. Для каждого понятия бина у нас есть имя метки и набор связанных понятий, таких как синонимы, а также наборы возможных разрывов бина, как показано на рисунке 2B.
Рекомендация разбить корзину
Теперь давайте рассмотрим пример того, как OSCAR генерирует бины для заданного атрибута данных, скажем, «passenger_age», показанного на рисунке 3.
Рисунок 3: Процесс семантического биннинга.
Мы применяем нечеткое сопоставление и лемматизацию, чтобы сопоставить атрибут с понятием бина «Возраст» в таблице поиска семантического бина, которая была создана в процессе, показанном на рисунке 2. Если есть совпадение, эти бины применяются к атрибуту для генерации гистограмма.
При отсутствии семантических бинов, скажем, для такого атрибута, как «numOfLiters», OSCAR вычисляет бины по умолчанию, применяя некоторые интеллектуальные значения по умолчанию для выбора удобочитаемых бинов, как показано на рисунке 4. Для создания бинов по умолчанию OSCAR ограничивает количество бинов до управляемый размер (максимум 20 бинов), чтобы избежать слишком большого количества бинов (рис. 4a), округляет экстенты бинов, чтобы избежать ненадлежащей точности бинов (рис. 4b), и округляет экстенты бинов до соответствующей степени 5 или 10, чтобы избежать произвольных разрывов в данные (рис. 4c), чтобы создать окончательную схему биннинга, показанную на рис. 4d.
Рисунок 4. Процесс бинирования по умолчанию.
Оценка семантических бинов, созданных OSCAR, показала, что участники предпочитали семантически бинарные диаграммы, поскольку разрывы казались более знакомыми и естественными, и предпочитали мелкие семантические бины более грубым, чтобы они могли более четко видеть распределение значений в различных бинах. Мы предполагаем, что OSCAR будет использоваться в инструментах визуального анализа, где бины могут быть рекомендованы для числовых атрибутов с возможностью исправления и уточнения этих системных значений по умолчанию. Дальнейшая работа должна быть направлена на дальнейшую оценку качества семантического бина OSCAR во время аналитических рабочих процессов пользователей в этих инструментах.
На конференции IEEE Visualization Conference недавно был представлен документ с описанием этой работы, основанный на исследованиях Видьи Сетлур , Майкла Коррелла и Сары Баттерсби .