ДЕНЬ 08
Основные виды визуализации данных:
Карты, круговые диаграммы, тримапы, скаттерплоты
СЕГОДНЯ

Начнем новую неделю с ярких цветов нашего проекта. Сегодня поговорим о палитрах и базовых принципах использования цвета на визуализациях. Ну и продолжим захватывать мир с помощью георгафических карт, узнаем какими способами можно делить чье-то целое на части, например, с помощью пайчартов или, если категорий дележа слишком много, можно легко переключиться на тримапы. Узнаем как это работает и как строить в Qlik Sense. На полке сегодня классика консультантов, работа Джина Желязны, о том как говорить на языке диаграмм. Разбирать можно с ножом и вилкой.
Разбираемся
В последнем блоке способах визуализации данных
Цвет в визуализациях
Как использовать цвет с умом
Неправильное использование цвета в визуализациях может полностью погубить ваш труд. Имейте в виду, что применение цвета различается для разных типов данных, в первую очередь для числовых мер и для отдельных категорий.
Категории
При раскраске категорий, цвет должен помогать различать категории между собой, а не смешивать и затруднять их восприятие. Человеческий мозг не способен держать в уме и визуально сравнивать более 10-12 цветовых оттенков. Чем больше цветов, тем менее различимые они становятся.
Цвет для смежных шести категорий
Если у вас 2-3 категории, используйте контрастные отличимые цвета. Не используйте два близких по цвету оттенка, например, светло-зеленый и темно-зеленый, т.к. они будут смешиваться.
Два контрастных цвета для двух противоположных категорий
При использовании порядковых категорий, наоборот, можно использовать близкие оттенки, но имейте виду – они должны поддерживать логику визуализации. Если у вас данные по результатам опроса, выберите оттенки контрастных цветов в нескольких градациях. Это поддержит логику дуальности ответов: хорошо-плохо, согласен-не согласен.
Цвет при порядковых категориях опроса
При использовании цвета для раскраски числовых показателей, следуйте логике показателя.

Если значение может быть как положительным, так и отрицательным (выполнение плана, выручка, которая может быть в минусе, соотношение с референс-значением) используйте двухцветные палитры. Они также визуально сообщат дуальность показателя благодаря наличию двух цветов.

Если показатель однонаправленный (население страны, количество проданных товаров, уровень цен), используйте одноцветную палитру-градиент. Визуальные различия в цвете сразу подталкивают зрителя к выводам – там, где закраска насыщеннее и темнее показатель больше, чем в более бледных элементах.
Иногда, цвет может не выражать прямое значение показателя, а помогать создавать акцент на определенной категории. Например, стоит вам поменять цвет одного из столбцов – внимание будет приковано к выделенному объекту. Такой акцент помогает яснее и четче донести основную идею визуализации.
Цвет как акцент
Советы по работе с цветом
Цвета на вашем мониторе могут отличаться от цветов на мониторе других людей
Цвета на экране компьютера и на напечатанном листе могут различаться
Черно-белая печать может изменить внешнее восприятие визуализации
Корпоративные цвета вашей компании могут плохо смотреться на визуализациях
Если вы хотите сделать на чем-то цветовой акцент – это правда должно иметь особое значение
Цвет не должен использоваться для «украшения» данных – тогда он не вызовет у людей отклика
Одни и те же данные должны быть постоянны в своем цвете на протяжении всей визуализации
Ваши данные могут сами подсказать вам какой цвет выбрать (яблоки – зеленые, ягоды – красные)
Карта
Визуализация географических данных на местности
Когда у вас есть любая информация о местоположении чего-либо – названия стран, областей, городов или же точные координаты какого-либо места – используйте карты.

В первых версиях Qlik Sense не было стандартной визуализации для географических карт, а разработчикам приходилось создавать собственные расширения на языке JavaScript.
Из-за этого карты не считались распространенным способом визуализации, поскольку были сложны в создании. Сейчас же, данный вид визуализации присутствует в Qlik Sense по умолчанию, и создается также, как и другие диаграммы – легко и быстро.
Карты Qlik Sense
Отображение данных на картах в Qlik Sense происходит через создание слоев, где каждый слой соответствует отдельному способу визуализации данных на карте и конкретной детализации:

  • Области. Данный слой отображает целые области и регионы на основе данных. Значение показателя выражается через цвета, либо его оттенки. Данной слой визуально всем понятен и хорошо воспринимается. Хорошей практикой будет добавление к карте всплывающих подсказок с информацией, в которых можно отобразить наименование области и показатель.
  • Точки. С помощью точек можно отобразить отдельные объекты – города, точки в данных, любую пару координат. Значение показателя можно передать двумя способами – через цвет точки и через ее размер.
  • Линии. Если интересны связи, например рейсы авиалиний или перевозки грузов, можно использовать линии для отображения связей на местности.
  • Плотности. Данный слой можно также назвать «тепловой» картой, которую используют если необходимо обозначить интенсивность какого-либо показателя, например, количества жителей или точек продаж. В основе плотности лежит слой точек, и чем больше их скопление на области – тем интенсивнее цвет.
  • Диаграммы. На месте точек на карте будут построены круговые или столбчатые диаграммы, при наведении на которые мы увидим более подробную информацию.
Для того, чтобы у вас была возможность создавать карты – в данных должны находится либо поля точной широты и долготы (географические координаты), либо содержат следующие значения:
  • Географические точки, полигоны или линии из географического источника данных (например KML)
  • Геоданные в GeoJSON, LineString или MultiLineString
  • Поля, содержащие не WGS-84 координаты (корректно при использовании пользовательского слоя карты)
  • Названия стран, городов, поля широты и долготы (при включенном профилировании данных)

Для построения слоев на карте можно использовать разные типы местоположений:
  • Наименования континентов
  • Названия стран
  • Названия административных областей от первого до четвертого порядка
  • Наименования населенных пунктов
  • Почтовые коды или индексы
  • Коды аэропортов IATA и ICAO
  • Коды стран стандартов ISO alpha 2 и ISO alpha 3
Данные по названиям должны хранится на английском языке. Qlik Sense анализирует подмножество данных, чтобы распознать поля, содержащие данные о городах или странах. Если совпадение составляет менее 75 процентов, поля с географическими сведениями созданы не будут. Если поле не распознано в качестве поля с географическими данными, можно вручную изменить тип поля на поле с географическими данными.

Подробнее про загрузку данных карт в Qlik →
Как создать карту в Qlik
  1. Перетащите на лист пустую карту с панели ресурсов.
  2. В разделе Параметры карты выберите Базовая карта.
  3. В разделе Слои на панели свойств добавьте слои на карту.
Слои располагаются над слоями того же типа. Порядок слоев можно настроить путем их перетаскивания вверх и вниз по списку. Слой в начале списка накладывается поверх других слоев карты.

После создания карты можно настроить ее внешний вид или другие параметры самой карты и ее слоев на панели свойств.
Создание карт на ваших данных
Видео от Qlik
Визуализация целого на части
Карты, круговые диаграммы, тримапы, скаттерплот
Круговая диаграмма
Один из самых спорны видов визуализации
Круговые диаграммы – или пайчарты – наглядно показывают отношение между категориями данных при помощи сегментов круга.

Вся окружность круга равна 100%. Отдельные ее участки отображают долю определенной категории. Круговые диаграммы очень удобны для показа пропорций небольшого количества сегментов.

Главной ошибкой в использовании круговых диаграмм является попытка вывести слишком большое количество сегментов. Из-за этого пайчарт выглядит перегружено, а понимать данные становится сложно.
Пайчарты малоэффективны при большом количестве категорий, занимают много места относительно визуализируемых значений. Кроме того, на них нельзя отобразить отрицательные или нулевые значения.
СОВЕТ
Не используйте несколько круговых диаграмм для сравнения изменения доли сегмента в динамике по годам. Провести сравнение будет невозможно
Как создать в Qlik
Следующие настройки используются в круговой диаграмме по умолчанию:
  • Верхние 10 секторов представлены по убыванию размера, по часовой стрелке
  • Цвета представлены по измерению
  • Подписи данных представлены в процентном выражении
Работа с цветом диаграммы по выражению
Видео от Qlik
Тримапы
Карты дерева
Тримап Qlik Sense
Тримап – это плоская таблица, которая наглядно показывает соотношение частей целого. Он является методом отображения иерархических данных с помощью вложенных прямоугольников.

Для построения тримапа нужна хотя бы одна категория и одна мера. Категории будут определять "разбивку" тримапа, а меры – площадь каждого прямоугольника. Детализация данных зависит от настроек: можно отобразить один показатель в разрезе стран, а можно его же в разрезе страна - город.
Как создать в Qlik
Отобразить значение показателя можно несколькими способами: подписями на прямоугольниках, цветом прямоугольников, и метод по умолчанию – размер прямоугольников, площадь которого пропорциональна доле показателя.

Есть некоторые ограничения, аналогичные пайчарту. Например, нельзя отображать динамику, нулевые или отрицательные значения.
СОВЕТ
Если необходимо добавить большое количество категорий на один тримап – воспользуйтесь ограничением, отобразите топ-10 городов, а остальные отнесите в группу «Другие»
Скаттерплот
Точечная диаграмма
Точечная диаграмма – или диаграмма рассеяния, скаттерплот – показывает распределение всех элементов множества на плоскости. Это статистическая диаграмма и ее часто используют для нахождения корреляция между двумя переменными. Значения одного независимого параметра откладываются по горизонтальной оси, а значения зависимого параметра - по вертикальной.

Отличие от большинства остальных диаграмм в том, что значение измерений находятся не на одной из осей в виде заголовков, а представляются точками на диаграмме. На двух осях отмечаются шкалы двух основных мер.
Как создать в Qlik
  1. Перетащите на лист пустую точечную диаграмму из панели ресурсов.
  2. Щелкните команду Добавить измерение и выберите измерение или поле.
  3. Щелкните Добавить меру и выберите меру или создайте меру из поля.
  4. Щелкните Добавить меру и выберите меру или создайте меру из поля.
  5. При необходимости размер пузырьков можно настроить по третьей мере.
  6. Щелкните Добавить меру и выберите меру или создайте меру из поля.
Если вы добавляете третью меру, то ее значение будет влиять на размер кружочков.
В свойствах точечной диаграммы (Вид – Представление), вы можете изменять размер пузырьков.
Для точечной диаграммы с двумя мерами данный параметр задает одинаковый размер всех пузырьков.
А для точечной диаграммы с тремя мерами данный параметр задает диапазон размеров пузырьков. В точечной диаграмме с тремя мерами размер каждого пузырька определяется третьей мерой.
Практикуемся
В решении кейсов
Решение предыдущего дня 07 по практике с винами:
  1. 1872 год - 85
  2. Самая высокая - 1990 год, 290$. Самая низкая - 1993 год, 24$
  3. 34$. Chenin Blanc, Sauvignon Blanc
Скачать приложение решение

Решение предыдущего дня 07 по практике с сырами:
Скачать приложение решение
Практика по демографии
В данном датасете содержится информация по населению России, по средней заработной плате и площади регионов. Большее количество данных за 2013 год, но заработные платы добавлены за период с 2009 по 2013 года. Данные взяты из открытых источников, то есть являются реальными ( Если официальную статистику можно назвать реальной!)) )

Сегодня в качестве задания Вам предстоит разработать небольшой дашборд, который будет отвечать на заранее поставленные вопросы.

Данные в удобном формате уже загружены в QVF файле, Вам достаточно его импортировать к себе.
Скачать приложение с данными
Задания по демографии
На первом листе:
  1. Видеть минимальную зарплату в России (KPI)
  2. Видеть максимальную зарплату в России (KPI)
  3. Анализировать динамику средней заработной платы по стране (Линейный график)
  4. Анализировать заработную плату в разрезе регионов (Карта)
  5. Видеть ТОП 5 регионов по заработной плате (Линейчатая диаграмма)
На втором листе:
  1. Видеть количество трудоспособного населения страны (KPI)
  2. Сравнивать количество людей по возрастным категориям (Пайчарт)
  3. Анализировать плотность населения (Тримап)
  4. Видеть численное значение количества жителей по регионам (Плоская таблица)

Так же должна быть возможность фильтровать данные по периоду и региону.
Практика по музеям
Датасет содержит в себе данные о музеях с сайта TripAdvisor, включая рейтинг среди пользователей, их местоположение и название.

Скачать приложение с данными
Задания по музеям
  1. Построим географическую карту по музеям. В меню добавим новый слой - слой точек, в качестве измерения возьмем поле MuseumName. В меню Местоположение - Поле местоположения выберем созданное заранее поле - мастер-измерение Geo (GeoMakePoint(Latitude,Langtitude)). Определим размер пузырьков по полю Rating, а цвет по измерению Fee.

  2. Поработаем с круговыми диаграммами - построим одну по количеству музеев в зависимости от их оценки (измерение Rating, мера Count(MuseumName)). Настроим для созданного пай-чарта цвета и сортировку (по желанию). Какой процент музеев получили оценку 5?

  3. Теперь создадим карту дерева. Выберем поля LengthOfVisit и Rating в качестве измерений, количество музеев в качестве меры. В каком музее с самой низкой оценкой проводят более трех часов?

  4. Наконец построим пузырьковую диаграмму. Для этого выберем поле MuseumName, по оси X будем считать количество отзывов (ReviewCount), по оси Y - позицию в рейтинге (Rank), а размер пузырьков будет определять поле Rating. Также ограничим выборку - в свойствах измерения Ограничение - Фиксированное число поставим 50 значений сверху, вычисленных по мере Sum(ReviewCount). Для наглядности настроим цвет по измерению Fee. Какой бесплатный музей набрал наименьшее количество отзывов? Где он находится?

Вдохновляемся
Изучаем прекрасное в сети
Полезные ссылки по теме
Сегодня в полезных ссылках – изучение карт, сервисы для получения координат несколькими способами и сервис по составлению своих цветовых палитр.
Погружаемся
В тематические книжки и видео
Артефакты
Помогут Вам лучше усвоить и вовремя вспомнить основные элементы методик, подходов, последовательностей действий, проверенных практик
Использование цветов
Синий и оранжевый цвет – как самая популярная пара в фильмах
Делимся находками коммьюнити Qlik, сегодня – на тему цветов. Интересный рассказ о том, почему синий и оранжевые цвета используются чаще всего в трейлерах современных фильмов. На расширение кругозора.
Книги
Сегодня на полке еще одно классическое издание завершающее наш цикл разбора видов визуализаций
Говори на языке диаграмм
Джин Желязны
На протяжении многих лет книга "Говори на языке диаграмм" является настольным пособием для руководителей, консультантов, аналитиков - всех тех, кто хочет научиться четко и лаконично выражать свои мысли и доносить идеи с помощью диаграмм.
Итоги этапа
Заканчиваем цикл разбора базовых визуализаций. Мы с вами прошли за последние несколько дней штук пятнадцать. Хочется уже перевести разговор в бизнес плоскость и обсудить стандарты работы организаций по использованию инструментов визуальной аналитики. Нас ждет завтра разговор о стандартизации и корпоративных стилях. А на сегодня все. До завтра! Виз виз урааа! Окончание этапа
~
DATA YOGA CLUB