ДЕНЬ 06
Основные виды визуализации данных:
Барчарты, с накоплением, гистограммы, спидометры
СЕГОДНЯ

Наш второй визуальный день мы посвятим самым популярным видам визуализаций всех времен и морей – линейчатым диаграммам, в народе барчарты, по-простому. Начнем с рассмотрения компонент диаграмм – систем координат, видов шкал, визуальных кодировок. Закрепим в Qlik Sense шаги для реализации барчартов и гистограмм. Обсудим устаревшие морально спидометры и градусники, чтобы знать как экономить место на дашбордах и чем можно заменить шедевры старых мастеров. На полке библиотечная версия потрясающей работы заслуженных энергетиков другой страны, которая учит обращать внимания на мельчайшие особенности построения базовых диаграмм. Листать перед сном обязательно.
Разбираемся
В базовых способах визуализации
Компоненты диаграмм
Строительные блоки визуализации данных
Перед тем, как начать изучение видов графической визуализации данных, хотелось рассказать вам о компонентах диаграмм.
Любая диаграмма состоит из четырех частей – системы координат, шкалы, визуальной кодировки и контекста. Каждый из этих строительных блоков выполняет свою отдельную функцию, а вместе они обеспечивают простое и быстрое понимание диаграммы аудиторией.
Система координат, шкала, визуальная кодировка, контекст
Система координат

Внешний вид диаграммы полностью зависит от выбранной системы координат. Существуют 3 вида системы координат: декартова, полярная и географическая. Декартова система координат всем знакома со школы: самые распространенная с координатами X и Y. В полярной системе координаты располагаются в соответствии с радиусом и величиной угла. Гео-система использует широту и долготу как координаты, позволяя строить карты.
Системы координат
Шкалы

Благодаря подписям данных на шкалах, мы понимаем на что мы смотрим, какая размерность у графика, что представляет каждая категория. Шкалы также определяют как будет выглядеть конечный график.
Шкалы
Визуальная кодировка

То, каким графическим способом представлены данные – называется визуальной кодировкой. Так, в барчарте данные представлены столбцами, в линейном графике – линией, в диаграмме рассеяния – точками.
Виды сравнения данных
Все способы визуализации данных – диаграммы и графики – можно сгруппировать по вопросам, на которые эта визуализация будет отвечать. Другими словами, существуют разные виды сравнения данных. Мы выделим самые крупные из них:
Первые диаграммы
Барчарт, с накоплением, гистограммы, спидометры
Барчарт или Линейчатая диаграмма
Сравнение категорий между собой
Что это такое
Барчарт или линейчатая диаграмма – это самый распространенный и универсальный вид диаграммы. Она отвечает на вопрос "сколько?". Величина показателя выражается при помощи длины столбиков: чем длиннее столбец, тем больше его значение. Столбиковая диаграмма может быть и вертикальной и горизонтальной, в зависимости от того, где располагаются категории.

Диаграмма показывает значения одного показателя по каждой дискретной категории, сравнивая их друг с другом. Если вы хотите линейчатой диаграммой отображать тренды во времени, это лучше сделать при помощи линейного графика. Барчарты предполагают прямое сравнение между отдельными периодами.
Как настроить
В Qlik Sense диаграмма создается на основе хотя бы одного измерения и одной агрегированной меры. Вы можете настроить расположение диаграммы: она может быть как вертикальной, так и горизонтальной. Кстати, в каких случаях лучше использовать вертикальный вариант, а в каких – горизонтальный? Ответ мы написали ниже.
Также, вы можете настроить прокрутку, шаг периодичности линий сетки, добавить опорную линию и подписи значений над столбцами.
СОВЕТ
Если названия категорий длинные, то лучше расположить столбцы сверху вниз, а названия категорий написать горизонтально. Так проще считывать график
Линейчатая диаграмма с несколькими категориями
Сравнение категорий между собой
Что это такое
Когда вам нужно показать больше одного набора данных, используйте линейчатую диаграмму с несколькими категориями, или иначе – диаграмму с группировкой.

Этот вид диаграммы позволяет сравнивать один и тот же показатель в нескольких наборах данных. Например, в качестве основной категории может выступать год, а внутренняя разбивка на столбца будет показывать результаты продаж по разным странам. Каждый набор данных обычно выделяется уникальным цветом. Для удобства визуального разграничения разных наборов данных, в Qlik добавляется увеличенное пустое пространство между группами.
Несколько наборов данных могут быть показаны рядом друг с другом, или же наложением друг на друга, как "слои". Во втором случае, диаграмма с накоплением показывает соотношение внутренних сегментов для исходной категории. При этом сегменты располагаются друг за другом, а основанием для каждого следующего значения будет крайняя граница предыдущего. Сумма всех сегментов будет выражаться общей длинной столбца.
Как настроить
Описанные два вида диаграмм создаются в Qlik на основе стандартной линейчатой диаграммы (барчарта). После создания барчарта, в свойствах диаграммы вам необходимо добавить еще одно дополнительное измерение, чтобы получить опции группировки наборов данных.

Во вкладке Вид – Представление вы увидите варианты сгруппированного представления и стопкой, т.е. наложения значений друг на друга. Прочие настройки диаграммы такие же.

Работа с ограничениями барчартов
Видео от Qlik
Гистограмма
Распределение величины
Что это такое
Гистограмма – это вид статистического графика, который показывает распределение величины. Гистограмма показывает частотность значений переменной, т.е. сколько раз то или иное значение встречается в наборе данных. Визуальной кодировкой здесь будет длина столбца – чем он выше, тем больше частота значения величины.

Гистограммы используются для того, чтобы отследить концентрацию значений, выявить экстремумы, установить тип статистического распределения. При этом, частотность может показываться как на интервалах значений, так и на периоде времени. По смыслу, гистограмма показывает плотность распределения.
Из-за того, что гистограмма показывает значения при помощи столбцов, ее часто путают с обычной линейчатой диаграммой (барчартом). Несмотря на внешнюю схожесть, эти две диаграммы имеют разный смысл и показывают разные аспекты данных. У гистограмм нет пробелов между столбцами. Это показывает непрерывность числового ряда.
Как настроить
В Qlik Sense гистограмма создается на основе одной меры. В параметрах гистограммы вы можете задать способ расчета количества интервалов – "полосок". По умолчанию используется формула Стерджесса, которая основана на текущих минимумах и максимумах, но вы можете задать свой метод расчета.
Пример гистограммы
Для проверки корректности ваших расчетов на диаграмме, можно преобразовать любую диаграмму в таблицу, перетянув таблицу из полки видов визуализации на место диаграммы. Выберите опцию "Преобразовать в Таблицу" и используемые меры и измерения сохранятся
Марина Шакирова
Эксперт Qlik Sense
Спидометры и градусники
Распределение / сравнение нескольких значений
Что это такое
Когда-то термин "дашборд" получил свой бизнес-смысл, перейдя с английского названия приборных панелей автомобилей. Вместе с названием, в визуализацию данных перешли и некоторые способы их графического преставления – например, датчики.
Датчики, а также термометры –служат для показа достижения целевого значения показателем. Обычно, это примеры соотношения фактических данных с плановыми, или просто референс-отметок.

Датчики имеют форму дуги, термометры – бара.

В датчиках обычно используют цвет для отражения статуса – провала или успеха. При этом, в настройках цвета Qlik можно использовать как градиент, так и отдельные оттенки цветов с четкой границей между ними. Также, обычно добавляют референс-линию для отметки целевого значения.
Добавление референс-линий
Видео от Qlik
Как настроить Цвет
Датчики строятся на основе единственной меры. После добавления этого вида диаграммы на рабочую область, настройте механику расчета этой диаграммы в свойства – ВидПредставление.
  • задайте минимальные и максимальные границы для начальных и конечных подписей
  • в настройках цвета задайте цвета для сегментов
СОВЕТ
Используйте дискретную заливку значений с четкой границей, чтобы показать как разграничены категории статуса. К тому же, использование меньшего количества цветов выглядит более стильно
Практикуемся
В решении кейсов
Сегодня продолжим практические опыты на датасетах предыдущего дня: магазинах и проектах на Кикстартере. Решение прошлого дня, как обычно, в начале блока.
Решение корпоративной практики дня 05

Решение душевной практики дня 05
1.
a) Bears vs Babies - A Card Game, 85581 человек, в среднем 38 долларов на человека
b) 7, 2016 год

2.
a) Видео-игры, США (84659 человек)
b) Канада, 297 проектов, 35618 человек

3.
92$, 31,2%
Практика душевная
Вернемся к проектам на Kickstarter. Используйте ваше уже созданное приложение из прошлого урока для продолжения работы.

Если вы пропустили задание, то можете скачать исходный файл ниже –
Скачать приложение
Задания душевные
  1. Для начала построим линейчатую диаграмму по статусам проектов. В качестве меры посчитаем средние сборы на проект (используем функцию avg()). Чему равны средние сборы технологических успешных проектов?
  2. Перейдем к линейчатой диаграмме с группировкой. По категории и году запуска выведем количество проектов. Выберите удобное для себя представление диаграммы – сгруппированное или "стопкой". Для наглядности в меню "Цвета и легенда" поставим настройку цвета по измерению Год. Количество проектов какой из категорий остается практически неизменным на протяжении трех лет?
  3. Наконец, поработаем с гистограммами. Построим распределение числа сторонников – тех, кто вложился в проект (backers). Для того, чтобы гистограмму можно было прочитать, в меню Вид - Ось Y добавим ограничение по минимуму - 0 и максимуму - 100.
3. а) Какое количество людей поддерживает проекты на Кикстастере в большинстве случаев?
3. б) Какой проект был поддержан наибольшим количеством людей (название, категория, количество сторонников, статус, страна)?

Совет: для каждой из диаграмм добавляйте метки значений
Следующая практика будет достаточно сложной для новичка. Поэтому, если вы только начинаете знакомство с продуктом, можете остановиться на практике Кикстартер. Для тех, кто уже имеет какой-то существенный опыт и кто хочет "размять голову" – практика ниже.
Практика корпоративная
Используя урок, необходимо воссоздать приложение, используя файл для скачивания как исходный проект с данными.
Задания корпоративные
1. Создайте линейчатую диаграмму по продажам с измерением Магазин. Отсортируйте ее по продажам.
2. Создайте диаграмму по продажам с измерениями Магазин, Продукт. Отсортируйте ее по продажам. Вид диаграммы – линейчатая, с накоплением (стопка).
3. *Создайте комбинированную диаграмму выполнения плана по месяцам. Для факта и плана используйте линии, для % выполнения до плана – полосы.
4. *Создайте диаграмму с возможностью переключать измерения Магазин/Продукт и переключаемыми мерами Продажи/План/% выполнения плана
5. Постройте гистограмму для продаж.
6. Постройте несколько датчиков по выполнению плана.

На первый лист с визуализациями №1, 2, 3, добавьте фильтры по Магазинам, месяцу, продукту.
На втором листе – визуализации №4, 5, 6.
Вдохновляемся
Изучаем прекрасное в сети
Полезные ссылки по теме
Сегодня предлагаем вам изучить пройденные диаграммы подробнее и посмотреть на их особенности для лучшего понимания.
Погружаемся
В тематику
Артефакты
Помогут Вам лучше усвоить и вовремя вспомнить основные элементы методик, подходов, последовательностей действий, проверенных практик
Книги
Шикарная работа целого коллектива авторов, о графических методах обработки информации на примерах энергетики. Обязательна к просмотру.
Энергетический менеджмент
+
Излагаются основные понятия и самые необходимые сведения в описании основных элементов графиков. Оригинальная авторская классификация основных видов графиков по форме графического изображения, способу построения и задачам изображения, теоретические основы и требования к построению графиков. Описываются особенности методики построения визуализаций, их плюсы и минусы. Много примеров и справочного материала.
Итоги этапа
Разобрав полосатый рейс на компоненты, мы поняли что готовы покорить любые категории данных. Все возможно отобразить с помощью баров, хотя и немного скучно, но работу со временем и трендами лучше оставить линейным графикам и диаграммам. Завтра готовимся разобрать линейные графические методы, чтобы лучше отображать тенденции. До завтра. Всем хорошего дня. Виз виз ураааа!
~
DATA YOGA CLUB