ДЕНЬ 03
Ассоциативная модель данных
СЕГОДНЯ

Разбираемся с работой ассоциативной модели в Qlik Sense, увидим детали процесса исследования данных, посмотрим работу ассоциативной модели в приложении, выполним на выбор задания из мира бизнеса или дата-журналистики, научимся загружать приложения в облако или открывать у себя в десктопе, завершим день просмотром дополнительных материалов и пообсуждаем оставшиеся вопросы в чате Марафона.
Разбираемся
В отличительной особенности Qlik
Ассоциативная модель данных
Что это такое, в чем особенности и преимущества
Представьте себе кубик Рубика. Вы хотите собрать его, но у вас есть ограничение – вы можете видеть только одну сторону кубика за раз. Получается, что вы не можете видеть как ваши действия отражаются на других сторонах кубика при его сборке. Это затрудняет и без того сложную головоломку: вам необходимо видеть всю картинку сразу, но вы видите только часть.

Эта аналогия хорошо совпадает с процессом обработки данных в современных BI-системах: из-за сложности исходных данных, нехватки практического опыта и ограничений инструмента, работа с данными превращается в боль. Но у Qlik другой подход к работе с данными. И проявляется он в использовании Ассоциативной модели данных.
С чего все начиналось?
Если вы хотя бы немного изучали или работали с базами данных, вам должны быть знакомы такие словосочетания как реляционные базы данных и SQL-запросы. Если нет, можете прочитать о них здесь →
Реляционные БД хорошо справляются c задачей сбора и хранения данных, но они не совсем предназначены для современной аналитики. Большинство BI-систем опираются на SQL-запросы при создании интерактивного анализа. Это приводит к ограниченному линейному исследованию и анализу неполных данных.

На этом ограничении возникают сложности в скорости анализа. Вы, как пользователь, должны изначально знать, что вы хотите получить от данных. Если в процессе исследования вы хотите посмотреть на новый срез этих же данных, вам нужно будет отправить новый запрос. В Qlik это называют циклом «спроси, подожди, ответь». Каждый новый тип вопроса к данным имеет период ожидания.
Компания Qlik смогла решить эту проблему при помощи своего запатентованного инновационного механизма Associated Engine (Ассоциативный движок), разработанного специально для интерактивного исследования и анализа в свободной форме.

Что это значит и почему мне это важно?
В первую очередь, в Qlik все данные собираются воедино и полностью индексируются. Индексация помогает найти все возможные ассоциации в данных во всех загруженных источниках данных. Таким образом, Qlik делает собственные предположения как вы можете использовать эти данные вместе. Этого нет в других инструментах, в которых только вы прописываете возможные связи. При этом, вы не всегда увидите взаимосвязи сразу, а часто – можете не увидеть их в принципе.

Во вторых, вместо предварительной агрегации данных или использования расчетов в исходной базе данных, Qlik предлагает мощные оперативные вычисления и агрегирование на лету. Это означает, что люди могут свободно исследовать, искать и переформулировать вопросы в зависимости от того, что они видят, без ограничений и времени ожидания.
Можно привести какой-нибудь пример, чтобы стало понятнее?
Представьте, что вы – ведущий аналитик по продажам. Перед вами стоит задача понять, где менеджеры продаж должны сосредоточить свои усилия, чтобы максимизировать потенциальные сделки для закрытия квартала выше целевых показателей?
В первом варианте, при работе с линейными запросами в других системах, вы будете ограничены результатами первоначального запроса. Захотите посмотреть на дополнительный срез – например, посмотреть данные по маркетингу – меняйте запрос и прописывайте связи с новыми источниками. А если этих связей вам не видно, или вы просто не знаете как их вообще можно связать? Вы можете даже не знать, что нужные вам данные существуют, просто не увидев их взаимосвязи с вашими данными.

Ассоциативный движок Qlik видит все данные, которые вы загрузили сразу. Вспомните про пример с кубиком Рубика – теперь вы можете видеть все его грани и смотреть на результат.

Если возвратиться к примеру, вы могли бы начать с анализа по тем же первым критериям. Но поскольку все данные всегда доступны, а все визуализации во всем приложении Qlik обновляются до нового (связанного) контекста, вы можете заметить, что некоторые из ваших возможных сделок имеют высокие маркетинговые оценки, а другие – нет. Затем, ассоциативная модель показала бы вам какие продукты НЕ были проданы определенным клиентам в определенных регионах. Вы бы задавали все новые и новые вопросы, что приведет к более глубокому пониманию и, в конечном итоге, к укреплению списка потенциальных клиентов и плана.
Основные характеристики ассоциативного движка Qlik, которые делают его таким уникальным и мощным:
1. Способны анализировать все ваши данные
2. Могут исследовать без границ
3. Способны делать это со скоростью мысли.

Поясним каждый из аспектов.
Способность анализировать все ваши данные

Анализ всех ваших данных означает объединение всех имеющихся у вас источников в единую модель таким образом, чтобы все они обрабатывались одинаково, без потери данных и не получая ошибок.

Пользователи должны иметь возможность легко создавать аналитику без использования сложных запросов и кода, но с использованием умных отношений и контекста нескольких таблиц.


Вы можете легко загружать необработанные и неполные данные для анализа без необходимости заранее идеально моделировать таблицы. Qlik покажет вам все найденные неточности в данных, чтобы вы смогли дать свою оценку что с ними делать дальше.

Исследование без границ означает, что каждый может взаимодействовать с визуализациями и аналитикой. Люди должны иметь возможность исследовать в любом направлении, задавать любое количество вопросов, направлять свой анализ на новые идеи и получать мгновенную обратную связь после каждого шага. Они должны быть в состоянии сделать это с помощью простых взаимодействий, таких как выбор и поиск.

После каждого щелчка в приложении, ассоциативный движок обновляет всю аналитику в приложении до нового контекста и предоставляет пользователю как связанные, так и не связанные значения в зеленом / белом / сером цвете. Этот уникальный опыт позволяет людям обнаруживать непредвиденные идеи, которые могут быть упущены с помощью инструментов на основе запросов.

Скорость мысли
И, наконец, ничто из того, что мы описали, не имеет значения, если пользователи не могут взаимодействовать и анализировать информацию так быстро, как они думают. Если система не успевает за человеком, он теряет способность связывать идеи и предпринимать дальнейшие шаги.

Ассоциативный механизм Qlik динамически вычисляет аналитику и выделяет ассоциации так быстро, как только пользователь может придумать вопросы. Эта мгновенная обратная связь позволяет пользователю заметить что-то в данных и подумать о большем количестве вопросов.

Ассоциативная модель в приложении
В действии
Далее, дадим несколько практических примеров по преимуществам ассоциативной модели.

Полнота данных
Рассмотрим отличие ассоциативной связи от привычных линейных запросов в реляционных базах вида Left и Right Join – Правое и Левое соединение.
Как видим, в зависимости от того, какой источник первый и какой второй (выделены синим) мы имеем различные результаты.
Механизм же ассоциативной связи обеспечивает полное объединение двух таблиц и при этом пользователь будет иметь доступ ко всем данным единовременно.
Механизм ассоциации
Один из ключевых моментов ассоциативной модели – это, разумеется, сам механизм ассоциации.
Посмотрим на примерах. У нас есть данные по рабочему стажу сотрудников. Скриншот ниже – пример списка фильтров приложения. На скриншоте мы видим, что только в 7 регионах есть сотрудники с рабочим стажем более 30 лет. Примечательно, что эти сотрудники работают только в рамках одной функции Финансы, в остальных департаментах стаж сотрудников ниже.

Как мы это поняли?
Принцип работы ассоциативной модели данных основан на 4 типах подсветок, которые вы можете видеть выше.

  • Зеленый цвет – цвет активной выборки, то есть зеленым подсвечиваются выбранные нами поля.
  • Белый цвет – цвет возможного дополнительного выбора. Подсвеченные белым цветом будут уточнять имеющуюся активную выборку, если их выбрать.
  • Светло-серый цвет – альтернативная выборка. Подсвечиваются поля, которые не попадают в выбранный разрез данных, но которыми можно дополнить имеющуюся выборку без конфликта с остальными полями.
  • Темно-серый – цвет тех полей, которые категорически исключены из текущей выборки. Их можно выбрать, но тогда из-за конфликта с основной выборкой, все остальные фильтры будут сброшены.
Несколько цветов: зеленый, белый, серый, черно серый.
Таким образом, если мы выбираем Стаж, он будет подсвечен зеленым цветом, а связные с ним Регионы, Функции и прочие поля останутся белыми. Остальные же (в которых нет сотрудников с подобным стажем) закрасятся в серый цвет.

Надо понимать, что для анализа ценность дают оба варианта подсветок – и белая и серая – так как если у нас стоит цель, например, нарастить штат сотрудников, нам нужно обращать внимание как раз на исключенные (серые) регионы.
Неограниченный поиск
Благодаря исследованию данных в ассоциативной модели, пользователь имеет доступ одновременно к множеству своих источников данных.
Не нужно быть экспертом в данных и знать, как составлять запросы к ним, достаточно просто интуитивного выбора фильтров. Механизм ассоциативных связей мгновенно перестроит модель согласно вашей выборке после каждого клика: зеленый (выбранный), белый (связанный), серый (не связанный). А поскольку мы работаем постоянно в одном приложении (контексте), то мы не упускаем из поля анализа и исключенные значения, которые теряются при работе с инструментами на основе линейных запросов.
Выбранные фильтры
Полное понимание
Это то, что мы называем «силой серого». Уникальная способность Qlik заключается в том, что пользователи могут видеть не только значения связные с произведенной выборкой, но и исключенные значения. Они отображаются серым цветом, и часто обозначают наиболее важные данные, такие как области новых возможностей или риска.
Например, в компании проходит реструктуризация и все должности, связанные с отчетностью, должны переводиться в функции компании, то есть создаем Self Service пространство. На дашборде ниже сделаем ряд выборов: интересующего месяца и должностей под реструктуризацию. Сразу увидим, что они есть в Финансовой и Юридической функции и Управлении персонала (см. элементы фильтра), а остальные – маркетинг, внутренний аудит и другие – еще не набрали нужный персонал. Использование обычных линейных запросов дало бы представление только о тех функциях, где реструктуризация прошла успешно. А в данном случае, у нас есть повод задать новый вопрос – почему маркетинг не сделал эту реструктуризацию?
Пример дашборда с фильтрами по должности
На том же примере дашборда выше. Пользователь, региональный менеджер управления персоналом, задает вопрос – какова тенденция роста персонала в его регионе?

Открывая дашборд он тут же видит, что в целом тренд количества персонала идет на снижение. Глядя на таблицу рейтинга увидит, что в целом по всем функциям идет снижение, в то время как в функции ИТ идет рост. Проваливаясь в функцию ИТ поймет, что увеличение идет за счет набора аналитиков и разработчиков. Отсюда будет сделан вывод, что в его регионе успешно идет автоматизация бизнес-процессов, и следовательно, ту же модель управления можно транслировать и на другие регионы.

Таким образом менеджер получит следующее: задавая изначальный вопрос, он в считанные клики получил информацию о целевой стратегии развития региона в рамках управления персоналом.
Практикуемся
В решении кейсов
Сегодня у нас первый день с практическими заданиями в Qlik Sense. Так как, на сегодняшний день в Марафоне участвует уже около 2500 человек, мы решили сделать два практических кейса на выбор: один из них – корпоративной тематики, другой – по теме статистики из фильмов и мультфильмов. Выбирайте тот, который вам больше нравится.
Мы будем организовывать практику присылая вам приложения с загруженными данными для импорта в Qlik Sense. Ниже вы сможете скачать файлы с расширением .qvf. Импортируйте их в ваш хаб Qlik. Если вы работаете в облачной версии, советуем добавить cloud.qlik.com в закладки.

Для импорта приложения:
1. Скачайте файл через ссылку "Скачать приложение"
2. В хабе Qlik, нажмите "Новое приложение" в верхнем меню
3. Выберите "Загрузить приложение" и выберите нужный файл
Практика. Корпоративный вариант
В качестве первого задания, представлен дашборд, который служит для анализа численности и половозрастного состава сотрудников одной из федеральных розничных сетей за вычетом фронт-офисных подразделений. Дашборд отвечает на потребность руководителя и представляет собой один лист со всеми интересующими аналитиками.
На второй же лист в виде фильтров добавлены все те же поля что и на первом представленные в виде диаграмм и представлений.

Скачать приложение
Задания. Корпоративный вариант
1. На первом этапе предлагаю ознакомиться с дашбордом и попробовать как работают фильтрации если нажимать и выбирать данные на самих визуализациях
2. Сколько женщин со стажем от 3 до 5 лет работало в декабре 2018 в финансовой функции Краснодарского края?
3. А теперь перейдите на второй лист и обратите внимание на расцветку фильтров, и можете поиграться с ними
4. А теперь ответьте на вопросы, согласно тем же условиям что и в пункте 2 есть ли сотрудницы работающие более 10 лет? А есть ли со стажем 5-10 лет?
5. В каких должностях вообще работают женщины, если не учитывать их стаж работы (все остальные фильтры сохранены: женщины, Краснодарский филиал, Финансовая функция, декабрь 2018)
Практика. Вариант для дата-журналистики
Датасет содержит в себе данные с сайта www.MovieBodyCounts.com о 545 фильмах, начиная с 1949 по 2013 год, в которых можно подсчитать количество убитых героев фильмов. Для каждого фильма известен год, режиссер, жанр, длительность, а также рейтинги MPAA и IMDB.

Скачать приложение
Задания. Вариант для дата-журналистики
1. Какое количество убитых в фильмах Гая Ричи? В каком фильме их больше всего?
2. Какой мультфильм (жанр "Animation"), начиная с 1990 года наименее "кровавый"? Какое количество человек?
3. Перейдем к рейтингу IMDB. Кто является режиссером фильма с наивысшим рейтингом IMDB в период с 1950 по 1990 годы и длительностью менее двух часов? Какой рейтинг MPAA у этого фильма?
Вдохновляемся
Изучаем прекрасное в сети
Полезные ссылки по теме
В продолжение темы, мы подобрали для вас еще несколько примеров из песочницы Qlik для отслеживания работы ассоциативной модели. Вы также можете посмотреть объясняющее видео от Qlik по ее работе!
Погружаемся
В тематические книжки и видео
Артефакты
Помогут Вам лучше усвоить и вовремя вспомнить основные элементы методик, подходов, последовательностей действий, проверенных практик
Книги
Визуализируй это
Nathan Yau
Ставим на полку "Визуализируй это" от Нейтана Яу для развития насмотренности на примеры визуализаций из различных проектов дата-журналистики. Для ознакомления с лучшими практиками.
Итоги этапа
Начали неделю с понимания принципов работы ассоциативной модели Qlik. Зарядились практикой работы с первыми датасетами. Нашли ответы на вопросы заданий и готовимся к новому дню. Завтра разберем загрузку данных и до конца недели будем практиковаться в проектировании визуализаций. Не забываем о чате, там более 300 участников комьюнити готовы помочь разобрать сложные моменты и ответить на вопросы. Всем хорошего дня. Виз виз ураааа!
~
DATA YOGA CLUB