ДЕНЬ 04 • МАРАФОН QLIK SENSE

ТЕМА ДНЯ
ПРАКТИКА ДНЯ
ДОПОЛНЕНИЯ

УПРАВЛЕНИЕ ДАННЫМИ

ДЕНЬ 04

Сегодня мы попробуем рассмотреть порядки работы с источниками данных для того, чтобы оптимально выстроить работу с приложениями Qlik. Поговорим о нескольких уровнях архитектуры хранилища данных, о том, какие вопросы стоит задавать для лучшего понимания работы с источниками и какие документы нужно заполнить для формирования видения

ТАКТИЧЕСКИЕ ПОРЯДКИ

ОНЛАЙН-МАРАФОН ИСКУССТВО QLIK SENSE

Сунь Цзы сказал: искусные воители древних времён прежде всего делали себя непобедимыми, после чего выжидали момент, когда противник окажется уязвимым.

Твоя непобедимость заключена в самом тебе, а возможность победы зависит от врага.

Отсюда следует — тот, кто умеет ввести войну, может сделать себя непобедимым, но не может заставить противника покориться.

Поэтому сказано, что стратегию победы над врагом можно познать, но не всегда можно применить.

В бизнес аналитике, возможность победы зачастую зависит от данных и сегодня мы с вами рассмотрим подходы связанные к наиболее оптимальным схемам выстраивание начальной работы Qlik с данными.

ТЕМА ДНЯ

РАБОТА С ИСТОЧНИКАМИ ДАННЫХ

Qlik Sense может загружать данные напрямую из множества источников: базы, файлы, API… Разработчик получает огромные возможности по преобразованию, обогащению и очистке данных прямо внутри своих аналитических приложений.

И при этом принцип работы Qlik заключается в том, что все данные которые содержатся в отчете загружены в оперативную память. То есть внутри открывающегося отчета полностью развернута модель данных. Как ее собрать и использовать лучше всего?

Важно следить за тем, как вы будете использовать свои данные при работе с Qlik Sense. Не создавайте логику загрузки и преобразования данных слишком запутанной

Qlik использует файловое хранение данных, при этом использует свой формат *.QVD. Этот формат хранения данных специально оптимизирован под Qlik, не занимает много места, а процесс загрузки занимает минимальное количество времени.

При использовании одних и тех же таблиц данных в QVD файлах в разных приложениях, система не будет тратить время на повторное преобразование данных. Поэтому имеет смысл пересохранить данные из первоначальных источников в QVD-файлы.

#Хайкувиз
«На новом проекте всё будет Фен-Шуй»
– РП нам сказал.
Смеётся сенсей

МНОГОУРОВНЕВАЯ АРХИТЕКТУРА

УРОВЕНЬ 1
Загрузка данных

На первом уровне, мы загружаем данные «как есть». Иными словами, первый слой QVD-хранилища — это слепок исходных данных из различных систем хранения данных (DWH, CSV, XLS).

Сюда попадают таблицы из первичных источников данных. В качестве преобразований — только стандартизация имен, исправление формата данных (даты, числа), создание дополнительных полей. В таблицах находятся только те данные, которые изначально присутствуют в источнике.

Смысл этого этапа — заменить подключение ко множеству источников работой с одним каталогом данных.

УРОВЕНЬ 2
Адаптация

На втором уровне, мы трансформируем данные уже в новый слой QVD-хранилища под конкретные проекты, потоки и направления. Здесь выполняется агрегация данных, соединения данных, сопоставления, необходимые для конкретной задачи. Используется для построения приложений.

В целом, всю подготовительную работу, агрегации и возможные трансформации данных лучше производить на уровне базы данных

УРОВЕНЬ 3
Модели данных

Третий уровень — уровень QVW или QVF файлов с готовыми моделями данных, финальными корректировками, ассоциативными связями, готовыми к визуализации.

Это уже агрегированные таблицы, содержащие сжатые данные, например, продажи просуммированные по месяцам. Используются в приложениях с ограничением глубины аналитики, для оптимизации быстродействия на больших объемах.

Также, на этом уровне хорошо выводить в визуализацию контрольные цифры для проверки загрузки данных.

УРОВЕНЬ 4
Приложение

На этом уровне — опубликованное или готовое к публикации приложение, содержащие только визуализацию. В скрипте содержится только строка с бинарной загрузкой модели из предыдущего уровня и добавлением секции доступа. Загрузка и публикация занимает минимум времени.

Продвинутая работа с данными на высоком уровне — ключевое преимущество приложений Qlik. Более того, многоуровневый процесс можно оптимизировать еще дальше: тогда скорость работа приложений будет молниеносной.

ИНКРЕМЕНТАЛЬНОЕ ОБНОВЛЕНИЕ

Для быстродействия цикла загрузки данных, нужно применять инкрементальное обновление QVD-файлов. При таком подходе, из источника данных запрашивается не все данные полностью, а только те, которые были изменены или добавлены с момента последнего обновления. Также, возможно выполнить удаление данных, которые были удалены из источника. Неизмененные данные загружаются из уже существующего QVD-файла.

ЕДИНООБРАЗНЫЕ НАЗВАНИЯ

Важно, чтобы поля, которые будут использоваться для связи таблиц, назывались одинаково. Если в базе данных CRM поле называется LeadID, и оно должно связываться с полем "№ заявки" из Excel-таблицы, то на первом уровне QVD-слоя вам нужно придумать унифицированное название. Например, "ID сделки".

МЕТАДАННЫЕ

Если при открытии QVD-файла в Qlik выбрать формат файла XML — то у вас появится возможность загрузить не данные из файла, а информацию о том, какие данные хранятся в этом файле. Названия полей, кол-во уникальных значений, типы данных, комментарии к полям. Таким образом, вы сможете создать себе отдельное приложение, которое будет мониторить содержание QVD-хранилища и информацию о том, как те или иные данные были получены.

Часто возникает вопрос — не приведет ли пересохранение данных в QVD-хранилище к кратному росту объема занимаемого данными места? Ответ — нет, из-за специфики хранения данных в этом формате. Говоря простым языком, все уникальные значения каждого поля индексируются. После чего каждое поле разделяется на 2 части — первая содержит только уникальные значения, вторая — индексные ссылки на них.

НЕСКОЛЬКО ВОПРОСОВ ДЛЯ ПРИНЯТИЯ ВО ВНИМАНИЕ

Приводим для вас блок вопросов, которые вы можете проработать для понимания текущей ситуации работы с данными внутри компании.

Управление источниками данными

Какие источники данных являются основными для отдела или команды?
Кто является владельцем данных?
Существуют ли разные версии исходных данных? Если да, то можно ли их консолидировать в единый источник?
На какие бизнес-вопросы должен отвечать источник данных?
Какие соглашения по наименованию используются для опубликованных источников данных?

Управление качеством данных

Какие процессы существуют для обеспечения точности, полноты, надежности и актуальности данных?
Разработан ли чеклист для введения процесса проверки данных на качество в действие?
Кто должен проверять данные, прежде чем они станут общедоступными и пользователи смогут им доверять?
Адаптирован ли ваш процесс к требованиям бизнес-пользователей, и могут ли они сотрудничать с владельцами данных, чтобы сообщать о проблемах?

Управление безопасностью данных

Какова ваша классификация конфиденциальности данных?
Какова процедура запроса и получения доступа к данным?
Соответствует ли Ваша безопасность данных юридическим, нормативным и законодательным требованиям?

ПРАКТИКА ДНЯ

Сегодня разберем стратегему № 23.
Суть стратегии заключается в том, чтобы временно подружиться со всеми дальними неприятелями, потому что бороться сразу с несколькими противниками нецелесообразно.

СТРАТЕГИЯ ДНЯ

№23 Объединиться с дальним врагом, чтобы побить ближнего

Важные аспекты этой стратегии:
— альянс, чтобы победить каждого по одиночке

Форматы реализации:
расширения, слияния и поглощения, когда при многосторонней конфронтации спонтанно возникают союзы и сталкиваются интересы разных сторон

Нельзя рассматривать союз с дальним противником как надежную перестраховку. Нужно помнить — далекая вода не тушит близкий пожар.

Сталкивались ли вы на своем месте работы как такую стратегию применяли против вас? Какой вы нашли выход? Как вы можете применить эту стратегию в свою пользу?

Обсуждаем эту и другие стратегии в нашем Телеграм чате @qlikbi_chat →

Открыть чат

ИСТОРИИ КЛИЕНТОВ QLIK

Кейс от «Газпром Нефть»

Газпром Нефть — Российская нефтяная компания. На форуме «Технологии настоящего времени» Александр Шурыгин рассказал про 7-летний опыт работы с Qlik. Приглашаем вас к просмотру видео.

АРТЕФАКТЫ

Для более точного определения вашей стратегии, мы подготовили для вас дополнительные документы-опросники по управлению данными и управлению контентом. Вы можете их скачать и адаптировать под свои задачи.

Также, прикладываем в артефакты методологию DMBOOK на английском языке для тех, кто хочет детально погрузиться в управление данными.

DAMA DMBOOK

Свод знаний по управлению данными. На английском языке.

СКАЧАТЬ

! Данные и управление контентом

Разные виды данных и контента требуют разных видов управления. Чтобы помочь вам определить стандарты, политики и процедуры вашей организации, вам необходимо подготовиться по функциям из этого документа

СКАЧАТЬ

! Данные и аналитика

Каждый спонсор бизнес-направления должен провести опрос своих департаментов, чтобы помочь им определить наиболее важные источники данных, определить технических специалистов и потребности в обучении

СКАЧАТЬ

Сегодня мы увидели схему работы с данными в Qlik, узнали в чем состоят плюсы хранения данных в формате QVD и какими способами можно оптимизировать работу с данными, сделав их быстрыми и оперативными. Получили блок вопросов к размышлению, новую стратегему и несколько полезных документов для адаптации и развития культуры работы с данными в своей компании. Виз виз уррра!

ИТОГИ ДНЯ

datayoga.ru
2020

По любым вопросам – thejump@datayoga.ru