Богатство данных
ДЕНЬ 06
Как разнообразить свои источники данных
Обсудим более сложные темы подготовки и обогащения данных. Поймем как решать эти сложные задачи с помощью партнерских инструментов DataLens. Множественность источников данных при проведении аналитики сегодня – норма работы, и мы рассмотрим как эффективно выстраивать работу в таких кейсах, дополнительно добавляя информационные слои к нашей истории.

Еще никогда качество данных в визуальной аналитике не было так востребовано, поэтому мы уделим внимание этому аспекту, добавив советов от наших экспертов и партнеров Марафона.
Теория дня
...обогащение данных, соединение нескольких источников, партнерские датасеты
Зачем нужно объединять данные?
Что такое joins?
Очень часто нужные вам данные могут храниться в разных файлах или таблицах.

Обычно данные разделяют на логические отдельные таблицы для удобства их сбора и хранения: например, в одной таблице находятся данные по продажам магазина (что купили, когда купили, на какую сумму), а в другой таблице — справочник по имеющимся товарам с указанием его наименования, цены, веса, категории, производителя… При таком подходе ко сбору данных, вы минимизируете сложности их обработки. Однако, для полноценного анализа и получения «полной картинки», такие таблицы можно и нужно объединять при помощи джойнов (joins).
INNER JOIN

/ Внутреннее
Внутреннее соединение — Inner Join — самый распространённый тип соединений. Внутреннее соединение просто находит пары строк, которые соединяются и удовлетворяют условию сравнения.

В результате этого джойна получится таблица только с теми строчками, которые совпали по заданному условию.
FULL JOIN

/ Полное внешнее
Полное внешнее соединение — Full Join — вернет все данные из обеих таблиц. Однако, полнота строк будет разной. Там, где условие-предикат выполнится, данные по строке будут полными, а там, где данные не подойдут, будут проставлены NULL значения.
LEFT JOIN

/ Левое
Левое внешнее соединение — Left Join — соединение, при котором таблица слева (обычно, подключаемая первой) будет базовой и в ней останутся все строки. Правая таблица «отдаст» в результирующую только те строки, которые соответствуют условию-предикату. Строки, которые не нашли себе пары не будут добавлены в результирующую таблицу.
RIGHT JOIN

/ Правое
Правое внешнее соединение — Right Join — здесь базовой таблицей выбирается правая. Это значит, что в таблице справа останутся все строки, а левая таблица «отдаст» только те строки, которые соответствуют условию-предикату. Строки, которые не нашли себе пары не будут добавлены в результирующую таблицу. Используется гораздо реже левого соединения, так как по сути, является его зеркальным отражением, но менее удобным.
Какой тип объединения выбирать для вашей задачи — решать вам. Вы должны понимать структуру каждой таблицы, которую хотите объединить, ее уровень детализации и особенности показателей. Важно избежать дублирования ключевых цифр
Как соединять несколько источников в DataLens
Объединение таблиц на уровне датасета
Посмотрим на возможности DataLens по объединению источников данных.

Джойны в DataLens доступны на этапе настройки датасета. Вы можете проделать следующие шаги вместе с этим текстом, если подключитесь к примеру данных из Clickhouse – подключение было создано автоматически при активации вашего DataLens. Найдите его в списке подключений.
Сэмпл содержит большое количество таблиц с автоматически-сгенерированным данными по продажам магазина. В качестве основной таблицы можно взять таблицу samples.MS_SalesFacts, а в качестве дополнительной для объединения — таблицу samples.MS_Products.

Для объединения этих таблиц, добавьте их на область по середине рабочего экрана. DataLens автоматически проставит связь между ними, т.к. найдет поле, имеющееся в двух таблицах и совпадающее по название и типу. Вы можете зайти в настройки этой связи, если кликните на символ двух связанных кружочков.
Внутри вы увидите уже знакомые вам символы четырех способов объединения пары таблиц — внутренний джойн, внешний, левый и правый. Под наименованием каждой таблицы будет поле, используемое сейчас для связи. Самый базовый способ объединения таблиц — наличие общего идентификатора (id) и строгое условие равенства между ними.
Если вы перейдете на вкладку Поля в верхнем левом углу экрана, вы увидите уже знакомый интерфейс списка полей, в котором доступны все стандартные функции настройки. Однако, обратите внимание — так как вы получили одну большую новую таблицу, в которую собираются поля из нескольких, то в колонке Источник поля вы увидите и название исходной таблицы, откуда это поле было взято.
Поздравляем! Вы сделали объединение таблиц! Теперь вы можете работать с таким объединенным датасетом как и с любым другим — строить чарты, фильтровать, создавать дашборды.

Посмотрим на еще один способ объединения данных, но уже на уровне чарта.
Как объединять источники на чарте
Для создания совмещенных диаграмм
Имея два уже настроенных датасета, мы можем объединить их не на уровне источника данных, а на уровне нового чарта. В этом случае, мы физически не будем создавать из двух таблиц одну большую общую таблицу, как это было при join-ах в способе выше. Вместо этого, мы укажем DataLens ключевые поля, которые совпадают в двух выбранных источниках, и зададим условия для выгрузки данных.

Посмотрим на процесс такого объединения на примере двух открытых датасетов по индексу самоизоляции и данным по погоде.

Объединение происходит на уровне чарта, который вы начинаете создавать на основе любого из нужных вам датасетов. Добавьте второй датасет по клику на название уже имеющегося: откроется окно настройки связей.
Связи – это такие же поля-условия, по которым связываются два источника. DataLens выбирает связи автоматически, по названию поля. Однако, вы можете поменять текущие связи, удалить их или добавить новые.

Лучше всего прописывать максимально широкий список полей для связи.

Те поля, которые вы отметили как связующие, будут помечены на панели данных в чарте специальным символом.
Далее, вы просто собираете чарт в том виде, в котором вам это необходимо! При объединении датасетов на уровне чарта, вы можете добавлять в чарт только те измерения, которые участвуют в связях, а также любые показатели.

На графике ниже мы добавили данные по индексу самоизоляции по Москве, а также среднюю температуру по Москве в те же даты с начала марта 2020.
Еще один частый пример объединения данных из разных источников — это объединение чартов из разных датасетов на одном дашборде. Один из самых популярных и наглядных примеров сейчас — дашборд по анализу статистики covid-19.

В эти несколько дашбордов, данные поступают из трех разных источников: от Johns Hopkins University с данными по миру, от стопкоронавирус.рф с данными по России и от Яндекс — по самоизоляции.
Кстати, два набора данных из примера выше – по индексу самоизоляции и погоде – вам тоже могут быть доступны благодаря инструменту Marketplace. О нем и поговорим дальше.
Yandex Cloud Marketplace
Для обогащения ваших данных
Yandex Cloud Marketplace — это специальная площадка, в которой собраны программные продукты и наборы данных от партнеров Yandex.Cloud.
Marketplace содержит два больших раздела: программные продукты на базе виртуальных машин Yandex.Cloud и готовые решения для анализа данных в DataLens.
В разделе Виртуальных машин представлены например, образы с предустановленными операционными системами, инструментами для разработчиков, системами управления сайтами и СУБД.

В разделе Анализ данных собираются решения и продукты для использования в DataLens: датасеты (наборы данных), геослои (наборы данных с фокусом на геоаналитику), коннекторы (подключения в внешним системам, например — к 1С через ДашбордКоннектор) и темплейты (шаблоны отчетов, которые можно применять на своих данных).
Вы можете добавлять к себе в каталог DataLens как бесплатные наборы данных и геослои (это будет в нашей Практике сегодня), так и оформлять себе подписки на платные коммерческие данные и коннекторы. Изучайте Marketplace!
Если вы работаете в компании, которая может делиться бесплатно (что здорово) или продавать свои данные – вы можете стать партнером Marketplace и разместить там свою услугу, сервис или датасет.

Оформить заявку на партнерство с Marketplace можно здесь.
Бонус: как обрабатывать источники данных с помощью Loginom
Сырые данные почти всегда необходимо подготовить перед тем как визуализировать: связать, очистить, предобработать, обогатить. Эта работа занимает до 80% рабочего времени любого аналитика, поэтому её нельзя игнорировать. Loginom – это low-code платформа, позволяющая бизнес-экспертам самостоятельно, без программирования, выполнить весь цикл работ по подготовке данных и загрузке в DataLens для построения дашбордов и удобной визуализации.
Алексей Арустамов, директор и сооснователь Loginom Company
Сейчас коннектор DataLens к Loginom находится в статусе Preview. Если вам интересно попробовать коннектор и поработать с ним — напишите об этом в чате Марафона в Телеграме (@YandexDataLens) и мы расскажем вам как принять участие в его beta-тестировании!
Хорошо если данные для визуализации уже есть, а что если их ещё нужно подготовить? Удалить дублирующиеся или ошибочные записи, избавиться от выбросов, заполнить пропуски или исключить записи с пропущенными значениями. Один из вариантов решения такой задачи — использовать аналитическую платформу Loginom, которая позволяет в визуальном конструкторе настроить все необходимые преобразования данных, а затем передать результат в DataLens для визуализации. Возможности Loginom намного шире, чем подготовка данных, но об этом мы поговорим в другой раз.

Для того, чтобы передать обработанные данные из Loginom в DataLens, нужно создать специальное подключение на стороне DataLens и скопировать его настройки. Поверх этого подключения можно формировать датасеты и визуализировать их точно также, как если бы вы получали данные из базы данных. На стороне Loginom подключение настраивается примерно также, как экспорт в базу данных: достаточно прописать параметры доступа, указать настройки экспорта и указать наименование таблицы подключения, в которую нужно отправлять данные. Экспорт в DataLens работает с любой редакцией Loginom, в том числе с бесплатной — Loginom CE.
Друзья! Наш Марафон близится к завершению. А ваше мнение важно для нас. Расскажите о своих впечатлениях по Марафону в форме ниже.
Поделитесь впечатлениями

Будем рады принять ваши комментарии по качеству, формату, наполнению и проведению этого Марафона, чтобы сделать следующий лучше.
Практика дня
... объединяем два геослоя и делаем супер-карту
Сегодня мы поработаем с данными из Marketplace. Нас интересует раздел с уже готовыми и поддерживающимися геослоями: посмотрим на геослой «Организации: спрос и предложение» и «Аудитория: интересы и соцдем» от Яндекс.
Добавьте их к себе в директорию DataLens через синюю кнопку Подключить, доступной по ссылкам выше. Источники будут добавлены в папку Покупки / Purchases.
Итак, какие данные содержатся в встроенных дашбордах и подключениях.

→ ОРГАНИЗАЦИИ. СПРОС И ПРЕДЛОЖЕНИЕ
Здесь мы найдем геослои с отображением показателей спроса и предложения организаций по рубрикам интереса.

Спрос показывает, где пользователи сервисов Яндекс ищут организации или услуги на карте. Данные основаны из геопоиска сервисов Яндекс. В датасете содержатся рубрики интересов, которые определяются из поискового запроса. Учитываются запросы с радиусом поиска менее 3 км.

Предложение показывает количество существующих организаций на карте, на основании данных организаций из Яндекс.Справочника. Рубрика предложения определяется из карточки организации. География предложения — расположение организации.

И спрос и предложение имеют одинаковый список рубрик интересов: аптеки, банкоматы, центры досуга и спорта, заправки и так далее.

Соответственно, можно посчитать показатель «Спрос на предложение», чтобы оценить насколько текущий спрос на карте покрывается предложением.

Дашборд на примере ниже автоматически добавляется в ваш каталог DataLens вместе с подключением, датасетом и чартами.
→ АУДИТОРИЯ. ИНТЕРЕСЫ И СОЦДЕМ
Здесь мы увидим геослои с аналитикой аудитории: интересов, пола, категорий возраста и дохода. Учитываются регулярные координаты пользователей сервисов Яндекс за последние 45 дней. Построено на базе технологий Яндекс.Аудитории и Яндекс.Крипта.

Для каждого пользователя берется TOP-10 локаций (например, работа, дом, торговый центр) по времени нахождения, затем по локациям всех пользователей считаются агрегации для полигонов. Новые данные обладают большим весом при расчетах.

Соцдем данные содержат разбивку по полу, категории возраста и категории дохода.
Фильтры категории дохода, описаны в предлагаемом дашборде:
A — низкий;
B1 — ниже среднего;
B2 — немного выше среднего;
C1 — выше среднего;
C2 — значительно выше среднего.


Список интересов достаточно широкий, вы можете прочитать полный перечень на странице описания набора данных здесь.

Дашборд на примере ниже автоматически добавляется в ваш каталог DataLens вместе с подключением, датасетом и чартами.
Описание задачи
Вам нужно будет объединить два предлагаемых источника данных на карте, используя знания из сегодняшнего дня и дня 04 по работе с гео-слоями

А именно:
  • Изучите готовые дашборды, которые добавляются в DataLens вместе с бесплатным приобретением наборов геослоев
  • Найдите интересные для себя сегменты интересов для изучения: интересно выглядят АЗС, Аптеки, Службы доставки еды, Кофейни, Авто-услуги. Используйте фильтры для определения характеристик аудитории.
  • Сделайте свою карту по выбранному городу, на которую вы добавите два разных геослоя из двух разных источников данных и придите к выводу: где вам стоит открыть новую точку/новый филиал по выбранной категории.
Решение от эксперта
Александра Усачева
Эксперт по визуализации данных
Ставлю себя на место владельца небольшой сети семейных кофеен. Допустим, я хочу понять, где мне открыть новую небольшую точку. Мне нужно узнать интересы аудитории и востребованность новой кофейни в том или ином районе. Но Москва – большой город. Будем использовать данные.

Начну знакомство с имеющимися данными с дашборда по Аудитории. Поставлю фильтры по городу Москве, Возрасту от 25 до 44 лет и с доходом выше среднего (категории B2, C1, C2).

Конечно, высталвяю интерес «кофейни». Тип полигонов выбрала поменьше — hash7. Это полигоны, которые определяются системой геоиндексирования H3, мы рассматривали этот подход в дне 04.

Смотрим на карту относительного интереса. Этот показатель представляет собой отношение соцдема с выбранным интересом к общему соцдему. Т.е., чем выше число, тем выше интерес в этой области на карте по отношению к соседним областям.

На такой карте я могу выделить четыре группы точек с наибольшим интересом: это центр Москвы, юго-запад, пара районов на западе и Новая Москва.
Теперь перейдем на второй дашборд: количество организаций на карте. Здесь достаточно только выбрать город и рубрику организаций и поисковых запросов. Также выбираю рубрику Кофейни и тот же тип полигонов на карте.

Смотрю на метрику Спрос на предложение на город. Эта метрика показывает, насколько предложение покрывает спрос в полигоне относительно всего города.

Если показатель...
  • Меньше 1 — район пресыщен предложением,
  • Больше 1 — район недостаточно обеспечен,
  • Около 1 — примерно равен среднему по городу.
Видно, что явного пресыщения спроса и предложения в искомых районах нет. Решила посмотреть на своей собственной карте как обстоят дела – начала с данных по организациям.

Добавила первый слой Геополигонов по рубрике Кофейня в Москве. (Здесь важно добавить фильтр в Фильтры Слоя, а не в Общие фильтры). В цвет – показатель спроса на предложения на город. Поставила двухцветную палитру, ограничив диапазон значений от 1 до 3. Т.е., все области, где значения показателя меньше или близки к 1 (а значит спрос там удовлетворяется) – меня не интересуют. Мне интересны те области, где соотношение спроса на предложение от 3 и выше – там серьезная нехватка кофеен.
На второй слой я добавила данные по аудитории. При этом, я ограничила слой по нужному Интересу, Доходу и Возрасту.
Я также добавила в явном виде фильтр по показателю Относительного интереса, поставив выбор — больше 15%. Таким образом, я отсекаю все области города, где относительный интерес к кофейням недостаточно высок.
Накладываем два фильтра друг на друга – прозрачность у первого ставлю меньше, а палитру цветов у второго, наоборот, выбираю поярче. Моя теория о нехватке кофеен в районах на западе и на юго-западе Москвы подтверждена! Новая Москва тоже нуждается в местах для кофейного отдыха, но доступность и инфраструктура в новых районах пока сильно проигрывает обжитым районам запада и юго-запада Москвы.
Поставщики данных в Marketplace могут ограничивать возможность публикации своих данных. Поэтому, полученными чартами поделиться по открытой ссылке в DataLens Public без авторизации не получится — чтобы отправить ссылку коллеге или партнеру нужно сначала добавить его учетную запись в Yandex.Cloud. Как это сделать написано здесь и в будущем дне 07.
Все обсуждения теории и практики дня – в Телеграме!

Ищите по никнейму @YandexDataLens или переходите по кнопке ниже
Вдохновение
... чтобы знать, где право и лево в таблицах данных
Для поиска вдохновения в днях нашего Марафона мы решили написать экспертам в области дизайна, работы с данными и их визуализации и услышать ценное мнение по какой-либо теме. Сегодня – советы про качество данных.
Мансур Кадимов
Управляющий партнёр, Reshape Analytics
Инвестируйте в качество данных
Занимаясь аналитикой данных, будьте критичны к тому, что у вас на входе и что на выходе. Как правило, качество входных данных при более глубоком погружении оказывается хуже ваших первых впечатлений.

Инвестируйте свои ресурсы в поддержание актуальности и автоматический контроль качества данных. Сделайте с самого начала как надо, иначе затем переделывать всё будет намного сложнее. Начинайте с простого, такого, в чем сами разбираетесь хорошо, чтоб ни в коем случае не разочаровать пользователя сложностью своего решения или еще хуже – ошибками. В аналитике важнее как и почему вы получили результат, чем что вы непосредственно сделали.

Аналитика она как история, а вы рассказчик. Вовлекайте слушателя в повествование, в исследования, в разработку. Тогда, шаг за шагом вместе с пользователем, вы получите на порядок более глубокий и применимый результат, чем если бы вы работали в одиночку.
Добавляем в сегодняшний день советы и для тех, кто хочет больше разбираться в эстетике и визуальном представлении данных.
Александр Богачев
Специалист по визуализации данных, инфографике и дата-журналистике
Автор книги «Графики, которые убеждают всех»
Всё, что не работает на передачу сообщения в визуализации данных — мешает. Особенно это актуально в бизнес-визуализации.
Эстетика для графика важна только в той мере, в какой она помогает решить вашу задачу. Не бывает красивого и хорошего графика самого по себе, в отрыве от его задачи.
Для графика всегда нужно выбирать как можно меньше цветов, насколько это возможно. Для донесения сообщения в графике обычно достаточно 1−2 тонов и их оттенков плюс нескольких оттенков серого. Человек с трудом сможет различить больше 5−6 цветов, а расставить акценты в таком случае будет практически невозможно.
Рома Колеченков позвонит:
Мы создаем DataLens с целью сделать аналитику популярной и доступной для всех категорий пользователей. Марафон для нашей команды — возможность улучшить продукт на основе ваших впечатлений.

Поделитесь своим мнением или идеей, чтобы помочь с развитием