Давайте знакомиться
ДЕНЬ 00
Про подготовку к работе в Облаках
Сегодня в день 00 мы подготовимся к прыжкам в облачном визуальном пространстве, поймем как применять Yandex DataLens для своих задач, оценим наши ожидания от Марафона, чтобы максимально собранными и настроенными подойти к первому дню. Давайте начнем.
Друзья!

Более 2000 участников решили принять участие в Марафоне. Хочу выразить вам искреннюю благодарность за интерес к нашему продукту для облачной визуализации данных Yandex DataLens.

Мы создаем DataLens с целью сделать аналитику популярной и доступной для всех категорий пользователей. Марафон для нашей команды — возможность улучшить продукт на основе ваших впечатлений.

Прошу вас делиться своим мнением или идеями во время прохождения этапов Марафона, чтобы помочь нам в развитии сервиса и сделать грамотную работу с данными удобной, практичной и интересной.

До встречи в нашем облачном сервисе и успехов в Марафоне!

Роман Колеченков
Руководитель сервиса Yandex DataLens, Yandex.Cloud
Почему вам нужно пробежать этот Марафон?
Мы верим что работа с данными может быть удобной, визуальной и интересной
Мы верим в то, что анализ данных помогает оперативно принимать более взвешенные и важные решения, быстрее получать ответы на вопросы и способствует повышению производительности труда во всех сферах деятельности человека.

Для большого количества людей способность читать и понимать данные все еще остается навыком будущего. Мы хотели бы исправить эту ситуацию в самом ближайшем будущем.

Развитие визуально-аналитического мышления один из самых востребованных навыков современности. Никогда еще человечество не испытывало на себе давление громаднейшего информационного потока. Владея современными инструментами облачной визуализации, вы будете владеть универсальным языком, на котором в ближайшем будущем будет разговаривать каждый.

Только постоянно работая над формированием комьюнити, где каждый из вас будет делиться опытом, умениями и подходами работы с инструментами, мы сможем сформировать новую аналитическую культуру. Культуру, которая открыта для всех и которая позволяет свободно общаться всем специалистам по миру. Давайте же проявим свои лидерские качества в работе с данными.
Этот Марафон — это не просто инструкция к новому инструменту
О формате каждого дня
Мы хотим, чтобы этот Марафон рассматривался вами как возможность узнать новое и расширить свои представления о работе с данными – или же только начать их формировать (это здорово!)
Каждый день марафона посвящен одной или нескольким смежным темам – визуализация, дашборды, вычисления, работа с данными. Мы стараемся обогащать каждый день чем-то действительно интересным.

Первая часть лонгрида – теоретическая, ее можно прочитать с мобильного телефона, находясь в дороге или во время перерывов между основными делами в течение дня.

Вторая часть лонгрида – практическая. На каждый день мы подготовили по одному набору данных (датасету), который предварительно объясняем и рассказываем, что вам нужно с ним сделать.
Преимущество этого Марафона – в гибкости обучения и широте материалов. Каждая тема сопровождается ссылками разного уровня сложности и разной направленности
Каждый лонгрид добавлен на отдельную страницу: Книгу Марафона. Ссылка на Книгу продублирована в подвале каждой страницы и с ее помощью вы можете быстро переходить на любой день программы.
Приглашаем вас в Телеграм чат Марафона
Присоединяйтесь в чат Марафона, где можно будет пообщаться с экспертами сервиса, услышать полезные советы и обменяться мнениями с коллегами по Марафону.

А еще у нас там будет весело.

Ищите по никнейму @YandexDataLens или переходите по кнопке ниже.
Небольшая подготовка к Марафону
Ваши первые шаги
Мы хотим помочь вам и сделать ваш старт легким. Эти несколько шагов очень важно пройти, чтобы получить доступ к функционалу Yandex DataLens.
Для начала работы c DataLens вам достаточно перейти на datalens.yandex.ru и указать учетную запись Яндекс ID. Далее требуется принять условия сервиса и активировать его. После этого можно полноценно пользоваться бесплатным тарифом DataLens!

Если вам потребуются другие, платные сервисы Yandex.Cloud, например, управляемый ClickHouse для хранения и обработки больших объемов данных – вам нужно создать платежный аккаунт. Подробнее здесь.
Для прохождения марафона это не обязательно.
Познакомимся с DataLens уже сейчас
Для облегчения работы, мы хотим показать вам как выстроен процесс работы с данными в DataLens. Поэтому ниже мы приводим иллюстративные примеры для первого погружения. Вы можете просмотреть их сейчас, не повторяя эти действия в DataLens, а, например, вернувшись к ним завтра — для выполнения первой практики.
Интерфейс домашнего экрана
Начнем знакомство с домашнего экрана DataLens → datalens.yandex.ru

В левой части экрана находится боковое меню с объектами, которые доступны для создания и настройки. Отсюда узнаем, что в DataLens есть следующие основные компоненты:
  • подключения
  • датасеты
  • чарты
  • дашборды

Вы уже читали про них немного выше. Это основные элементы рабочего процесса в DataLens.

В нижней части домашнего экрана вы можете найти блок с полезными ссылками – Marketplace, Документация, Поддержка и Тарифы. И если три последних пункта понятны, то про Marketplace мы еще поговорим отдельно. Приоткроем завесу тайны: это очень интересное решение от Yandex.Cloud, позволяющее вам получать уже готовые наборы данных и добавлять их к своему анализу.

Также, вам доступны Примеры – в качестве первого знакомства, вы можете прощелкать один из представленных дашбордов.
Еще одно важное знакомство – с каталогом, который находится в папке Все объекты # в левой части экрана. Это ваша личная папка со всеми объектами DataLens. Все, что вы будете создавать и сохранять, вы сможете в дальнейшем найти в этом окошке.

Кстати, по поводу символа #: таким образом мы решили помечать необходимые ссылки по ходу Марафона, так что если вдруг потеряетесь, просто кликайте на решетку и перейдете в нужное место интерфейса.
Процесс загрузки данных
Вы уже увидели, что процесс работы начинается с подключения, которое потом превращается в датасет.

Создать новое подключение можно прямо с домашнего экрана или из бокового меню, в блоке Подключения #. Мы напишем как именно можно и нужно создавать новые подключения, а вы можете повторить на примере своих данных или выполнить этот процесс уже для первой практики завтра.

Новое подключение можно сделать:
  • из всем знакомого файла CSV
  • из классических БД такие как PostgreSQL, MySQL или MS SQL Server
  • из сервисов Яндекса (Metrica и AppMetrica) – веб-аналитика и аналитика мобильных приложений
  • из открытой СУБД Clickhouse

Загрузим CSV-файл по проектам с сервиса Kickstarter – это краудфандинговая платформа, на которой можно собирать средства на свои концепты и идеи. В выгрузке есть статистика по успешным и провалившимся идеям за десяток лет.
Если хотите потренироваться в загрузке данных...
То вы можете скачать датасет из наших примеров здесь.
Подключения, созданные в определенной папке, наследуют настройки доступа своей папки. Подробнее о доступах и настройке прав мы поговорим в одном из следующих дней Марафона.
Экран создания подключения
Чуть больше про загрузку CSV-файлов
  • Имя подключения может быть произвольным.
  • Кодировка файла может быть utf-8, windows-1251 и utf-8-sig.
  • В качестве разделителей доступны значения ;, , и \t.
  • Если вы выберете Есть заголовок, то DataLens использует первую строку данных в качестве заголовка.
Более подробная инструкция находится здесь.
После подтверждения создания подключения, можно создать датасет.

Существует несколько режимов работы датасета с источниками данных. DataLens может обращаться напрямую в источник данных, или сохранять датасет в собственной базе данных.
Датасет – это набор полей, который DataLens сохраняет на основе источника данных, для которого вы сделали подключение
Экран настройки датасета
На текущем шаге можно настроить датасет. А именно, можно:
  • подключить несколько таблиц
  • настроить названия полей, агрегации и типы данных, добавить описания
  • добавить новые вычисляемые поля на основе текущих
  • настроить тонкий доступ (Row Level Security – об этом поговорим гораздо позднее)
  • выбрать способ работы с датасетом: прямой доступ или материализацию.
При прямом доступе, все запросы к данным исполняются на стороне источника. Это, конечно, нагружает систему-источник и особенно критично для больших объемов данных. Зато, вы всегда видите наиболее актуальные данные на дашборде. При материализации – данные загружаются в базу данных DataLens, поэтому многие запросы выполняются гораздо быстрее, однако есть ограничения по объему датасетов.

Подробнее про материализацию (в том числе и по расписанию) здесь.
Если вы используете в качестве источника данных CSV-файл, DataLens автоматически материализует датасет
Настройки полей датасета
В этом же экране можно переключиться на вкладку настройки полей в датасете. На этом шаге важно убедиться, что все данные загружены и восприняты DataLens корректно.

Тут есть две важные настройки и одна важная концепция. Начнем с концепции.
Концепция полей DataLens
Все поля делятся на Измерения и Показатели.
Измерения – это значения-категории, которые характеризуют данные. Город, Название товара, дата покупки. В интерфейсе показываются зеленым цветом.

Показатели – это числовые значения, к которым применяются агрегации. То есть, показатель это все, что мы можем посчитать: сумма выручки, средний чек заказа, количество переходов. В интерфейсе показываются синим цветом.

Отсюда, мы можем увидеть что измерения – не агрегируются, а показатели – агрегируются, а сумма, среднее и количество – это примеры агрегаций
Синие поля – показатели, зеленые – измерения.
Справа – функции агрегации

Важная настройка № 1.
Агрегация — это особый способ обобщения наших числовых значений. Мы же хотим сделать какие-то выводы из данных и нам не нужно смотреть на каждую строчку в таблице по отдельности. Мы хотим посмотреть на агрегированное значение показателя. Иными словами, нам не нужно смотреть все 10 000 строк по заказам, но мы хотим увидеть просто сумму выручки по этим 10 000 строк. Поэтому, нужно проставить агрегации у полей-показателей.

Вообще, измерения тоже можно агрегировать. Мы не можем посчитать сумму по полю со значениями городов «Москва», «Томск», «Самара» — зато мы можем посчитать их количество. Это тоже будет агрегации.

Виды функций агрегации #

  • Среднее
  • Количество и Количество уникальных — применимо в том числе и для строк
  • Максимум и Минимум
  • Сумма
В DataLens есть целый список функций агрегации, которые выходят далеко за пределы этих базовых видов агрегации, указанных выше. Мы поговорим о них в одном из дней Марафона, но если что вы можете прочитать о них здесь
Важная настройка №2.
Что еще важно? Например, чтобы дата в ваших данных имела тип даты, а финансовые данные с десятичной частью – тип дробного числа.

Поэтому, важно проверить и выставить корректные типы данных для ваших полей.

Имеющиеся типы данных #
  • Строка
  • Целое число и Дробное число
  • Логический (да/нет, 1/0, истина/ложь)
  • Дата, а также Дата и время
  • Геоточка и Геополигон
После того, как вы проставили агрегации и проверили типы данных, датасет можно сохранять и приступать к работе!

Уже завтра мы расскажем про процесс создания визуализаций – чартов – и сделаем первую практическую работу.
Квоты и лимиты
Одно маленькое дополнение
DataLens можно использовать абсолютно бесплатно для своих личных целей или небольших бизнес-задач.

В рамках сервиса DataLens тарифицируются:
  • Количество десятиминутных сессий к источнику данных. Учитываются запросы, которые отправляются из чартов и дашбордов
  • Объем БД для материализованных данных
  • Дополнительные возможности сервиса DataLens
Количество доступных сессий, объем БД материализации и список доступных возможностей определяются ежемесячной подпиской на тариф.
Вы можете выбрать один из следующих тарифов: Бесплатный или Стандарт.

Подробнее о тарифах тут.
DataLens Public
Как сохранять публичные дашборды
Мы пока что только знакомимся с сервисом DataLens, но для того, чтобы вы могли делиться результатами своей работы с друзьями, коллегами и, конечно же, с экспертами Марафона, предлагаем вам узнать о возможности публикации открытых дашбордов с помощью DataLens Public.

С помощью DataLens Public можно предоставить публичный доступ к созданным вами чартам и дашбордам, т.е. любой пользователь может просмотреть опубликованный объект без авторизации, просто как любой доступный сайт.
Публичные дашборды всегда бесплатны и не тарифицируются!
Поделиться самим дашбордом очень легко – когда будете находиться на экране дашборда, просто выберите иконку Поделиться в верхней части интерфейса и включите Доступ по ссылке. Скопируйте ссылку и примените сделанные настройки. Таким образом, если захотите прислать свою работу в чат Марафона, вы можете прислать ее в интерактивном виде, используя Public.

Подробнее тут.
Чуть больше про публикацию в DataLens Public
Для публикации чарта или дашборда в DataLens Public необходимо выполнить следующие условия:
  • Материализовать датасет. После материализации DataLens имеет гарантированный доступ к данным
  • Выдать права публикации на связанные датасеты и подключения. Для этого вам необходимо иметь права доступа Администрирование на эти объекты

Более подробная инструкция находится здесь.
На заминку дня
Уделите 24 минуты и 17 секунд и посмотрите видео с мероприятия about:cloud, чтобы познакомиться с DataLens вместе с Павлом Дубининым
Уделите еще 39 минут и 10 секунд, если хотите посмотреть выступление Романа Колеченкова про возможности DataLens с последней конференции Yandex Scale
Марк:
Это всё? Что теперь?
Датайога:
Отдыхать.
Рома Колеченков позвонит:
Мы создаем DataLens с целью сделать аналитику популярной и доступной для всех категорий пользователей. Марафон для нашей команды — возможность улучшить продукт на основе ваших впечатлений.

Поделитесь своим мнением или идеей, чтобы помочь с развитием