Интерактивность on air
ДЕНЬ 03
Как добавить элементы взаимодействия и сделать дашборд интересным
Усложняем задачу по построению дашбордов и переходим к управляемому повествованию данных. Добавим интерактивность к неструктурированным данным и пробуем построить свои истории на основе данных соцмедиа мониторинга.

Практику сегодня будем строить на работе с отзывами к фильму Кристофера Нолана «Довод». Проведем этапный обзор данных, чтобы увидеть разные аспекты запуска премьеры фильма. Задача практична, отзывы реальные, DataLens настроен на сборку дашборда — полетели в Облако.
Теория дня
Добавление интерактивности и более сложная настройка визуализаций
Селекторы и связи
...или способы добавить дашбордам глубины
Мы уже посмотрели на то, как можно сделать простой дашборд в DataLens. Сегодня разберем способы, благодаря которым пользователи смогут взаимодействовать с данными в чартах, а также как вы можете обеспечить это взаимодействие. Это достигается при помощи Селекторов.

Селектор — это фильтр, который влияет на результаты запросов на связанных с ним виджетах. Иными словами, выбранное в селекторах значение применяется в качестве фильтра к тем визуализациям, с которыми он связан.

Селекторы могут фильтровать текстовые значения категорий и диапазон дат.

Селектор может быть связан с чартом и тогда он фильтрует данные на визуализации. Или же он может быть связан с другим селектором, образуя зависимые фильтры.
Селектор создается в окне редактирования дашборда через кнопку Добавить.
У селекторов и чартов могут быть настроены связи.

Связь определяет влияние селектора на один или несколько чартов, а также на другие селекторы. По умолчанию селекторы связаны с чартами, которые созданы в рамках одного датасета. Селекторы и чарты, которые созданы на базе разных датасетов, также могут быть связаны вручную.

В качестве связи вы можете выбрать существующее поле датасета или создать собственное поле, в котором вручную зададите значения селектора.

Связь позволяет фильтровать значения селекторов и чартов. Например, если вы выберете на дашборде страну в первом селекторе, во втором селекторе ограничится список городов (и наоборот).
По умолчанию, все селекторы в рамках одного датасета друг с другом взаимосвязаны, т.е. выбор значений в одном селекторе обновит список значений в остальных селекторах и повлияет на чарты.
Представим, что у нас есть простой пример дашборда, в котором мы показываем несколько визуализаций по странам и по городам. И есть два селектора – тоже по странам и по городам.

Поведение по умолчанию: выбирая какую-то страну в первом селекторе, DataLens обновляет список городов во втором селекторе, а также обновляет две связанные визуализации – по странам и городам.

Но мы можем настроить поведение элементов дашборда при помощей связей. И сделать так, чтобы оба селектора (Страна и Город) влияли только на одну визуализацию, а вторая оставалась независимой от них.
Тип связи определяет, как будут отфильтрованы значения в селекторах и чартах. Тип задается в окне связей в режиме редактирования дашборда.

Существуют следующие типы связей для пары виджетов:
  • Связь — двухстороннее влияние виджетов друг на друга.
  • Вх.связь — входящее влияние.
  • Исх.связь — исходящее влияние.
  • Игнор — двухстороннее игнорирование виджетами друг друга.
  • Нет связи — отсутствие связи между виджетами из разных датасетов или виджетами, между которыми связь невозможна.
Еще дашборд можно расширить при помощи вкладок. Это аналог отдельных страниц в рамках дашборда. Вкладки позволяют организовать большое количество контента в более удобном виде.

Более того, в режиме просмотра дашборда у вас есть инструмент Оглавления, в котором вы и ваши пользователи смогут быстро перемещаться по вкладкам и по заголовкам внутри одного или нескольких дашбордов. Для навигации добавляйте элементы Заголовок на дашборд.
Создание вкладок возможно и в рамках одного виджета на дашборде. При добавлении чартов вы можете добавить новую вкладку в левой части окна, чтобы совместить два чарта в одном окошке.

Нажмите на изображения ниже, чтобы увеличить их.
Еще советы по дизайну дашбордов
... продолжение советов
Избегать ошибок при проектировании дашбордов можно только благодаря насмотренности и постоянному анализу обратной связи. Поэтому в сегодняшнем дне мы добавим еще несколько советов о том, как сделать дашборды классными.

На самом деле большая часть всего успеха зависит от вашего понимания целей дашборда. Если вы понимаете кто, когда и как будет им пользоваться — считайте, что вы сделаете дашборд эффективно.
Ваша задача — упростить считывание данных. Сделать так, чтобы все было интуитивно понятно. Чтобы у людей не возникало таких вопросов как: А что здесь показано? Это в миллионах или в тысячах? А это за какой период? А к чему относится этот фильтр?

Это процесс для внимательных. Для тех, кто может поставить себя на место «нового» человека и проверить как воспринимается дашборд.
Как выстроить логику дашборда
... и что такое сторифрейминг: английские слова на страже интерактивных историй
Конечно, большая часть дашбордов в бизнесе нацелена на анализ. Цель – создавать дашборды, на которых пользователи ищут ответы на свои вопросы (разной степени определенности). Во время анализа бизнес-дашбордов проводится много итераций и исследований разных сценариев. Такие дашборды обычно используются на постоянной основе, пока не потеряют своей актуальности, и обновляются автоматически с появлением новых данных.
В DataLens мы можем создавать структурированные дашборды, в которых будет поддерживаться интерактивность, обновляемость и доступность данных (не забывая и об их безопасности при необходимости)
Аналитические регулярные дашборды можно противопоставить сторителлингу – формату курируемых законченных историй на основе данных.
Сторителлинг можно перевести с английского как рассказать историю. Этот термин применяется к уже законченному поиску в данных. Например, вы анализировали данные по экологии разных стран, нашли интересные закономерности и паттерны по одной или нескольким странам за определенный период, и теперь хотите представить эти данные в интерактивном формате. По сути, дашборд в этом случае будет выступать в качестве презентации с последовательностью заранее прописанных шагов/слайдов/чартов.

Обычно к моменту создания такого дашборда все ответы уже хорошо известны, а количество итераций для изучения таких данных конечно. Кроме того, данные в основе сторителлинг-работ, как правило, не обновляются, то есть загружены единожды. (Потому что если данные обновятся, то ваша история уже может не «сработать»)
Мы должны вести пользователей от данных и вопросов к решению, ценности и действиям
Если аналитические дашборды лучше выстраивать от наиболее важной информации для принятия решений к деталям и вспомогательным визуализациям, то сторителлинг основывается на более художественном повествовании — от введения в тематику (чаще всего это какой-то объясняющий текст) и постепенного углубления в исследуемую проблему к драматичному, эмоциональному выводу или основной мысли.
Сравнение двух подходов: сторифрейминга и сторителлинга
Практика дня
...посмотрим как сделать более продвинутый дашборд
Описание задачи
Вам нужно будет собрать еще один дашборд на новом источнике данных и ответить на вопросы:
  • Как развивалось количество отзывов по фильму во времени?
  • Какова тональность сообщений?
  • Какой процент позитивных и негативных отзывов?
  • В каком источнике было собрано наибольшее количество отзывов?
Сегодня мы предлагаем попробовать собрать дашборд на основе данных от SemanticForce, которые сделали небольшую выборку отзывов по фильму Кристофера Нолана «Довод».

Данные достаточно интересные! В датасете содержится выгрузка отзывов в диапазоне дат от 31 июля до 12 октября 2020. Отзывы совершенно разных форматов: как полноценные рецензии, так и небольшие комментарии и обсуждения.
Подробнее про сбор данных от SemanticForce
Мы собираем данные из разных видов онлайн-медиа — СМИ, соц. сети, блоги и форумы, сайты с отзывами, мессенджеры и др. Часть источников подключаем целиком (например, СМИ), часть по отдельным каналам, сообществам, авторам, поисковым словам – это в тех случаях, где сложно собрать вообще всё — например, соц. сети, отзовики.

В итоге, формируется база из большого объема данных (собираем около 50 млн новых сообщений ежедневно), как общего характера, так и сфокусированных под конкретную задачу. Например, найти упоминания определенного бренда, продукта, компании. Для того, чтобы получить нужную выборку, в системе формируется поисковый запрос: набор слов с использованием различных логических операторов, которые позволяют сформировать релевантный массив итоговых данных. Можно задавать контекст, стоп-слова, ставить условия для попадания и исключения сообщений. И далее полученную выборку еще фильтровать дополнительно по целому набору параметров — например, тип медиа, источник, автор, вид сообщения, рубрика и др.
Основными полям для анализа будут наиболее показательные категории — Дата публикации, Тип медиа, Рубрики, Источник и Тональность. Тональность определена далеко не по всем сообщениям — система проверяет определенные слова-маркеры и если не может найти подходящих, пропускает и тональность остается пустой. В таких случаях вы увидите пустые строки или NULL-значения.

В тех строчках, где тональность удалось определить, вы встретите одно из трех значений:
  • Сообщение — негатив
  • Сообщение — позитив
  • Сообщение — позитив Сообщение — негатив
Если по первым двум все понятно, то третье значение означает, что в сообщении были как положительные, так и отрицательные маркеры одновременно.
Также, интересна категория Рубрика. Это дополнительные описательные категории, к которым относится то или иное сообщение. Например, если Рубрика — «Эмоции: Благодарность», то автор сообщения испытывает благодарность за просмотр фильма! «CRM: Вопросы» — задает вопрос относительно фильма. «Фактор: Качество картинки» — хвалит или ругает качество изображения/съемки фильма. И так далее.

Имейте в виду, что сообщение может относиться не только к фильму, но, например, к кинотеатру или к киносервису.
Решение от эксперта
Александра Усачева
Эксперт по визуализации данных
Я начала с того, что загрузила данные и подготовила их для дальнейшего анализа. На первом этапе настройки датасета важно упростить себе дальнейшую работу насколько это возможно! Так как одна строка в данных – это одно сообщение, то я в первую очередь продублировала поле ID (сообщения), задав для копии название "Количество сообщений" и поставив агрегацию на Количество. Я также скрыла ненужные мне поля: ParentID и Shares, Likes, Просмотры, Entities, Followers, Друзья, Following – мне они не понадобятся, буду акцентировать весь дашборд только на количестве сообщений.

Создание чартов начала с самого простого — показ динамики. Попробовала сделать общую динамику отзывов, но потом добавила в Цвет тональность и пришла к диаграмме с накоплением. На втором варианте мы видим все, что нужно: и общее число сообщений и их разбивку по тональности. Здесь важно проверить цвета, и при необходимости, поменять их! Ведь положительные отзывы логично помечать зеленым, а отрицательные — красным. Смешанные отзывы можно было бы пометить серым, добавим это в #фичреквест DataLens :-)

Как обычно, нажмите на изображения, чтобы их увеличить.
Дальше решила сделать анализ по основным категориям: источник, тип медиа, тип сообщений.

Здесь все просто. По источникам строим столбчатую диаграмму, столбцы сортируем по убыванию, добавляем подписи. Так как у нас уже есть цветовое кодирование тональности, то где-то еще цвет лучше не использовать – это только запутает. Поэтому, если и добавлять куда-то цвет, то только на чарты с разбивкой по тональности, как на графике с накоплением выше.

Еще важно при большом количестве категорий на столбиковой диаграмме их как-то сократить. Я добавила фильтр на Количество сообщение > 100. Этого достаточно, чтобы оставить наиболее крупные источники в датасете.
Добавим немного разбивки и по тональности – прежде всего общую разбивку всех сообщений, а также детализацию по Факторам.
Соберем дашборд! Добавила заголовки и селекторы, а два чарта по Типу медиа и Типу сообщений объединила при помощи вкладок внутри чарта. Готово!
Еще немножко о фильмах...

Не хотим отпускать тему с фильмами, поэтому предлагаем вам сделать еще один дашборд на тему «Какой фильм выбрать себе на вечер». Если вдруг у вас нет данных с дня 02, можете скачать их ниже. А свое решение такой нетривиальной задачи нам представит наш эксперт Роман!
Решение от эксперта
Роман Бунин
Руководитель команды визуализации данных Yandex.Go
Часто хочется выбрать какой фильм посмотреть на выходных или что-то посоветовать друзьям. На Кинопоиске есть свой поисковик, но было бы классно сделать свой с дополнительными данными и визуализацией и разослать друзьям!

Сделал для себя и друзей такой дашборд в DataLens. Главный элемент на этом дашборде — таблица. Таблица — это отличный инструмент для визуализации, когда пользователю нужно получить конкретное значение. Мне обязательно в этом случае надо получить название фильма и год, иначе не смогу его найти. В таблице быстро и удобно можно отсортировать фильмы по нужному параметру, для начала хорошо подойдёт сортировка по количеству голосов — это значит, что фильм очень популярен и скорее всего его стоит посмотреть.

Уже только одна эта таблица позволяет найти много интересных фильмов, используя фильтры. Но чтобы сделать инструмент более насыщенным, я добавил справа дополнительную информацию. Она позволяет быстрее найти интересный жанр и выбрать его в фильтре, а также оценить средние значения и сравнить с ними выбранный в таблице фильм. Первыми двумя слоями идут фактоиды и спарклайны. Они показывают среднее значение рейтинга и его распределение по фильмам, а также общее кол-во фильмов и распределение по году выпуска.
Дальше идёт этаж, который показывает разбивку по типу — сразу видно, что сериалов меньше, но средний рейтинг больше. Если заинтересовали сериалы — можно выбрать их в селекторе.

В нижем праву углу разбивка по количеству фильмов и рейтингу в разрезе по жанрам. Можно оценить распределение и выбрать интересующий жанр в фильтре. Чтобы в барчартах с жанрами не оставалось некрасивой одной полоски жанра при выборе его в фильтрах, воспользовался функционалом связей и сделал, чтобы фильтр не влиял на барчарты.

Кстати, пока работал с датасетом нашёл забавный факт — есть довольно много фильмов с одинаковым названием. Оставил друзьям такой список на отдельной вкладке дашборда.
Все обсуждения теории и практики дня – в Телеграме!

Ищите по никнейму @YandexDataLens или переходите по кнопке ниже
Вдохновение
... чтобы узнать о том, как рассказывать дата-истории
Для поиска вдохновения в днях нашего Марафона мы решили написать экспертам в области дизайна, работы с данными и их визуализации и услышать ценное мнение по какой-либо теме. Сегодня в эфире – ценные советы по визуализации и журналистике данных.
Надежда Адрианова
Арт-директор сайта экспертно-аналитической информации Econs.online Банка России. Преподаватель Нетологии, НИУ ВШЭ. Куратор выставки «ИЗОСТАТ». Призер Malofiej, HOW Design, Московской Биеннале Дизайна
О важности грамотного оформления визуализаций и дашбордов не говорит только ленивый. Однако на это есть причины: использование визуальных средств может как помочь подать информацию максимально внятно, так и сделать ее совершенно нечитаемой.

Я не буду касаться вопроса выбора правильного способа визуализации в соотвествии с данными и центральной идеей, без этого никуда.

Изучите базовые принципы гештальта. Они просты и понятны, однако невероятно эффективны при визуальной передаче смыслов.

Избегайте «случайных» решений. Все, от выбора цвета отдельного столбика до размера шрифта сноски, должно быть подобрано настолько, насколько позволяет инструмент. Управляйте вниманием с помощью визуальных средств — расставляйте акценты. Визуальное представление неотделимо от смыслов: главное = заметное.

Не усложняйте. Не пытайтесь принудить визуализацию быть интереснее, чем она есть с помощью декоративных элементов или цветового разнообразия. Однако и не упрощайте: при необходимости используйте дополнительные элементы, такие как отсечки, подписи или комментарии для привлечения внимания читателя к основной идее визуализации.

Если очень хочется экспериментировать и искать неожиданные решения, практикуйтесь на дата-арте.
Анастасия Валеева
Руководитель департамента «Журналистика и массовые коммуникации» АУЦА, сооснователь общественного фонда «Школа данных» в Кыргызстане и ментор по дата-журналистике Интерньюс в КР.
Кажется, что понятие «журналистика данных» – это оксюморон. Ты либо журналист, либо аналитик. Но на самом деле данные – это огромный кладезь информации и историй для журналиста, а значит мы не можем себе позволить пройти мимо. Сначала возникают психологические барьеры – есть страх перед математикой или питоном, кажется, что это необъятная сфера, куда входят и визуализация, и статистика, и все языки программирования. Но на самом деле дата-подход проникает практически во все науки и ремесла: и в медицину, и в социологию, и в политологию. Поэтому работа с данными – это просто современный метод в журналистике. И если к этому относиться так, то получится, что с помощью данных вы просто можете лучше делать свою работу – быстрее анализировать документы, находить эксклюзивные истории, создавать увлекательный сторителлинг. Это путь, на котором можно развиваться бесконечно. Поэтому начать не страшно.
Рома Колеченков позвонит:
Мы создаем DataLens с целью сделать аналитику популярной и доступной для всех категорий пользователей. Марафон для нашей команды — возможность улучшить продукт на основе ваших впечатлений.

Поделитесь своим мнением или идеей, чтобы помочь с развитием