Мы собираем данные из разных видов онлайн-медиа — СМИ, соц. сети, блоги и форумы, сайты с отзывами, мессенджеры и др. Часть источников подключаем целиком (например, СМИ), часть по отдельным каналам, сообществам, авторам, поисковым словам – это в тех случаях, где сложно собрать вообще всё — например, соц. сети, отзовики.
В итоге, формируется база из большого объема данных (собираем около 50 млн новых сообщений ежедневно), как общего характера, так и сфокусированных под конкретную задачу. Например, найти упоминания определенного бренда, продукта, компании. Для того, чтобы получить нужную выборку, в системе формируется поисковый запрос: набор слов с использованием различных логических операторов, которые позволяют сформировать релевантный массив итоговых данных. Можно задавать контекст, стоп-слова, ставить условия для попадания и исключения сообщений. И далее полученную выборку еще фильтровать дополнительно по целому набору параметров — например, тип медиа, источник, автор, вид сообщения, рубрика и др.