В мире бум big data. Медиа то и дело рассказывают, как одна компания с помощью аналитики данных увеличила средний чек на 40%, а другая — продлила «срок жизни» клиента в 3 раза. Многие компании хотели бы внедрить технологии сбора и анализа информации в свой бизнес, но не знают, как. Денис Пирштук и Денис Дусь, эксперты по «большим данным» из компании InData Labs, поделились с BEL.BIZ советами, как грамотно организовать работу с big data для развития бизнеса.
Чтобы собирать данные, нужна стратегия
Многие клиенты приходят к нам с просьбами «у нас есть -адцать терабайт данных, помогите ими воспользоваться». Мы объясняем, что это не панацея и копить информацию нужно с умом, стратегия «собирать всё подряд» чаще всего не приносит пользы.
Каждый год объём собираемых в мире данных растёт примерно на 30%, причём с 2006 года количество информации увеличилось в 30 раз. У компаний, которые смогли извлечь пользу из больших данных, была хорошая стратегия: какую информацию собирать, как её хранить и использовать в дальнейшем.
Очень много данных хранится в социальных медиа, это 25% всех интернет-данных. Причём это неструктурированные данные — как правило, тексты, которые могут содержать в себе что угодно. Такие объёмы невозможно полностью анализировать вручную, нужны методы и средства автоматизации. Вначале стоит собрать данные и автоматически их предобработать — провести сентиментальный анализ, извлечь именованные сущности (имена собственные), определить тематику высказывания и т.д. Специалист на основе предобработанных данных может составлять отчёты для руководства, которые помогают принимать бизнес-решения и вносить изменения в продукт.
Сейчас мы обращаем особое внимание на обработку изображений — люди в соцсетях рассказывают о себе очень много. Instagram обычного человека может отражать его жизненные предпочтения целиком: где бывает, что ест, с кем общается. Таких данных огромное количество, и они никак не структурированы — извлечение подобной информации может помочь во многих сферах, например, в таргетинге рекламы.
Процессы сбора и анализа больших данных меняются. Сейчас нужно создавать модели, которые улавливают сложные закономерности, но при этом масштабируются на сумасшедшие аудитории в миллион или десять миллионов активных пользователей. Это требует математической базы и глубоких знаний программной инженерии — так как данных стало намного больше, плохо написанный код попросту не работает.
При этом нужно различать сайентистов-аналитиков и сайентистов-разработчиков со знанием машинного обучения. Рынок ищет людей, которые умеют глубоко анализировать данные, и при этом у них есть сильные инженерные навыки. За них борются самые известные компании, ведь такие специалисты создают самообучающиеся алгоритмы, которые одновременно выявляют огромное количество закономерностей.
Однако нельзя создать универсальный решатель, пока что все реальные приложения — это слабый искусственный интеллект, алгоритм, который направлен на конкретную задачу. Та же Siri состоит из цепочки слабых ИИ, которые могут, например, показать курс валют или найти что-либо в интернете. Беспилотный автомобиль включает в себя множество моделей, которые обучены рассчитывать дорогу и расстояние до ближайшей преграды, предугадывать наличие дорожных знаков.
Но в силу того, что каждая модель лишь слабый искусственный интеллект, то работы у самих дата-сайентистов пока на много лет вперед. Создание и внедрение действительно инновационных решений требует много аналитических, математических и технических навыков. Люди должны исследовать данные, проектировать алгоритмы и писать программы, подав в которые данные, на выходе получат обученную предсказательную модель — слабый искусственный интеллект.
Когда данных несколько десятков или сотен гигабайт, они разрозненные и неструктурированные, можно использовать deep learning (глубокое машинное обучение) — способ, который помогает прямо из сырых данных извлечь какие-то знания. Он работает следующим образом: на входе сырые данные, на выходе целевая переменная, которую хотим предсказать. Далее строится End-To-End система, в которой человек участвует минимально, влияя, в основном, лишь на структуру нейронной сети и параметры её обучения. Она вычислительно сложная, но позволяет обрабатывать те данные, с которыми раньше было работать невозможно — в частности, тексты, видео, изображения.
Мы задействуем deep learning при работе с многомерными разреженными временными рядами, где очень сложно искать зависимости, т.к. такие ряды чаще всего не попадают ни под какие известные математические модели. Они не стационарны, очень вариативны и зачастую имеют очень нетривиальные периодические составляющие. Это единственный способ извлечь полезную информацию за минимально короткий срок. В целом, разумное использование одновременно классического и глубокого машинного обучения даёт хороший результат.
Денис Дусь
В Data Science важен индивидуальный подход
Дата-сайентист дорабатывает классические алгоритмы под конкретную сложную задачу, когда нужно получить максимально точный результат. Big data успешно используется в медицине: анализируются научные публикации, данные из медцентров, карточки пациентов. На их основе создается база похожих симптомов и болезней — это помогает врачу впоследствии подобрать правильное лечение.
Анализ данных способен решать классические бизнес-задачи. Самые распространённые задачи неамбициозные, и так или иначе сводятся к сегментации клиентской базы и выбору правильной стратегии работы с ними. Основная цель таких задач — глубже понимать аудиторию. Можно предсказывать отток клиентов и на основе этого делать вывод, снизится уровень потребления или прекратится вовсе. Популярно создание рекомендательных сервисов — данные помогают построить модель коллаборативной фильтрации, которая показывает пользователю индивидуальные рекомендации.
Лучший пример использования больших данных — реклама. Рынок кардинально изменился, на смену билбордам и телевидению пришла персонализированная интернет-реклама. Здесь учитывается огромное количество знаний о пользователе, а плата рассчитывается не за показы, а за количество кликов на объявление, картинку или баннер.
Важно индивидуально подходить к решению задач с помощью больших данных. Бывает, что продуктовые data-driven-компании (особенно стартапы) «копируют» друг друга и предоставляют схожие решения одних и тех же проблем — это неправильно. Да, на растущем рынке даже при такой “тактике” вполне можно выжить. Но копировать друг у друга неразумно — лучше искать новые ниши или привносить принципиально новый функционал.
Шифрование данных — современная дилемма
Сейчас можно сделать так, что никто, кроме самого человека, не сможет получить доступ к его данным. Но всегда остается человеческий фактор — хакеры не подбирают пароли, они используют уязвимости. Создать устойчивую к взлому систему теоретически просто. С математической точки зрения надёжность применяемых средств ограничения доступа и шифрования прекрасна.
Эксперты спорят, какие данные этично использовать для анализа и улучшения сервисов (в том числе, предоставляя их третьим лицам), а какие нет. Для научно-технического прогресса нужно работать с большим количеством информации, а любое ограничение мешает достичь прогресса.
С другой стороны, продвигается концепция, которая выступает за полную приватность, когда получить информацию (например, чужую переписку) невозможно за счет end-to-end шифрования.
Возникает противоречие: если надёжно зашифровать всю передаваемую в интернете информацию, то затруднится борьба с преступностью, со шпионажем и терроризмом. Необходимо искать компромисс — защищать персональные данные о каждом конкретном человеке и его личности, но использовать информацию в обобщенной форме для того же технического прогресса.
Денис Пирштук
В Беларуси культура сбора и анализа big data только зарождается
Всё больше беларусских компаний обращает внимание на инструменты big data, хотя мы и отстаём от многих стран в этом вопросе. Вероятно, это обусловлено тем, что в Беларуси меньше рынок и объём инвестиций в экспериментальные технологии — внедряется то, что уже широко распространено в других странах.
Нам, как консалтинговой компании, выгодно сотрудничать с классическим бизнесом, так как решения в данной сфере более-менее похожи друг на друга. Понятно, что делать, когда нужно внедрять сегментацию клиентов, персонализацию, рекомендательные сервисы. Каждый клиент получает персональное решение, но при этом одни и те же знания используются сотрудниками консалтинговых компаний многократно. Это экономически эффективно — новые проекты внедряются быстрее.
Работа со стартапом, в большинстве случаев, — это кропотливо и индивидуально. Как правило, стартапы не располагают большими объёмами информации. InData Labs консультирует все проекты, но работает только с теми, у которых достаточно данных.
Главное, чтобы он мог собрать нужные данные — при этом проект может быть совсем молодым. Бывает, что к нам приходит достаточно опытная команда из специфической сферы, где информацию достать сложно — например, финансы и страхование. В этом случае, мы можем только консультировать: как собрать big data или найти партнёра, который её предоставит.
Из белорусских стартапов мы работаем с трекером женского здоровья Flo. Среди продуктов подобной категории это самое популярное приложение в США и второе по популярности в мире.
Flo пришли к нам уже не на нулевой стадии — у них была аудитория из 2-3 млн пользователей, которые активно делились данными. Этой базы сполна хватило для того, чтобы построить ИИ, который анализирует информацию и даёт женщинам полезные советы.
***
Денис Пирштук и Денис Дусь будут менторами на Imaguru Datathon 25-30 июля 2017 года.
Imaguru Datathon — это площадка для решения конкретных проблем компаний с помощью data science and big data techniques. Компании-партнеры выставляют задачи и datasets для участников и решают их вместе в течение недели с менторской поддержкой экспертов