title image

«Красавицы» на всем экономят, но много тратят на здоровье. Неожиданные открытия на Imaguru Datathon

В минувшие выходные в стартап-хабе Imaguru прошел хакатон, который получился очень нетипичным: команда Datatonis ради участия специально приехала в Минск из Испании. Ребята из WiseAI приняли вызовы сразу двух партнеров и пытались решить три задачи. Команда 4BD+ состояла из парней 17–19 лет. А команда Smart.net — и вовсе из одного человека (участвовать разрешили в качестве исключения по согласованию с жюри). 

Поработав с датасетами беларусских компаний, участники хакатона обнаружили интересные факты. Например: большинство владельцев премиальных пластиковых карт в Беларуси — женщины 30–35 лет. Возрастная категория 40+ тратит относительно мало денег, зато используют карточку максимального уровня. Больше всего покупок люди совершают по пятницам, а меньше всего — по воскресеньям. Это интересная и полезная информация для партнеров треков. Так что задумка организаторов удалась: провести не просто хакатон, а сделать Practical Data Сhallenge, чтобы технологии решали проблемы бизнеса.

Music-трек 

Партнером этого трека стала компания Gismart, поставившая задачу устранить шумы из аудио-файлов.

Enigma

В качестве датасета команда использовала 14 000 записей, предоставленных компанией. Главной сложностью во время работы было убрать громкие хлопки, так как в записи присутствовали барабаны. Команда справилась с этим, но столкнулась с новой проблемой — эхо и хрипящие звуки. Решить её можно тюнингом модели и использованием других архитектур, пост- и пре-процессингом. Чтобы показать результат, ребята также сделали спектрографическую визуализацию.

WiseAI

Используя нейронную сеть, ребята создали алгоритм для подавления шумов (реализация — серверная в реал-тайме). Решение можно использовать для работы в реальном времени даже на смартфоне и этот вариант, по словам разработчиков, легко встроить в приложение Gismart.

Game-трек

Партнером трека стала Belka Games. Компания предложила две задачи: разработать модель, которая предсказывает, что игрок не пройдет определенный уровень игры и покинет её, и модель, которая прогнозирует, когда участник совершит платеж за возможность играть на определенном уровне. 

Datatonis

Испанская команда работала над прогнозом, когда пользователи покинут игру. Для этого ребята загрузили все данные в Google Big Query и получили метрики KPI (например: среднее время между играми, кто выиграл/проиграл в последней игре, среднее количество попыток на уровень и т.д.). Потом все эти данные они разбили на кластеры и сделали предсказания, используя Scikit-Learn. В конце построили графики посредством популярного инструмента Tableau.

Kaizen

Команда работала с датасетом из 763+ млн записей. Проанализировав данные, ребята обнаружили аномалии (например, нашли дни, когда у одного пользователя может стартовать сразу 100 игр в секунду). В перспективе это не позволило бы обучить нейросеть, поэтому пришлось фильтровать данные.

За хакатон команда создала 10 моделей и смогла получить вероятности прохождения уровня в течение двух недель с точностью 82%.

Startup-трек

Больше всего команд приняли вызов от стартапа PingFin, который поставил две задачи: составить социально-демографический профиль пользователя и разработать алгоритм, позволяющий предсказывать траты в определенных категориях (рестораны, такси и проч.) на неделю вперед. 

WiseAI

Команда участвовала сразу в двух треках. Проанализировав данные PingFin, ребята заключили, что датасет не полностью размечен. Поэтому для кластеризации пользователей около 10 000 записей пришлось дополнить информацией. Это позволило определить портрет клиентов приложения и создать механизм предсказания будущих покупок. Но до конца эту задачу команда не довела ввиду недостаточной разметки данных. Зато разработала алгоритм подбора партнерского предложения для пользователей.

4DB+

Команда, участникам которой 17–19 лет, разрабатывала алгоритм предсказания будущих покупок. Ребята посещали занятия по дизайн-мышлению накануне хакатона и, благодаря им, обнаружили, что более 60% респондентов, опрошенных на улице, совершают покупки циклично. Это открытие подтолкнуло команду создать алгоритм, основанный на цикличности.

По словам участников, они впервые работали с датасетами, поэтому многие идеи не успели реализовать. Но мысли по дальнейшей работе появились: например, использовать даты, важные для пользователей приложения (23 февраля, день рождения, зарплаты и проч.).

А еще, работая с датасетом, команда обнаружила интересный факт: больше всего средств в течение недели пользователи PingFin тратят в пятницу, а меньше всего — в воскресенье.

Smart.net

Эта команда состояла всего из одного человека. Парень задался целью определить вероятность, что клиент что-то купит, скажем, в четверг.

Прототип системы, определяющей будущее поведение пользователей, основан на поведении пользователей из такой же группы (исходя из данных об уровне дохода, наличия автомобиля и др.). Кроме того, парень создал прототип визуализации данных в виде таблиц. Он позволяет гибко задавать категории, локацию и др.

Finance-трек

Партнером этого трека стал BNB Bank, который поставил две задачи: сделать кластерный анализ пользователей пластиковых карт и дать описание типичного представителя кластера, а также проанализировать наиболее популярные среди пользователей карточек локации (торговые сети, брендовые магазины, автостанции и др.). 

Relax. Joy. Pleasure

Команда решила поработать над обеими задачами. В ходе хакатона ребята перевели данные о транзакциях в данные о клиентах, что позволило выделить кластеры. Затем создали датасет с информацией о клиентах, набор базовых трат на основе иерархического классификатора категорий товаров (с этим помогли ученые, входящие в команду) и разработали алгоритм, предсказывающий, кто из пользователей перестанет пользоваться услугами банка. 

Кроме того, они обнаружили категории людей, заинтересованных в приобретении определенных товаров. То есть банк мог бы предлагать таким клиентам программы, созданные совместно с партнерами. 

Участники отметили хорошее качество данных, на основе которых можно вычленить и другие факты, и даже определить, сколько именно пользователей могут уйти из банка.

Vizuatica

Команда работала с задачей, связанной с обнаружением паттернов поведения клиентов. Но в какой-то момент ребята обнаружили некоторые аномалии, поэтому сменили курс и попробовали найти новое бизнес-решение для банка.

Используя методологию mapping experience и так наз. «визуальную семиотику данных» (фреймворк разработала сама команда), ребята создали инструмент визуальной сегментации. Благодаря нему представитель банка может сам выделять кластеры, сортировать клиентов, выделять нужные поля и создавать карточный продукт. То есть работать адресно: заметив, что в определенной группе много людей пользуются Uber или рассчитываются в Play Market, давать им скидки. Это поможет удержать клиентов. Итог работы на хакатоне — пластиковая карта Vision, которая аккумулирует все эти возможности.

Самым сильным вызовом для команды стала «необходимость пересилить себя»: перейти от технического челленджа — к созданию бизнес-решения.

Counters

Команда сделала кластерный анализ клиентов по полу, типам карт и среднему возрасту. Благодаря этому ребята обнаружили, что большинство клиентов банка пользуются не премиальными картами. Средний возраст — 40 лет. В середине каждого месяца, в момент начисления зарплаты, женщины снимают практически всю сумму — по мнению хакатонщиков, банку стоит обратить на это внимание.

Интересны наблюдения о премиальных картах. Чаще всего они используются для снятия наличности или получения переводов. Большинство пользователей — женщины 30–35 лет. Но есть два владельца, которым 15 и 17 лет.

Еще хакатонщики обнаружили забавные аномалии. Например, женщину пенсионного возраста (тоже владелицу премиальной карты), которая переводила большую сумму денег, находясь на Кипре.

В ответ на бурную эмоциональную реакцию присутствующих представитель  BNB Bank отметил, что у банков часты ситуации, когда премиальный клиент заказывает премиальную карту своим родственникам. Большую транзакцию также можно объяснить.

Big Bang

Команда сделала статистический анализ и заметила зависимость среднего значения транзакции от дороговизны карты. Проанализировав корреляцию между такими параметрами как затраты на жилье и еду, команда обнаружила, что чем больше люди тратят на жилье, тем меньше у них остается денег на еду. В то же время клиенты, которые много расходуют на здоровье, так же много тратят на еду, одежду и обувь.

Далее, используя машинное обучение (датасет включал 2 млн записей и 30 000 пользователей), ребята выделили ряд кластеров. Кластер, включающий людей 36+, тратит больше всех по любой из категорий — жилье, еда, развлечения и др. Возрастная категория 40+ (ребята назвали её Rich Passive) тратят меньше денег, зато используют карточку максимального уровня.

Еще одна категория пользователей, которую команда ласково назвала «Красавицы и Красавчики», на все тратит практически в два раза меньше денег. Но на здоровье — больше, чем другие пользователи. По мнению команды, это интересный кластер, которому можно предлагать тематические услуги (партнерские программы с частными клиниками и др.).

Итоги

Из четырех участников, решивших поучаствовать в finance-треке, больше всех представителям BNB Bank понравилось решение команды Big Bang. Приз — Imaguru Invest Package на $500.

Победитель game-трека — команда Kaizen. Приз — Imaguru Tech Package от Belka Games на $500.

По мнению фаундера PingFin Юлии Локотковой, все участники, принявшие вызов, достойны признания. «Но мы как стартап были жесткими, потому что это важно для стартапа, — считает Юлия. — Или вы будете жесткими и самокритичными, или никогда не вырастете из команды на хакатоне — в компанию. А это важный и интересный путь». Поэтому PingFin дал всем командам срок в неделю доделать задачи и побороться за приз $500. Победитель, чье решение PingFin сможет внедрить, станет известен в пятницу.

Кроме того, фаундер стартапа выделила участников других треков — команды WizeAI, 4DB+, Smart.net, Relax. Joy. Pleasure — и вручила им презенты на память.

Компания Appodeal, партнер трека creative solution, выделила команду Relax. Joy. Pleasure. Приз — Imaguru PR Package на $500. 

У представителей Gismart не получилось присутствовать на хакатоне. Поэтому участники, участвовавшие в music-треке, презентуют свои решения в офисе компании Gismart. Предполагается, что победитель и приз станут известны в течение недели.

Комментарий жюри

Сергей Кадомский, эксперт в области анализа данных, основатель сообщества DataTalks, комментируя итоги хакатона, отметил, что еще лет 5 назад сложно было представить подобное мероприятие. «Когда мы начинали говорить об анализе данных, людей практически не было. Я рад, что сейчас и на конференцию, и на хакатон можно собрать 50–100 человек. Не останавливайтесь! В Facebook есть сообщество Data Talks. Пока оно не очень активно. Но, возможно, станет активным благодаря вам», — отметил Сергей.

Роман Меркулов, Data Scientist компании InData Labs, поблагодарил участников хакатона, которые приняли вызов от Gismart. С его точки зрения, это очень нетривиальные задачи с более высоким порогом вхождения.

А также поблагодарил партнеров хакатона, которые предоставили данные. К сожалению, у представителей беларусского бизнеса часто здесь серьезный барьер — поделиться своими данными.

UPD. Победителем music-трека компания Gismart признала команду Enigma.

Фото: Глеб Соколовский.

Интересно? Поделитесь с друзьями!
  •  
  •  
  • 2
  •  
  •  
  •  
  •  
  •  
  •  
    2
    Shares

Похожие статьи

Популярное