title image

Создать портрет пользователя и алгоритм для подавления шумов: задачи партнеров Imaguru Datathon (Upd.)

В пятницу в стартап-хабе Imaguru пройдет дататон — хакатон, помогающий решить проблемы бизнеса с помощью data science и big data techniques. Компании-партнеры сформулировали задачи и предоставили свои датасеты. Участники должны будут решить их при поддержке менторов и экспертов Data Science-партнера — компании InData Labs.

Стартап-партнер — PingFin

Задача №1

Кейс: PingFin — приложение для учета финансов, позволяет планировать бюджет и контролировать расходы и доходы в один клик. Но данные транзакций позволяют стартапу определить только явные показатели: количество затрат, баланс карт и др. Для лучшего понимания поведения клиентов необходимы расширенные данные о пользователях — пол, наличие авто, семьи, детей, возможные интересы (спорт, бизнес, красота, культура и др.).

Описание задачи: датасет состоит из 50 000 строк в формате: ID карты, ID пользователя, сумма транзакции, ID банка, дата, описание транзакции, возможная категория, геоданные. ID были захешированы (изменены с сохранением правильного сочетания).

Формальное условие и данные: по имеющимся данным транзакций необходимо разработать алгоритм сегментирования. Цель — составление социально-демографического портрета пользователей. 

Например: выделяется кластер пользователей, которые часто пользуются Uber => вероятно, у них нет личного авто. Сегмент пользователей, которые регулярно делают покупки в магазине «Мила» или «Кравт» => возможно, это женщины и др.

Для обработки данных на входе имеются следующие файлы: PingFin.json — указаны поля: ID карты, ID пользователя, сумма транзакции, ID банка, дата, описание транзакции, возможная категория и геоданные.

Оценка: полученные сегменты могут различаться в зависимости от используемых алгоритмов и искомых взаимосвязей. Партнер хакатона будет оценивать результаты, основываясь на нескольких критериях:

  • наиболее полная сегментация;
  • логичность результатов;
  • нестандартный подход к кластеризации пользователей;
  • сегментация с наибольшим количеством инсайтов. 

Задача №2

Кейс: на основе данных транзакций стартап кластеризует пользователей в зависимости от поведения и показывает предложения от партнеров, основываясь на общем поведении/аномалиях поведения пользователей в кластере.

Описание задачи: для анализа используется датасет из 50 000 строк в формате: ID карты, ID пользователя, сумма транзакции, ID банка, дата, описание транзакции, возможная категория и геоданные. ID захешированы (изменены с сохранением правильного сочетания).

Формальное условие и данные: по данным майских и июньских транзакций пользователей приложения необходимо разработать алгоритм прогнозирования, который позволит предсказывать затраты на каждую категорию (Restaurants, Taxi и проч.) на неделю вперед для каждого пользователя в тестовом наборе данных. 

Например: выделяется пользователь с определенным паттерном поведения и рекуррентными покупками и для него строится прогноз: на следующей неделе, в четверг, пользователь купит товаров на 30 BYN.

Для обработки данных на входе имеются следующие файлы: PingFin.json — указаны поля: ID карты, ID пользователя, сумма транзакции, ID банка, дата, описание транзакции, возможная категория и геоданные.

Оценка: правильность выполнения задания будет определяться по метрике MAE на основе списка ID пользователей, по которым есть данные по июльским транзакциям.

Finance-партнер — BNB Bank

Кейс: есть данные о транзакциях по карточкам, которые отражают потребительское поведение клиентов. Чтобы банк мог формировать адресные и высокоперсонализированные предложения для частных клиентов, важно составить их портрет. В данном контексте портрет клиента представляет собой паттерны/набор потребительских привычек, который позволяет понимать потребности клиентов и разрабатывать продукты/услуги для их удовлетворения.

Задача №1.

Описание задачи: необходимо осуществить кластерный анализ пользователей карточек по любым доступным значимым признакам: 

  • пол; 
  • возраст; 
  • уровень/тип карточки; 
  • объем операций; 
  • частота операций; 
  • доля расходов на авто; 
  • доля расходов на продукты питания; 
  • доля расходов на развлечения/рестораны; 
  • доля безналичного оборота;
  • доля операций за рубежом (ближнее / дальнее зарубежье);
  • доля операций в интернете;
  • доля операций в интернет-банкинге;
  • другое. 

По результатам анализа необходимо представить графически распределение кластеров по наиболее значимым признакам, сделать описание типичного представителя кластера.

Задача №2. 

Описание задачи: необходимо проанализировать наиболее популярные среди пользователей карточек:

  • торговые объекты (торговые сети, гипермаркеты, брендовые магазины, общепит и др.); 
  • автозаправочные станции;
  • онлайн-сервисы;
  • страны/регионы за пределами РБ;
  • банкоматы других банков, в которых клиенты снимают наличные средства;
  • места снятия наличных — геолокацию.

Датасет для обеих задач предоставляется по паролю зарегистрированным участникам. 

Music-партнер — Gismart 

Gismart делает симуляторы игры на гитаре, пианино, барабане и приложение для создания электронной музыки. Общее количество скачиваний — более 300 млн. Месячная аудитория — около 20 млн активных пользователей.

Кейс: во время записи вокала на мобильное устройство в не идеальных акустических условиях присутствуют шумы различной природы и интенсивности. Необходимо максимально избавиться от них.

Типы шумов: 

  • постоянный (фоновый) — монотонный шум, который не изменяется значительно по частоте и громкости во время записи (примеры: отдаленный шум города, работающая вентиляция, системные шумы самих записывающих устройств т.д.);
  • переменный шум — появляется только в некоторые моменты времени (удары по проводу гарнитуры или микрофону, задувание микрофона ветром или дыханием, чужие голоса и т.д.);
  • проникновение инструментальной части песни в вокальную аудиодорожку: когда вокалист поет без наушников (гарнитуры) и помимо голоса микрофон ловит музыку из динамика и посторонние шумы. 

Описание задачи: необходимо устранить из аудиофайла все, кроме основного голоса. Набор данных представляет собой .wav файлы, содержащие вышеописанные дефекты (train and test parts). Для последнего случая также имеются инструментальные аудиодорожки (минуса) без голоса. Участники также могут пользоваться любыми другими данными для обучения.

Технические требования (опционально): 

  • использование языков С, С++, Objective C или Swift;
  • совместимость с iOS-клиентом;
  • Оценка: будет проводиться судейским голосованием по основным критериям — глубина шумов на .wav файле и благозвучность результата.

Game-партнер — Belka Games

Компания Belka Games занимается разработкой и оперированием казуальных игр. Самая популярная игра была установлена более 20 млн раз. Это позволяет предоставить участникам дататона большой массив данных.

Задача посвящена игре в жанре «три в ряд». На старте у игрока — заколдованный город, состоящий из N разных домов. Цель игрока — расколдовать город. Для этого ему потребуется набор ресурсов. Получить их можно, проходя уровни с игровой механикой «три в ряд». Уровни заранее подготовлены и сбалансированы дизайнерами, пользователю выдаются последовательно, в заданном порядке

Для поддержания интереса у игрока и монетизации игры уровни имеют разную сложность. Некоторые — очень сложные, требуют десятки попыток. Чтобы пройти их, от игрока требуются правильные ходы, удача, навыки — чем они выше, тем меньше попыток потребуется, чтобы пройти уровень. Но игрок может повысить вероятность прохождения уровня, купив бонус за внутриигровые/реальные деньги.

Ресурсы «жизни» в игре ограниченны. При каждом поражении снижаются, но с течением времени восстанавливаются. Их тоже можно докупить.

В отличие от других игр подобного жанра, в игре от Belka Games пользователю может быть доступно одновременно более одного уровня. Например уровни от 40-го до 50-го, и пройти он может сначала не 40-й, а 45-й, после чего ему будут доступны уровни 40–44, 46–51

Задача 1.

Кейс: Одна из ключевых задач геймдизайнера — обеспечить интерес игровой механикой. Уровни не должны быть слишком простыми или слишком сложными (для отдельно взятого игрока). Иначе будет неинтересно и игрок уйдет. Но отток участников может происходить и по другим причинам (сеттинг, другие игры, сезонность, плохое настроение и др.). Поэтому важно снизить отток пользователей (из-за слишком сложных уровней).

Например, в конкретный момент игра делает доступным для пользователя уровень X. Есть история действий пользователя до этого момента и данные о поведении остальных игроков. 

Описание задачи: необходимо предсказать вероятность, что игрок по тем или иным причинам никогда не пройдет уровень X (это приводит к уходу из игры). «Никогда» можно заменить на конкретный временной отрезок, после которого уровни проходит незначительное, на ваш выбор, количество игроков.

Предполагается, что есть модель, работающая значительно лучше, чем в среднем по всем пользователям.

Задача 2.

Задача аналогична предыдущей. Необходимо в тот же момент времени (до первой попытки игры в уровень X) предсказать, что игрок совершит платеж, играя в уровень X.

***

Imaguru Datathon пройдет при поддержке Агентства США по международному развитию USAID. Сloud-партнер — компания Microsoft.

Зарегистрироваться на дататон можно здесь.

Фото: imaguru.by

Интересно? Поделитесь с друзьями!
  • 31
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
    31
    Shares

Похожие статьи

Популярное