Алгоритмы Data Mining в сочетании с решениями класса Business Intelligence позволяют выделять самое важное из огромных массивов неструктурированной информации и делают их доступными для бизнес-аналитиков и топ-менеджеров. Насколько полезным может оказаться использование алгоритмов Data Mining в бизнесе, расскажем на конкретных примерах.
- Введение
- Что такое алгоритмы Data Mining?
- Задачи бизнеса
- 3.1. Data Mining для банков
- 3.2. Data Mining для провайдеров
- 3.3. Data Mining для страховых компаний
- Зачем нужны решения класса Business Intelligence?
- Выводы
Введение
В современном мире с каждым годом объем информации увеличивается. На сегодняшний день существует масса теорий, когда произойдет информационный взрыв. Динамика последних лет показывает цикличный рост количества информации и увеличение данных в два раза в течение каждых двух лет. В текущих реалиях компании средних размеров начинают сталкиваться с проблемой обработки большого потока данных, которые к тому же представляют собой довольно разрозненную и неструктурированную информацию. Внедряя системы хранения данных, Hadoop-экосистемы, компании учатся хранить данные, но не получать из них выгоду. В этой статье мы хотели бы ответить на следующие актуальные вопросы: «Что такое алгоритмы Data Mining?», «Какие задачи бизнеса способны решать алгоритмы Data Mining?», «Зачем нужны решения класса Business Intelligence?»
Что такое алгоритмы Data Mining?
Основу алгоритмов Data Mining составляют методы из раздела машинного обучения, такие как решающие деревья, нейросети, временные ряды и линейные модели. Решающие деревья наиболее часто применяются при решении задач классификации, нейросети отвечают за задачи прогнозирования и распознавание образов, анализ временных рядов предназначен для выявления структуры временных рядов и для их прогнозирования, а линейные модели чаще всего применимы для задач регрессии. Также к алгоритмам Data Mining относятся статистические методы, такие как дескриптивный, дисперсионный, факторный анализ. Аналитические методы, использующиеся в технологии Data Mining, – это известные математические алгоритмы. Однако новизной является недавно появившаяся возможность их практического применения для решения конкретных бизнес-задач в современном мире в условиях постоянного роста информационных систем и объемов данных. На рисунке 1 представлена диаграмма, отображающая наиболее популярные и эффективные алгоритмы Data Mining.
Рисунок 1. Алгоритмы DataMining
Задачи бизнеса
Как уже было сказано, объем информации постоянно растет. Тем не менее, бизнес должен учиться взаимодействовать с современными объемами массивов данных, чтобы повышать свою эффективность и быть конкурентоспособным на рынке. В этом разделе мы расскажем о конкретных сценариях применения технологий Data Mining в некоторых сферах бизнеса.
Data Mining для банков
Одной из наиболее обширных областей бизнеса, где актуально применение алгоритмов Data Mining, является банковский сектор. Рассмотрим ряд практических сценариев:
- Удержание клиента / прогнозирование оттока клиентов. Классическая задача бинарной классификации, которая имеет следующую формулировку: «Имея обогащенные исторические данные о транзакциях клиента, необходимо спрогнозировать, покинет ли клиент компанию в ближайший месяц или нет». Можно проецировать задачу на некоторые разрезы: например, банк решил провести акцию по привлечению клиентов — 3 месяца льготного периода. В данной ситуации требуется спрогнозировать, продолжит ли клиент пользоваться услугами на общих условиях или покинет банк.
- Предсказание объема POS-транзакций в следующем месяце для каждого клиента. Задача регрессии, в которой требуется спрогнозировать объем транзакций через POS-терминал для каждого клиента. Решение этой задачи позволяет сегментировать клиентов и заранее планировать и корректировать персональные предложения и новые акции для клиентов.
Data Mining для провайдеров
Провайдеры связи и интернета также являются компаниями, в которых применение алгоритмов Data Mining актуально и эффективно. Ниже представлены некоторые из практических сценариев:
- Предсказание объема трафика и минут разговора в следующем месяце для клиента. Задача регрессии. Располагая информацией об активностях клиента (связь/интернет), можно предсказать объем трафика и минут разговора, а также количество SMS-сообщений в следующем месяце. Например, с помощью алгоритма Data Mining было выявлено, что клиент в следующем месяце превысит норму по своему тарифу. Эта информация позволит заранее предложить корректировки тарифа для клиента.
- Анализ «холодной» базы звонков для выявления потенциально возможных клиентов. Задача классификации. В зависимости от количества звонков, их продолжительности и других известных данных о клиенте возможно классифицировать клиентов на категории по эффективности «холодных» звонков. Полученная информация позволит более качественно осуществлять поиск клиентов, не тратя время на заведомо неуспешные варианты.
Data Mining для страховых компаний
Рассмотрим возможность применения алгоритмов Data Mining в страховых компаниях:
- Прогнозирование проблем в определенных страховых сегментах. Задача классификации. На основании исторических данных об активностях клиента, таких как страхование автомобиля/жизни/дома, наличия страховых выплат возможно спрогнозировать и сегментировать аудиторию. В результате с помощью полученных профилей можно будет корректировать условия страхования и давать оценку «доверия» каждому клиенту.
- Анализ эффективности информирования клиентов. Задача классификации. С помощью исторических данных об использовании телефонной связи для техподдержки, использования смс-сервисов и онлайн-приложений, необходимо классифицировать клиентов на категории, склонные получать информацию через предпочтительный канал связи. Полученные результаты позволят адаптировать информирование и техподдержку клиентов, учитывая их предпочтения в способе получения информации, что качественно улучшит сервис.
Зачем нужны решения класса Business Intelligence?
В предыдущем разделе мы разобрались, насколько полезным может оказаться использование алгоритмов Data Mining в бизнесе. Однако на этапе применения моделей и получения результатов выходной информацией все равно являются «сухие» массивы данных. Прибавим к этому зачастую отсутствие технического бэкграунда у бизнес-аналитиков и топ-менеджеров, которые будут взаимодействовать с выходными данными после алгоритмов Data Mining. Для того чтобы полученную информацию использовать в полной мере, требуются инструменты, которые могут эти данные предобрабатывать и визуализировать. На этом этапе для решения вышеописанных проблем на помощь приходят системы класса решений Business Intelligence.
Business Intelligence — это инструменты по обработке, анализу и визуализации данных, которые, в конечном счете, представляют собой платформу для поддержки принятия управленческих решений. Структура баз данных в таких платформах ориентирована на быструю аналитику данных любых объемов. Хранение же данных происходит в уже предобработанном формате для дальнейшей аналитики. Такой подход дает возможность в реальном времени получать репрезентативные отчеты за любой временной срез. После внедрения решений BI машинные данные принимают совершенно иной вид — огромные массивы данных превращаются в наглядные линейные графики или круговые диаграммы. В таком формате с большими данными могут работать не только профильные инженеры, но и бизнес-аналитики и лица, отвечающие за принятие решений.
Системы бизнес-аналитики позволяют людям, отвечающим за развитие бизнеса, использовать полезные данные, полученные с помощью алгоритмов Data Mining, которые в исходном виде являются бесполезными для топ-менеджмента.
Выводы
Ни для кого не секрет, что технологии развиваются семимильными шагами, следствием чего является увеличение объемов информации. Компании среднего и крупного размера должны понимать это и адаптироваться к работе и взаимодействию с большими данными. Алгоритмы Data Mining в симбиозе с решениями класса Business Intelligence позволяют получать полезные знания из огромных массивов неструктурированной информации и делают их доступными для бизнес-аналитиков, топ-менеджеров и директоров.
Автор благодарит своего коллегу Никиту Андреянова за активное участие в создании статьи.