Комплексный метод анализа и прогнозирования лояльности абонентов на основе технологии машинного обучения

Подробнее
Текстовая версия:

РЕФЕРАТ

Выпускная работа: 100 страниц, 11 иллюстраций, 27 таблиц, 52 источников;

Цель работы – повышение эффективности обнаружение факторов да закономерностей с статистических наборов данных, которые влияют на решение абонента прекратить пользоваться услугами оператора мобильного связи.

В результате исследование были рассмотрены такие методы машинного обучение как: ассоциативные правила, деревья решений и bagging. Проанализировано входящие данные от одного с крупнейших операторов мобильного связи. Предложен сценарий бизнес процесса для определения оттока абонентов от оператору мобильного связи за помощью комплекса методов машинного обучение. Получены факторы, что больше всего влияют на отток абонентов мобильного оператора и параметры об абонентах, которые могут отказаться от услуг оператора мобильного связи.

ТЕЛЕКОМ ОПЕРАТОР, ОТТЕК, МАШИННОЕ УЧЕНИЕ, БИЗНЕС АНАЛИЗ, БОЛЬШИЕ ДАННЫЕ.

СОДЕРЖАНИЕ

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ

CART ROC

CHAID

Classification and Regression Tree Receiver operating characteristic

Chi-square Automatic Interaction Detector

NoSQL

Only SQL

СУБД

Система управление базами данных

TP

True Positives

TN

True Negatives

FN

False Negatives

FP

False Positives

MNP

Mobile Номер Портативность

ВВЕДЕНИЕ

Актуальность темы. Телекоммуникационный сектор стал одним из основных отраслей промышленности развитых стран. Каждый год провайдеры телекоммуникационных услуг терпят убытки из-за оттока абонентов. При таком состоянии рынка телекоммуникационных услуг, одной из главных проблем компаний-операторов является отток клиентов. В этом конкурентному рынку клиенты предпочитают высокое качество по меньшей цене, в тот время как провайдеры сосредоточены над созданием выгодных предложений. Привлечение новых клиентов стоит в несколько раз дороже содержания старых. Телеком операторы заинтересованы в придания качественных услуг большой количества абонентов. Для этого оператор должен анализировать обширные данные, чтобы выяснить причины неудовлетворенности абонентов и улучшать качество предоставляемых услуг. Это делает проблему отток абонентов особенно актуальной для изучение.

Технический прогресс и растуще количество операторов повысили уровень конкуренции. Компании упорно работают над тем, чтобы выжить на этом конкурентном рынке в зависимости от нескольких стратегий. Для получения больших доходов предложены основные стратегии: (1) приобрести новых клиентов, (2) продать существующих клиентов да (3) увеличить срок содержание клиентов. Однако сравнение этих стратегий с учетом стоимости рентабельности инвестиций каждой из них показало, что третья стратегия есть наиболее профильной стратегией. Это свидетельствует о то, что содержание существующего заказчика услуг стоит гораздо ниже, чем привлечение нового.

Для применения третьей стратегии компаниям нужно влиять на следующее явление, известное как "перемещение клиента от одного поставщика к другому". Отток клиентов вызывает значительную озабоченность в секторах услуг с высокой конкуренцией. С другой стороны, прогнозирование клиентов, которые, вероятно, покинут компанию, представляющую потенциально большой дополнительный источник дохода, если это будет сделано на ранней фазе.

Много исследований подтвердили, что методы машинного обучение да анализа данных очень эффективные для прогнозирование этой ситуации. Эта методика применяется за помощью методов обнаружение паттернов или причинноследственных связей в поведении абонентов на основе исторических данную

Цель и задачи исследование . Целью работы есть повышение эффективности обнаружение факторов да закономерностей с статистических наборов данных, которые влияют на решение абонента прекратить пользоваться услугами оператора мобильной связи.

Для достижение цели исследование было поставлено да решено такие основные

задачи :

Объект исследования – процесс оттока клиентов от оператора мобильного связи.

Предмет исследования – методы статистического анализа больших данных, а именно: метод деревья решений, ассоциативных правил да bagging.

Научная новизна полученных результатов. Научной новизной работы является комплексный метод предсказание отток абонентов, какой сочетает в себе несколько методов машинного обучения и позволяет определить закономерности и факторы, которые больше всего влияют на отток для того, чтобы эффективно минимизировать количество абонентов, которые нет довольны услугами телеком оператора.

Наиболее существенные научные результаты

Практическое значение полученных результатов.

Публикации. Основные результаты работы опубликованы в 1 статье в научных профессиональных изданиях, 1 доклад в работах международных конференций, 2 в тезисах докладов в работах всеукраинских конференций, всего в 4 научных протечках.

РАЗДЕЛ 1

BIG DATA И ТЕЛЕКОММУНИКАЦИОННЫЙ СЕКТОР

на сегодняшний день телекоммуникационная компания, какая обслуживает на принципе предоплаты 8 миллионов подписчиков услуг мобильной связи, генерирует примерно 30 миллионов записей о звонки (CDR). Есть, к 11 миллиардов ежегодно. Если этот же оператор предоставляет еще и услуги мобильного связи на постоплатной основе, а также услуги фиксированной связи, то генерируется еще больший объем данных[5].

Аналитики компании IBS «весь мировой объем данных» оценили такими величинами:

2003 г. - 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов)

2008 г. - 0,18 зеттобайта (1 ЗБ = 1024 эксабайта)

2015 г. - больше 6,5 зеттабайтов

2020 г. - 40–44 зеттобайта (прогноз)

2025 г. - этот объем увеличивается еще у 10 раз.

Сегодня или данные доступны в форме актуальной информации в режиме реального времени. Это разрешает телеком-компаниям в режиме реального времени реагировать на поведенческие изменения в мышлении клиентов. Это также помогает реагировать на опасности, связанные с конкуренцией на рынке. Телеком – это сектор экономики, в которому Big Data (большие Данные) выиграют битву с традиционными инструментами для проведение бизнес-анализа.

Большие Данные (Big Data) – это набор чрезвычайно больших объемов данных, которые невозможно обработать, используя традиционные инструменты, но которые полезны для развития бизнеса или обществу. Вот три критерии для больших данных: огромный объем, высокая скорость (постоянное и быстрое генерирование данных с дальнейшей быстрой обработкой) и большая разнообразие (информация поступает с разных источников в структурированной и / или неструктурированным форме). Данные собираются, обрабатываются и анализируются в режиме пакетной обработки или в

виде потоков данных в режиме реального времени для получение полезной информации рядом заинтересованных сторон[2].

Big Data превратилась в стратегический актив телекоммуникационной отрасли. Благодаря наличии доступа к больших данных отрасль телекоммуникаций, по сущности, имеет важную информацию, позволяющую получать капитализацию, используя или ценные массивы данных.

Большие данные полезны телекоммуникационной отрасли для удержания абонентов; сегментации клиентов; оптимизации сети, планирование, а также возможности дополнительных / перекрестных продаж.

Основные задачи, которые стоят перед телеком оператором:

Удобство для клиентов - это ключ к поддержки дифференциации рынке и снижение отток. Используя анализ, телекоммуникационные компании оптимизируют и улучшают качество обслуживание клиентов. Также использование Big Data дает провайдерам всестороннее представление о клиентов. Это понимание компании используют для микросегментации абонентской базы и формирование целевого и привлекательного подхода к обслуживание клиентов. Данные анализа также используются для составления рекомендаций, а кроме того – для прогнозирования и принятие необходимых решений для предотвращение отток пользователей[1].

Проведя анализ таких характеристик, как модели поведения пользователей, данные о выставленных счетах, запросах на поддержку, истории покупок, преимуществах в плане обслуживание, демографическая информация, место расположение и т.д., телекоммуникационные компании предлагают продукты и услуги на индивидуальной основе. Это также разрешает компаниям активно представлять нужную предложение в нужный время - а также в правильном контексте и правильным клиентам, что повысит коэффициент конверсии. Например – предложение планов пополнение или рекомендации по дополнительным пакетом услуг на основе использование Big Data[3].

Отток клиентов влияет на состояние телекоммуникационной отрасли. Анализ Больших данных помогает объединить разные моменты, связанные с данным, - качество обслуживание, качество работы сети, производительность, информацию о выставление счетов подписчикам, сведения о звонках в сервисные центры, а также настроения пользователей социальных сетей. Это создает модели для прогнозирование да принятие мероприятий для предотвращение отток клиентов.

Используя данные анализа, проведенного в режиме реального времени и отображает карту жизненного пути пользователя, телекоммуникационные компании формируют точечные предложения и превращают заинтересованных лиц в клиентов. Такой данные, как демографическая информация о клиентов, покупательную поведение, цепочка

«кликов» мышкой в сочетании с такими атрибутами, как местоположение и преимущества относительно контента используются для создание новых выгодных предложений. Это приносит пользу компаниям, так как те создают картину. взаимодействия с конкретными клиентами на разных этапах жизненного цикла для продвижение индивидуальных предложений и организации рекламных компаний.

Используя Big Data, телекоммуникационные компании создают инструменты для проведение анализа, прогнозирование да изучение информации, чтобы заранее обнаруживать и устранять проблемы. Кроме того оператор может предоставить решение проблемы, прежде нож да коснется клиента. Провайдеры также создали и запустили специализированных ботов, через которых клиенты могут напрямую задавать вопросы и получать ответы. Компании помогают в активном устранению проблем, прежде нож те сделают отрицательный влияние на работу абонентов[10].

В телекоммуникационном секторе сеть - жизненно важный ресурс. Также важна емкость сети. Для мониторинга да управление пропускной способностью сети, построения прогнозируемых моделей пропускной способности и использование этих моделей при планировании расширение сети телекоммуникационный сектор начал использовать аналитику Big Data[15].

Используя данные, демонстрирующие корреляцию между использованием сети и пропускной способностью сети, телекоммуникационные компании обнаруживают участки с высокой загруженностью, где использование сети приближается к предельного значение пропускной способности. Такой анализ полезный при планировании расширения емкости сети.

В регионах, где наблюдается наличие избыточной пропускной способности сети, телекоммуникационные компании организуют специальные кампании или рекламные акции, направленные на увеличение использования ресурсов сети. на основе анализа данных и трафика, получаемых в режиме реального времени, могут быть разработаны модели прогнозирования пропускной способности. На основе анализа данных, собранных путем сравнение фактического и прогнозируемого трафика, провайдеры могут планировать добавление в сеть дополнительной емкости в случае сбоев. Эти данные также могут помочь при обнаружении зоны сброса вызова и прогнозировании соответствующего положение башен сотовой связи[12].

Телекоммуникационным компаниям необходимо планировать инвестиции на основе ряда параметров Таких как будущие потребности в подключении, стратегические цели, прогнозируемая рентабельность инвестиций, прогнозируемый трафик, качество обслуживание клиентов. Эффективное сочетание данных о трафик сети, показателях качества обслуживание клиентов, потенциального прибыли и местонахождение в сочетании с данным о ценности клиента обеспечивают наиболее эффективное использование инвестиций

Раньше сектор телекоммуникаций зависел от исторических данных для управление сетью. Теперь компании, работающие в телеком-секторе, начали использовать Big Data, а также инструменты проведение анализа для постройки

горячих карт использования емкости в реальном времени, отслеживающих качество взаимодействия с пользователем и отправляют оповещение в случае перегрузка сети или потенциальных сбоев. Анализ Больших данных помогает постоянно отслеживать сетевую активность и прогнозировать будущий спрос[14]. Кроме того, используя данные, получаемые в реальном времени с башен сотового связи, инженеры способны отследить снижение качества предоставляемых услуг определенном месте.

Телекоммуникационный сектор использует анализ Big Data для операций, связанных с управлением компаниями[25]. В частности, для таких операций, как минимизация оттока абонентов, управление сетью и кибербезопасность, а также для решение проблем клиентов и снижение рисков, что возникают под время пользование услугой.

Для предотвращение утечки доходов и мошенничество в этой сфере телекоммуникационные компании также используют решения на основе Больших данных. Эти решения помогают анализировать как структурированные, да и неструктурированные данные. Этот анализ помогает компаниям лучше понимать поведение клиентов.

Телекоммуникационная отрасль уделяет внимание сетевой безопасности. Для постройки сетей используются оптические волокна, и в этом случае возникают проблемы, связанные с утечкой информации[35]. Относящиеся данные к этим опасностям, анализируются оператором в режиме реального времени, что снижает риски, обнаруживает инциденты и разрешает реагировать в нарушение.

Телекоммуникационные компании получают доступ к информации о местонахождение абонента, использование сетью и устройствами, о преимуществах пользователя и т.д. Эта информация используется для создания статистики, какая важна для других предприятий[4].

Анализ информации. Телекоммуникационный сектор начал предоставлять информацию, полученную в результате анализа данных, как услуги для других секторов экономики. Для такого анализа создано много приложений и разных сценариев.

Анализ IoT / M2M. Телекоммуникационные компании начали предоставлять комплексные решение категории M2M (machine-to-machine или межмашинной взаимодействия). С обзора на постоянное рост в сети количества устройств категории Интернет вещей (IoT), сетевая аналитика трафика IoT-датчиков становится следующей областью проведение исследований[7]. Теперь телеком-операторы получили возможность добавление к поточным данным геолокационные и геопространственные элементы, в конечному итогу предоставляя ценную информацию для вертикалей предприятия.

Телеком-операторы практически перманентно взаимодействуют со своими абонентами через смартфоны, ставшие неразрывной частью жизни любой человека. Именно поэтому телекомы имеют наиболее полный профиль клиента, на основе которого можно создавать прогностические и рекомендательные услуги. Данные сервисы можно выгодно монетизировать, заключая сотрудничество с банками, ритейлом и даже государством[9].

Для монетизации компании могут использовать геолокационные данные, которые играют чрезвычайно важную роль в транспорте: управление пассажиропотоком, прогнозирование спроса на билеты, оптимизация маршрутов и расписания транспортных средств.

Эти задачи могут быть решены с помощью машинного обучения на основе данных о передвижение абонентов.

Поскольку данные сохраняются на кластеры, для работы с ими нужна особая инфраструктура. Самая популярная экосистема – это Hadoop. В ней может работать очень много разных систем: специальных библиотек, планировщиков, инструментов для машинного обучения и многое другое[17]. Но в первую очередь эта система нужна, чтобы анализировать большие объемы данных за счет распределенных вычислений.

К примеру, мы ищем самый популярный твит среди данных разбитых на тысячи серверов. на одному сервере мы б просто сделали таблицу и все [28]. Здесь мы можем привлечь все данные к себе и перечислить. Но это не правильно, поэтому что очень долго.

Поэтому есть Hadoop с парадигмами Map Reduce и фреймворком Spark. Вместо этого того, чтобы тянуть данные к себя, они отправляют к этих данных участки программы. Работа идет параллельно, в тысячу потоков. Затем выходит выборка из тысячи серверов на основе которой можно выбрать самый популярный твит [36].

Map Reduce старее парадигма, Spark - новее. С его помощью достают данные с кластеров, и в нем же строят модели машинного обучение.

Опираясь на определение Big Data, можно сформулировать основные принципы работы с такими данными [54]:

Горизонтальная масштабируемость. Поскольку нету ограничений на объем информации, система обработки и хранение больших данных должна быть расширяемого: со увеличением объема данных необходимо пропорционально улучшать аппаратную конфигурацию системы.

Отказоустойчивость. Возможные выходы из строя оборудования не должны делать существенного влияния на методы работы с большими данными.

Локальность данных. При использовании больших распределенных систем нужно соответственно множество вычислительных машин. И если физически данные расположены на одному сервере, а обработка выполняется на другому, то это приводит к увеличение затрат, что превышают временем расходы на саму обработку данных. Поэтому одним с важнейших принципов проектирование Big Data- решений есть принцип локальности данных – по возможности обрабатываем данные на той же машине, на какой их сохраняем.

Сегодня в многих отраслях внедряют машинное обучение для автоматизации бизнес-процессов и модернизации экономической сферы. Концепция предполагает обучение и управление искусственным интеллектом (ШИ) за помощью специальных алгоритмов Они учат систему на основе открытых данных или полученного опыта[22]. Впоследствии такое приложение способно прогнозировать развитие событий без явного программирование человеком и часов израсходованных на написание кода.

Например, с помощью машинного обучения можно создать алгоритм технического анализа акций и предполагаемых цен на них. Используя регрессионный и прогнозный анализы, статистическое моделирование да анализа действий, эксперты создают программы, которые рассчитывают время выгодных покупок на фондовом рынке [11]. Они анализируют открытые данные с бирж и предлагают наиболее вероятно развитие событий.

При работе с Большими данным машинное обучение выполняет подобное функцию: специальные программы анализируют значительные объемы информации без вмешательство человека. Все, что нужно от оператора «научить» алгоритм отбирать полезные данные, необходимые компании для оптимизации процессов. Благодаря При этом аналитики составляют отчеты по несколько щелчков мыши, высвобождая свое время и ресурсы для более производительных задач: обработки результатов и Поиск наиболее эффективных стратегий [43].

В динамичном мире, где ожидания клиентов все выше, а человеческие ресурсы все ценнее, машинное обучение и наука о данных играют решающую роль в развития компании. Цифровая технологизация рабочего процесса жизненно необходима для сохранение лидирующих позиций в конкурентном среде [50].

Также для обработки больших данных применяется MapReduce – это модель распределенной обработки данных, предложена компанией Google для обработки больших объемов данных на компьютерных кластерах.

MapReduce предполагает, что данные организованы в виде некоторых записей.

Обработка данных происходит в 3 стадии [31]:

Стадия Map . на этой стадии данные предобрабативаются за помощью функции map(), которую определяет пользователь. Работа этой стадии заключается в переработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирование - пользовательская функция применяется к каждой входного отрезка. Функция map() применена к одной входной записи и выдает множество пар ключ-значений. Множество - то есть может выдать только одну запись, может нет выдать Ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключи и в значении - решать пользователю, но ключ - очень важна дело, да как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

Стадия Shuffle . Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина отвечает одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

Стадия Reduce . Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на Вход функции reduce (). Функция reduce сдается пользователем и вычисляет финальный результат для отдельной "корзины". Множество всех значений, возвращенных функцией reduce(), являются финальным результатом MapReduce- Задача [24].

На сегодняшний день существуют четыре важных аспекта применения больших данных: сами данные, аналитика, Люди, инструменты. Можно выделить структурированные и неструктурированные данные, и в том и другом виде данных можно выделить данные, сгенерированы человеком и сгенерированы машиной (компьютерами, датчиками и т.д.)[38].

Существует целый ряд проблем в области больших данных, в частности [45]:

ради самих данных, увлеченность специалистов новыми технологиями ради самих технологий в отрыве от реальной практики нет решает поставленных задач.

Выводы

В разделе рассмотрено, что телекоммуникационные операторы работают с сверхбольшими данными. Большие объемы информации генерируются во время работы телекоммуникационной сети и содержат в себе разнородную да неструктурированную информацию.

Телекоммуникационные компании сталкиваются с проблемой обработки больших данных, которые обусловлены слабой структурированностью, недостаточной систематизированностью, разнородностью и слабосвязанностью информации. Для того, чтобы эффективно обрабатывать большие данные нужно совершенствовать методы аналитической обработки информации

Для усовершенствования существующих систем аналитической обработки информации в работе предлагается применять методы машинного обучение.

РАЗДЕЛ 2

АНАЛИЗ УЛУЧШЕНИЯ ВЫЧИСЛИТЕЛЬНЫХ ПРОЦЕССОВ ДЛЯ РЕШЕНИЕ ЗАДАЧА ПОВЫШЕНИЕ ЭФФЕКТИВНОСТЬ ДЕЯТЕЛЬНОСТИ

ТЕЛЕКОМ ОПЕРАТОРА

Бизнес-анализ - это деятельность, какая разрешает внедрять изменения в компании путем определение потребностей и рекомендации решений, которые обеспечивают ценность для заинтересованных лиц.

Такой анализ позволяет компании определить потребности и обосновать изменения, а также разработать и описать решения, которые могут принести пользу. Бизнес-анализ проводится в разных инициативах в рамках компании. Это могут быть стратегические, тактические, или оперативные инициативы[18].

Анализ требований может осуществляться в рамках проекта или в ходе развития компании. Его применяют, чтобы понять текущий состояние, определить будущее состояние, а также определить действия, необходимые для перехода от текущего состояния к будущего.

Существуют разные точки зрения на бизнес-анализ: гибкие методологии, интеллектуальный анализ данных, информационные технологии, архитектура бизнеса и управление бизнес-процессами. Любую точку зрения можно рассматривать как призму, через которую бизнес-аналитик рассматривает свою рабочую деятельность, находясь при этом в определенном контексте[29].

Бизнес-анализ включает в себя понимание того, как организации действуют для достижение своих целей и определение возможностей, необходимых организации для предоставление продуктов и услуг внешним заинтересованным сторонам. Он включает в себя определение целей организации, как или цели соотносятся с задачами, определение курса действий, какие меры организация должна принять для достижения этих целей и задач, а также определение способа взаимодействия разных подразделений организации и заинтересованных сторон в рамках и поза этой организации.

Бизнес-анализ может быть выполнен для понимание текущего состояния организации или служить в качестве основы для дальнейшей идентификации потребностей бизнеса. Однако, в большинстве случаев бизнес-анализ выполняется для определения и проверки решений, которые отвечают потребностям бизнеса, целям или задачам[13].

Одобрение решение невозможно безотносительно к конкретной ситуации. Одной из составляющих контекста есть особенности, индивидуальность организации и заинтересованных лиц (в т.ч. убеждения, культура, стереотипы, стандарты компании да др.). Бизнес-аналитик при выборе способов работы, конкретных методик, разработке решений опирается не только на методологии, но и специфику компании и личный опыт. К примеру, в одних компаниях процесс бизнес-анализа может быть формализован, стандартизирован, подписан ключевыми заинтересованными лицами (повышая обязательство всех сторон), а в других носить меньше формальный характер. Подходы к планирование варьируются от прогнозных (возводят к минимума неопределенность и максимизирует контроль) к адаптивных (рассчитанных на короткие итерации). Выбор того или другого подхода зависит, как от возможности определить будущее заранее, так и отношения заинтересованных лиц к неопределенности и контроля [30].

Центральная концептуально модель по бизнес-анализа (BACCM) - это концептуальный фреймворк для бизнес-анализа. Модель включает в себя объяснение что такое бизнес-анализ и что модель означает для тех, кто выполняет задачи по бизнес-анализу, независимо от взглядов (ракурсов) на бизнес-анализ, отрасли, методологии или уровня управления в организации Модель состоит из шести сроков, которые имеют общее значение для всех бизнес-аналитиков и помогает им обсуждать бизнес-анализ и его отношения с общепринятой терминологией. Каждый из этих сроков есть частью центральной концепции.

Шесть ключевых концепций в модели BACCM:

Каждая ключевая концепция - это идея, какая содержит основное значение для практики бизнес-анализа, а также все концепции уровни и необходимы. Каждая центральная концепция определяется другими пятью ключевыми концепциями и нет могут быть полностью понятными до тех пор, пока нет раскрыты все ключевые концепции. Нет существует единой концепции, какая содержит в себе большую важность или большей значимости в сравнить с любой другой концепции. Или концепции играют важную роль в понимании типа информации , оказывающейся над которой проводится анализ или какой управляют в рамках задач по бизнес-анализа [48]. Ключевые концепции могут быть использованы бизнес-аналитиками для того,

чтобы рассмотреть качество и полноту проделанной работы. В каждой области знаний есть примеры того, как ключевые концепции могут быть использованы и / или применяться в ходьбе выполняемых задач в рамках отраслей знаний.

Для бизнес анализа используется следующая схема классификации данных, какая описывает требования [53]:

Обнаружение, анализ, утверждение и управление требованиями неоднократно признавались в качества ключевых мероприятий по бизнес-анализа. Тем нет меньше, важно признать, что бизнес-аналитики также несут ответственность за определение дизайна на определенном уровни в инициативе. Уровень ответственности за дизайн меняется в зависимости от перспективы (ракурса), с которыми работает бизнес- аналитик [40].

Требования сфокусированы на потребностях, дизайн сфокусированный на решении. Различия между требованиями и дизайном не всегда очевидны. Те же методы используются для обнаружение, моделирование да анализа Требования подводят к дизайна, который в свою очередь может потребовать исследования и анализ дополнительных требований. Различия очень незначительны.

Классификация требований и дизайна может стать менее значимой по мере того, как бизнес-аналитик продвигается в понимании потребности и дальнейшего ее удовольствие.

Трассировка требований или указание и моделирование требований могут относиться к самих требований, но внимание также следует уделить и дизайна [37].

Бизнес-анализ может быть сложным и рекурсивным. Требование (или набор требований) могут быть использованы для определение дизайн. Дизайн может использоваться для выявления дополнительных требований, используемых для определение подробных дизайнов. Бизнес-аналитик может передавать требования и дизайны другим заинтересованным сторонам, которые могут подробнее обработать дизайны. Будь то бизнес-аналитик или другая роль, какая завершает разработку дизайнов, бизнес-аналитик часто рассматривает окончательные дизайны для того, чтобы убедиться что они отвечают требованиям. В следующей таблице приведены некоторые основные примеры того, как информация может рассматриваться в качества требования или дизайн.

Для управления изменениями требований сегодня наиболее часто применяется подход, сформулирован американским программным инженером и ИТ-консультантом Карлом Вигерсом. Основное содержание подхода К. Вигерса сформулировано в его книге «Разработка требований к программному обеспечение»[30].

При создании ИС выделяются два виды требований: функциональные и нефункциональные. Вигсрс выделяет три виды функциональных требований [8]:

Также формирование пользовательских требований может вестись на основе ключевых ролей, которые будут использоваться для работы ИС. Возможности каждой роли, будь то «Клиент», «Инвестор», «Партнер» и др., Будут отличаться в дальнейшем;

Но, как показала практика, одних только функциональных требований к ИС недостаточно, поскольку созданная только на их основе ИС не будет удовлетворять всем требованиям бизнеса В этой связи К. Вигерс выделяет три вида нефункциональных. требований к ИС [20]:

Бизнес-аналитик – это любое лицо, выполняющее задачи бизнес-анализа независимо от своей должности или организационной роли. Бизнес-аналитик отвечает за обнаружение, обобщение да анализ информации с разных источников в рамках компании, в поэтому числе: инструментов, процессов, документации, а также заинтересованных лиц[16].

Бизнес-аналитик отвечает за обнаружение реальных потребностей заинтересованных человек (что часто включает в себя анализ и прояснение высказываемых пожеланий) для того, чтобы определить основные Задача да выявить мотивы.

Бизнес-аналитики берут активную участие в поэтому, чтобы спроектированное и реализовано решение соотносилось с потребностями заинтересованных лиц[27]. Обычно деятельность бизнес-аналитиков включает в себя:

Когда бизнес-аналитиков не было, требования моги готовить сам заказчик. Но нет всегда это получалось быстро и качественно: у представителей крупных компаний тоже не хватало ресурсов, времени и знаний, чтобы создавать документы для программистов. Часто из-за плохо подготовленных документов сроки релизов срывались, а это не нравилось нет заказчикам, нет исполнителям[23]. Появились бизнес-аналитики, и благодаря им процесс сбора требований стал быстрее и более эффективно.

от бизнес-аналитиков ожидают, что они ознакомятся с процессами компании, обнаружат, разработают, инвентаризируют да согласуют бизнес-требования. Системном аналитику нужно проанализировать получены бизнес-требования, уточнить их, и учитывая особенности будущей системы, разработать подробные функциональные и нефункциональные требования Кроме этого, системному аналитику нужно знать, как прописать требования бизнеса так, чтобы их поняли IT-специалисты. Системные аналитики проектируют модели данных, описывают протоколы взаимодействия между системами[34].

Отрасли знаний представляют собой конкретную экспертизу по бизнес- анализа, охватывающего несколько задач. Существует шесть областей знаний: планирование и контроль бизнес анализа, обследование и взаимодействие, управление жизненным циклом требований, стратегический анализ, анализ требований и определение решений да оценка решений[19].

Планирование да контроль бизнес-анализа : описание задач, которые бизнес- аналитики выполняют, чтобы организовать работу и скоординировать усилия бизнес- аналитиков и заинтересованных лиц. Результаты исполнение этих задач используются в качества ключевых входных данных и руководящих принципов (рекомендации) для всех других задач руководства.

Обследование и взаимодействие : описывает Задача, которые бизнес-аналитики выполняют, чтобы подготовить и провести обследование деятельности и утвердить полученные результаты[46]. Из них описывается взаимодействие с заинтересованными лицами в всех направлениях деятельности после того, как собрана информация для анализа

Управление жизненным циклом требований : описывает Задача, которые бизнес аналитики выполняют для того, чтобы управлять и поддерживать требования и данные, необходимы для проектирование, на всех этапах жизненного цикла. Или Задача описывают установка конструктивных взаимосвязей между требованиями и дизайном, а также позволяют оценивать, анализировать и приходить к единой мнения из предлагаемыми изменениями в требованиям и дизайн.

Стратегический анализ : описывает аналитическую работу по взаимодействия с заинтересованными лицами, которые имеют осуществляться с целью обнаружение стратегических или тактических бизнес-потребностей, а также привести в соответствие результирующую стратегию с высокоуровневыми и низкоуровневыми стратегии.

Анализ требований и определение решений : описывает Задача, которые выполняют бизнес-аналитики, чтобы:

Эта отрасль знаний охватывает инкрементальные и итерационные деятельности: от начальной концепции и исследование потребностей к превращение этих потребностей в частное рекомендуемое решение.

Оценка решений : описывает задачи, которые бизнес-аналитики выполняют, чтобы оценить эффективность работы и ценность решений, предлагаемых компании- заказчику, а также рекомендовать устранение препятствий или ограничений, которые мешают использованию всех преимуществ решение[26].

Все области знаний включают в себя визуальное представление входящих и исходящих данных. Следующий диаграмма показывает соотношение между этими отраслями знаний.

Каждая область знаний описывает задачи, выполняемые бизнес-аналитиками для достижение цели этой отрасли знаний[42]. каждое Задача представлено в следующем формате:

каждое Задача имеет назначение. Назначение - это короткий описание причины для исполнение этого Задача бизнес-аналитиком и ее ценности, какая создается за помощью исполнение Задача.

Задача есть важной частью работы, которая должна быть выполнена в рамках бизнес-анализа. Каждое задание должно быть выполнено по крайней мере один раз в течение подавляющего большинства инициатив бизнес-анализа, но нет верхнего ограничение на количество раз исполнение любого задачи[21].

Задания могут быть выполнены в любом масштабе. Каждое задание может быть выполнена в течении периода от нескольких месяцев к нескольких минут.

Например, в качества бизнес-кейс может быть документ с несколькими сотнями страниц, обосновывающих многомиллиардные долларовые инвестиции, или одно предложение, что объясняет выгоды изменения, какое будет произведено для одной человека[51].

Задача имеет следующие характеристики:

должна принести некоторый очевидный положительный результат, какой полезный, конкретный, видимый да его можно оценить.

Задача является необходимой частью назначения области знаний, с которой она связана.

Составление задач является неизбежным, потому что некоторые задачи производят выходные дни данные, которые нужны в качества входных данных для других задач. Тем нет меньше, важно иметь на виду, что входящие данные должны существовать. входящие данные могут быть неполными или могут быть изменены или пересмотрены, что может привести к выполнение задания несколько раз[33]. Итерационный или гибкий жизненный цикл может нуждаться, чтобы Задача в всех областях знаний выполнялись параллельно, а для жизненного цикла с четко определенными фазами будет по-прежнему требовать, чтобы задачи из многих областей знаний были выполнены на каждой фазе. Задача могут быть выполнены в любому порядке, за условия, что необходимые входящие данные для Задача присутствуют.

Описание Задача более подробно объясняет, почему Задача выполняется, что это за Задача и каковы результаты задания должна достичь.

Входные данные предоставляют информацию и предпосылки, необходимые для начала выполнение задания. Входные данные могут быть следующие: явно генерируются по рамками бизнес-анализа (например, конструкция программного приложения) или создаются за помощью Задача бизнес-анализа[49].

Нет предположения, что наличие входных и выходных данных означает, что соответствующий результат в завершенном или в его финальном состоянии. Эти данные должны быть достаточно полными, чтобы разрешить дальнейшие работы. Любая количество экземпляров входных данных могут существовать в течении всего жизненного цикла инициативы

Требования есть отдельным случаем как входных или выходных данных, что нет должно быть неожиданностью, учитывая их важность для бизнес-анализа. Они есть только входом или выходом, которые нет создаются одним задачам. Требования могут быть классифицированы в несколько разных способов и могут существовать в любом из множества состояний.

Эффективность может быть определена с точки зрения заинтересованных лиц. получателями бизнес-анализа. Все заинтересованные лица могут иметь исходные данные для оценки ценности аналитической работы Однако входные данные имеют большие объемы и обычно разнородны и неструктурированы. Поэтому существующие бизнес процессы не справляются в в определенной степени со своими задачами.

В разрезе поставленной нами задачи: выявление закономерностей и факторов, которые влияют на лояльность абонентов, нам нужно улучшать существуя бизнес процессы

на фон все больше большего распространение мобильных технологий оператором связи необходима актуально, оперативная, достаточно подробная и персонифицированная информация об абонентах, позволяющая их группировать, удерживать и эффективно обслуживать. При этом необходима возможность выявлять паттерны событий, как происходят в реальном времени, да и зарегистрированных в течении многих месяцев - это позволит заблаговременно предупреждать возникновение проблем и производить мероприятия относительно повышение качества обслуживание[47]. Получение такой информации требует обработки и анализа больших объемов разнородных данных, поступающих из самых разнообразных источников - со смартфонов, от датчиков, с сетей передачи данных и социальных сетей, электронных писем, систем торговли ценными бумагами и списков наблюдений. При этом возникает проблема регистрации, фильтрации, очистки, организации, анализа и последующей обработки всех этих информационных потоков, а также больших массивов исторических данных - с целью определение доходности абонентов, вероятности их оттока и контроля выполнения условий обслуживание.

Один с важнейших факторов эффективности бизнеса и сохранение конкурентоспособности - высокая качество и актуальность информации о абонентов. Для этого необходимо иметь возможность обнаруживать изменения в поведении абонентов путем нахождение определенных паттернов в совокупности поступают с сети данных о обслуживание, потреблении услуг и транзакциях[44].

Анализ абонентской информации выполняется путем сегментации и постройки предполагаемых моделей, которые позволяют выяснить, которые абоненты наиболее прибыльны, а которые с наибольшей вероятностью готовы перейти к другому оператору. Использование этих данных позволяет определить новые пакеты услуг. с наибольшей вероятностью позволят удержать абонентов, а также как решить проблемы качества обслуживание к того, как они приобретут угрожающего масштаба.

Внедрение передовых методов обработки абонентской информации порождает для операторов связи ряд проблем, связанных с инфраструктурой обработки данных: увеличение числа пользователей, усложнение запросов, задержки, связанные с обработкой больших массивов данных.

Информационно-вычислительные мощности, необходимы для реализации передовых методов аналитической обработки, значительно превосходят предельные возможности эксплуатируемых в данный время программно-технической инфраструктуры - это да называемый «разрыв в аналитических возможностях».

Большие объемы данных. Операторам связи приходится обрабатывать намного больше данных, нож год или даже два годы поэтому. Это оговорено появлением смартфонов и мобильного широкополосного доступа к сети, обмена трафиком между клиентами, а также ростом потребление видеосервисов. Дополнительные факторы роста объемов данных – необходимость углубленного анализа и повышения точности предполагаемых моделей, при этом нужно регистрировать больше данных и хранить их за более продолжительный период.

Рост числа пользователей и устройств. Для повышения качества обслуживание и снижение нагрузки на абонентскую службу сейчас предоставляется через Интернет. Число пользователей, обращающихся к порталам обслуживание клиентов, очень высоко. Операторы связи должны обслуживать абонентов, которые обращаются через Интернет, с устойчивым качеством, независимо от объема трафика, что принимается их веб-приложениями в каждый конкретный момент.

Сложные запросы. Большинство оперативных решений по-прежнему принимается без компьютерной поддержки, что ведет к субъективизма, а также противоречит корпоративным правилам. В других случаях логика поддержки принятие решений жестко «зашита» в системах BSS/OSS, что усложняет ее модификацию с целью адаптации к изменяющимся потребностям. Операторам необходимо с помощью сложных запросов сравнивать и сопоставлять разные наборы данных, обнаруживая тенденции, причинно-следственные связи и паттерны.

Задержки, обусловленные большим объемом данных. Еще один фактор, что усложняет анализ информации о клиентах – фактор времени. Для построения как можно более полной картины качества обслуживание операторы связи должны иметь возможность получать практически ценную информацию с разрозненных источников сети. Выдержка информации должно выполняться в течении нескольких секунд после возникновения событий, а не через минуты или часы, как это происходит сегодня - таким образом, необходим новый подход.

Много операторов осознали, что системы управление данным, внедрены раньше для поддержки систем OSS / BSS, нет удовлетворяют текущим требованиям к абонентской аналитике реального времени. Применение традиционных средств бизнес-аналитики вместе с реляционными базами данных часто приводит к неудовлетворительным результатам, когда ИТ-служба вынуждена ограничивать число пользователей, имеют доступ к данных, сложность запускаются запросов или же глубину ретроспективного анализа записей о предоставлены услуги[39].

Или традиционные системы бизнес-аналитики да оперативные системы неэффективные для реализации передовых методов аналитической обработки реального времени по ряду причин. Во-первых, единственный возможен в этом случае режим работы с транзакционными системами - простое получение отчетов. При этом ИТ-служба вынуждена помещать данные для анализа и выпуска отчетов в множество предметных хранилищ. Для предсказание тенденций путем ретроспективного анализа данных о предоставлены услуги необходимы дополнительные ИТ-ресурсы, что обеспечивают подъемник, превращение и загрузка данных. Рост объемов данных диктует необходимость в применении сводных и агрегированных таблиц (для ускорение обработки запросов традиционными базами данных). Это усложняет проекты со создание хранилищ данных и систем поддержки принятие решений и увеличивает объем работ.

Поэтому для того чтобы улучшить эффективность бизнес процессов в Телекоммуникациям нужно применять машинное обучение. Machine learning в перспективе может дать возможность обрабатывать большие данные с высокой точностью и скоростью. Рассмотрим детали машинного обучение да методы, которые будут использованы для повышение эффективности бизнес процесса.

Машинное обучение (machine learning) - это метод анализа данных, какой автоматизирует построение аналитической модели. Это отрасль искусственного интеллекта, основана на идеи, что машины должны уметь учиться и адаптироваться через опыт. Оно тесно связано с вычислительной статистикой, делающей прогнозы на основе статистических данных, собранных компьютером [32].

Машинная учеба все глубже проникает в нашу жизнь с помощью назначенных для пользователя продуктов, созданных за помощью методов искусственного интеллекта очевидно, что данные технологии будут развиваться и дальше, постепенно становясь частью повседневной рутины во многих областях человеческой профессиональной деятельности Однако со времен своего появления, машинное обучение успело обзавестись многочисленными проблемами, главная с которых – достаточно высокая трудоемкость. Построение систем машинного обучение требует огромной количества времени высокопрофессиональных специалистов как в сфере искусственного интеллекта, так и в тот предметной области, к которой эта технология применяется.

Наиболее перспективной и актуальной в настоящее время технологией авторы считают автоматизированное машинное обучение - комплекс инструментальных и методических средств, что позволяет значительно сократить долю человеческого участия в создании систем искусственного интеллекта, в поэтому числе средствами автоматической валидации результаты моделирования.

Data Minig можно считать сверхмножеством множества разных методов получение данных из данных. Это может привлекать традиционные статистические методы и машинное обучение. Data Minig применяет методы с многих разных областей для обнаружение раньше неизвестных закономерностей на основе данных. Это может включать статистические алгоритмы, машинное обучение, анализ текст, анализ временных рядов и другие области аналитики. Data Minig также включает изучение и практику хранение данных и манипулирование ими.

Основное отличие от машинного обучения состоит в том, что, как и статистические модели, цель состоит в поэтому, чтобы понять структуру данных - приспособить теоретическое распределение к хорошо понимаемым данным. Следовательно, с статистическими моделями существует теория, которая стоит за моделью, которая математически доказана, но для этого нужно, чтобы данные также соответствовали определенным весомым предположением. Машинное обучение разработано на основе способности использовать компьютеры для зондирования данных для структуры, даже если у нас нет теории того, как выглядит эта структура. Тест для модели машинного обучение – это ошибка проверки новых данных, а не теоретический тест, который доказывает нулевую гипотезу. Поскольку машинное обучение часто использует итерационный подход для изучение данных, обучение может быть легко автоматизировано. Пропуски проходят через данные, пока нет будет найдено надежный шаблон.

Deep learning сочетает в себе достижение вычислительной мощности и специальные типы нейронных сетей для изучения сложных шаблонов в больших объемах данных. Методы Deep learning на сегодня есть самыми современными для идентификации объектов на изображениях да слов в звуках. Теперь исследователи стремятся применить или успехи в распознавании образов для более сложных задач, таких как автоматический перевод языки, медицинские диагностики да многочисленны другие важные социальные да деловые проблемы.

В телеком системах генерируется сверхбольшое количество данных, которые нужно обрабатывать и анализировать. Машинное обучение в основном использует диапазон или спектр на основе метода оптимизации большой количества параметров.Увеличение количества да вариации доступных данных, нет ввиду на увеличение да разнообразие методов и средств их обработки, которые становятся более дешевыми и мощными, наличие более доступных хранилищ данных, мешает решению проблемы аналитической обработки в телеком индустрии Таким образом, машинное обучение быстро становится очень важной и широко внедряемой частью деловых процессов в системах телеком-оператора

Предложено процесс решение Задача методами машинного обучение. Он включает в себя определенные этапы, проиллюстрированные на рис. 2.3 Процесс машинного обучения может быть как успешным, да и неуспешным.

Машинное обучение, как правило, разделяется на две основные категории: обучение с учителем и без учителя.

Метод с учителем в основном обучает машины на примерах. Во время обучение для контролируемого обучения системы подвергаются воздействию большой количества маркированных данных, например, изображений рукописных фигур, аннотированных, чтобы указать, котором номера они отвечают. Учитывая достаточно примеров, система контролируемого обучение научится распознавать скопление пикселей и фигур, связанных с каждым числом, и в конце концов сможет распознавать рукописные числа, способны надежно различать числа 9 да 4 или 6 да 8.

Однако обучение этих систем, как правило, требует огромных объемов маркированных данных, причем некоторые системы должны иметь миллионы примеров для усвоения Задача.

на отличие от алгоритма с учителем, алгоритмы без учителя с обнаружением закономерностей в данных пытаются обнаружить сходство, какая разделяет или данные на категории. Примером может быть Airbnb, что объединяет дома, которые можно взять в аренду по соседству, или Google News, ежедневно объединяющие истории на подобные темы.

Алгоритмы обучения без присмотра не предназначены для выделения конкретных типов данных, они просто ищут данные, которые можно сгруппировать за подобием, или аномалии, которые выделяются.

Рассмотрим более подробно методы машинного обучения с помощью которых в работе будет создан прогноз отток абонентов.

Принятие решения – это процесс рационального или иррационального выбора альтернатив, имеющих целью достижение осознаваемого результата. Один из методов автоматического анализа данных являются деревья решений. Первые идеи создания деревьев решений относятся к работам Ховленда (Hoveland) и Ханта (Hunt) конца 50- х годов XX века. Однако, основной работой, давшей импульс для развития этого направлении, стол книга Ханта (Hunt, EB), Мерина (Marin J.) и Стоуна (Stone, PJ) «Experiments in Induction», что увидела свет в 1966 р [55].

Деревья решений, что используются в Data Mining, бывают двух основных типов:

Data mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружение в данных раньше неизвестных, нетривиальные, практически

полезных и доступных интерпретаций знаний, необходимых для принятия решений в разных сферах человеческой деятельности. Срок введенный Григорием Пятецким- Шапиро в 1989 году. на сегодняшний день существует большая количество алгоритмов, что реализуют деревья решений: CART, C4.5, CHAID, CN2, NewId, ITrule да другие.

Дерево принятие решений используется в области статистики да анализа данных для моделей, что прогнозируются. на ребрах деревья решение записаны атрибуты, от которых зависит целевая функция, в вершинах записаны значения целевой функции, а в других узлах - атрибуты, за какими различаются случаи

Деревья решений применяются в задачах классификации (принятие решения. о принадлежности объекта к одному M из незаурядных классов) и регрессии (прогноз значение из непрерывного диапазона). Классификация и регрессия на основе деревьев решений используются в задачам распознавание текст, информационного поиска, распознавания речи, анализе изображений, обнаружении спама, распознавания жестов и др. Для конструирование деревьев решений применяется машинное обучение

под алгоритмом будем понимать функцию, принимающую на Вход классифицируется объект и возвращает один из M классов – ответ алгоритма для данного объекта. Деревья решений состоят с вершин, в которых записаны проверяются условия (будем называть или условия признакам), и листья, в которых записаны ответы деревья (один с M классов для Задача классификации). под учебным примером будем понимать объект обучающей выборки с известным правильным ответом (классом, к которому принадлежит данный объект). Обучение состоит в настройке условий в узлах дерева и ответов в его листе с целью достижение максимального качества классификации [5].

Пусть задано конечная множество объектов