способ обнаружения обманного пользования абонентами услугами сетевого оператора посредством анализа блоков абонентских данных в реальном масштабе времени
Классы МПК: | H04M3/22 устройства для надзора, контроля и испытаний H04Q7/34 оборудование для тестирования или контроля |
Автор(ы): | ХАГЕР Рольф (DE), МАТАР Рудольф (DE), ХЕЛЛЕБРАНДТ Мартин (DE), ТЕКС Рейнхольд (DE) |
Патентообладатель(и): | Т-МОБИЛЕ ДОЙЧЛАНД ГМБХ (DE) |
Приоритеты: |
подача заявки:
2000-02-11 публикация патента:
27.10.2005 |
Изобретение относится к области техники связи и, в частности, к способам исследования поведения в мобильной телефонной сети честных абонентов и абонентов с обманным умыслом на основе стохастических моделей. Посредством встроенных в систему MEGS одномерных фильтров разрабатывают методы компьютерного обнаружения обмана. С помощью анализа основных компонент создают графический инструмент, которым за счет двухмерных графиков и соответствующей раскраски можно легко идентифицировать данные обманщиков. Это осуществляют путем визуальной инспекции или автоматического компьютерного теста. На основе дискриминантного анализа Фишера предложен автоматический тест, который одновременно из многомерных блоков данных идентифицирует такие, которые относятся к обманщикам. Оба метода отличаются при низких вычислительных затратах малыми вероятностями ошибок 1-го и 2-го рода. Техническим результатом изобретения является высокая вероятность обнаружения при небольшом количестве ложных тревог. 7 з.п. ф-лы, 29 ил., 6 табл.
Формула изобретения
1. Способ обнаружения обманного пользования услугами оператора сети связи абонентами посредством анализа абонентских блоков данных в реальном масштабе времени, при котором осуществляют
а) сбор блоков входных данных из сетевых элементов из блоков данных, аккумулированных в течение определенного промежутка времени, например блоков данных за 30 дней; из данных об отдельных соединениях за последний разрешенный правом на защиту период в днях; целевой номер, продолжительность разговора, вид соединения; из специфичных для данного абонента данных, таких, как время нахождения абонента в сети, вид оплаты; из блоков данных уже обнаруженных ранее известных обманщиков;
б) аккумулирование входных признаков по классам, таким, как тип целевого номера, число разговоров, виды разговоров;
в) проведение анализа основных компонент, включающего проведение анализа основных компонент оцененной ковариационной матрицы Rb на основе блоков данных уже обнаруженных обманщиков; спектральное разложение соответствующей ковариационной матрицы; определение актуальных основных компонент; классификация актуальных для обманного поведения основных компонент;
г) преобразование основных компонент блоков данных необнаруженных обманщиков на основе спектрального разложения ковариационной матрицы на этапе в;
д) изображение основных компонент блоков данных и дискриминация в отношении обманного поведения;
е) оценку и определение эмпирических квантилей основных компонент для управления вероятностями ошибок 1-го и 2-го родов при автоматическом обнаружении и подаче сигнала тревоги, причем ошибка 1-го рода обозначает вероятность того, что обнаруженный обманывающий абонент не будет таковым, а ошибка 2-го рода обозначает вероятность того, что "честный абонент" будет неправильно классифицирован как обманщик;
ж) дискриминантный анализ Фишера для определения разделительной гиперплоскости между блоками данных идентифицированных обманщиков и честных абонентов с графическим обозначением;
з) оценку и определение эмпирических квантилей проецированных данных для управления вероятностями ошибок 1-го и 2-го родов при автоматическом обнаружении и подаче сигнала тревоги.
2. Способ по п.1, отличающийся тем, что на этапе б) каждый блок аккумулированных данных изображают многомерным вещественным вектором.
3. Способ по п.1 или 2, отличающийся тем, что на этапе д) графически изображают основные компоненты блоков данных.
4. Способ по одному из пп.1-3, отличающийся тем, что на этапе д) изображают обнаруженное обманное поведение.
5. Способ по одному из пп.1-4, отличающийся тем, что блоки данных о пользователях анализируют по их разговорным признакам и разделяют на соответствующие классы, при этом разделение по классам осуществляют на основе поведения, которое отличает определенную группу абонентов с обманным умыслом и которое заметно отличается от индивидуального поведения остальных обонентов.
6. Способ по одному из пп.1-5, отличающийся тем, что поведение абонентов с обманным умыслом охарактеризовано следующими двумя признаками: обманное пользование 0190-ми номерами и одновременно ведение подозрительно большого числа международных разговоров в исследуемый промежуток времени.
7. Способ по одному из пп.1-6, отличающийся тем, что алгоритм обнаружения обмана состоит из следующих отношений:
при заданных новом наблюдении Х и квантили
а) вычисляем преобразование основных компонент Х=Т(X-);
б) проверяем преобразование на
для iX обманщиков, переходим к этапу в),
для iХ честный абонент, переходим к этапу г);
в) осуществляем корректировку ожидаемого значения и ковариационной матрицы у обманщиков:
г) осуществляем корректировку ожидаемого значения и ковариационной матрицы у честных абонентов:
8. Способ по одному из пп.1-6, отличающийся тем, что обнаружение обманщиков осуществляют посредством дискриминантного анализа Фишера.
Описание изобретения к патенту
Изобретение относится к способу согласно ограничительной части п.1 формулы и к устройству обработки данных для осуществления способа. Способы описанного выше рода уже известны, однако обладают тем недостатком, что они работают медленно и неточно и относительно часто вызывают нежелательную ложную тревогу.
Поэтому в основе изобретения лежит задача обеспечения существенно более высокой вероятности обнаружения обманщиков по сравнению с существующими способами, причем должна быть достигнута меньшая вероятность ложной тревоги (ошибочно подозреваемый честный абонент) по сравнению с существующими способами.
Для решения поставленной задачи служит приведенная в п.1 формулы техническая сущность изобретения. Другие варианты и модификации идеи изобретения являются объектом зависимых пунктов формулы.
В настоящем описании изобретения блоки данных оператора мобильной сети на основе стохастических моделей логически и с помощью техники обработки, передачи и приема данных разлагают для определения поведения абонентов мобильной телефонной сети на блоки данных для честных абонентов и блоки данных для абонентов с обманным умыслом. С помощью встроенных в систему обнаружения обмана (MEGS) одномерных фильтров разрабатывают способы компьютерного обнаружения обмана.
1. С помощью анализа главных компонент предложен графический инструмент, с помощью которого посредством двухмерных диаграмм и соответствующей раскраски можно легко идентифицировать данные обманщиков. Это происходит за счет визуальной инспекции или автоматического компьютерного теста.
2. На основе дискриминантного анализа Фишера предложен автоматический тест, который одновременно из многомерных блоков данных идентифицирует блоки данных, относящиеся к обманщикам.
Оба способа отличаются при небольших вычислительных затратах малыми вероятностями ошибок 1-го и 2-го рода. Это означает высокую вероятность обнаружения при небольшом количестве ложных тревог.
Способ состоит в основном из следующих этапов, осуществляемых с программным управлением в устройстве обработки данных:
1. Сбор блоков входных данных из следующих компонент:
- блоки данных, накопленные в течение определенного промежутка времени, например блоки данных за 30 дней.
- данные об отдельных соединениях за последний разрешенный правом на защиту данных период в днях (в настоящее время 5 дней): целевой номер, продолжительность разговора, вид соединения;
- специфичные для данного абонента данные (возраст абонента в сети, вид оплаты);
- блок данных уже обнаруженных ранее известных обманщиков;
б) аккумулирование входных признаков по классам (тип целевого номера, число разговоров, виды разговоров и т.д.): каждый блок аккумулированных данных изображается многомерным вещественным вектором;
в) проведение анализа главных компонент:
- проведение анализа основных компонент на основе блоков данных уже обнаруженных обманщиков;
- спектральное разложение соответствующей ковариационной матрицы;
- определение актуальных основных компонент;
- классификация актуальных для обманного поведения основных компонент;
г) преобразование основных компонент блоков данных необнаруженных обманщиков на основе спектрального разложения ковариационной матрицы на этапе 3;
д) (возможно, графическое) изображение основных компонент блоков данных и (возможно, визуальная) дискриминация в отношении обманного поведения;
е) оценка и определение эмпирических квантилей основных компонент для управления вероятностями ошибок 1-го и 2-го рода при автоматическом обнаружении и подаче сигнала тревоги;
ж) дискриминантный анализ Фишера для определения разделительной гиперплоскости между блоками данных идентифицированных обманщиков и честных абонентов с графическим изображением;
з) Оценка и определение эмпирических квантилей проецированных данных для управления вероятностями ошибок 1-го и 2-го рода при автоматическом обнаружении и подаче сигнала тревоги.
Преимущества способа, согласно изобретению, следующие:
1. Простая вычислимость в реальном масштабе времени: необходимы лишь векторное сложение, умножение и обращение матрицы.
2. Способ независим от архитектуры компьютера и протокола.
3. Способ включает в себя возможность автоматического компьютерного теста на обманный умысел с последующей автоматической подачей сигнала тревоги.
4. Относящиеся к обманщикам блоки данных могут быть изображены графически с целью их обнаружения: оптическая различимость.
5. Способ обучается на прошлых блоках данных, актуальные блоки данных могут быть лучше дискриминированы.
6. Способ адаптируется к новым возможностям обмана.
Постановка проблемы
Целью изобретения является своевременное обнаружение обманного умысла со стороны абонентов мобильной телефонной сети. Этим должны быть ограничены финансовые затраты оператора. При этом рассматриваются не только случаи умышленного обмана, но и такие случаи, когда можно предсказать, что абонент будет не в состоянии нести свои расходы за телефон. Между этими различными аспектами в данной работе отличия лингвистически не приводятся.
Поведение абонентов и констатация возможного обманного умысла характеризуются с помощью статистических методов и моделей. Для этой цели используют массивы данных, регистрируемые для расчета за разговоры со стороны операторов сети. При этом речь идет о данных абонентов, информация о которых относится к промежутку времени 80 дней. В этих так называемых 80-дневных блоках данных находится информация об отдельных дневных общих оборотах абонентов, дневных оборотах при международных и роуминговых соединениях, а также классовой принадлежности абонента, отражающей его возраст в сети, т.е. продолжительность нахождения в сети. С целью тестирования исследовали 80-дневные блоки данных абонентских сегментов 19 и 28, т.е. абонентов, чьи мобильные телефонные номера начинаются на 19 или 28.
Кроме того, в распоряжении имеются данные об отдельных соединениях абонентов, из которых можно считывать соответствующие целевые номера, начало, продолжительность и стоимость разговора, а также другую информацию, например ячейка, из которой велся разговор. Конечно, при этом по причинам защиты данных можно либо закодировать, либо сократить персональные данные абонента, например его MSISDN-номер или целевой номер. Данные об отдельных соединениях относятся к абонентским сегментам 19, 28, 30 и 31 и соответственно к промежутку времени одна неделя. Сегменты 30, 31 были взяты специально, поскольку речь идет об уже очень давно существующих абонентских сегментах, которые хорошо отражают поведение абонентов без обманного умысла. Описанные абонентские данные, лежащие в основе настоящего изобретения, разделяются на информацию, которая относится к абонентам без обманного умысла, и к данным об обманщиках, уже обнаруженных и блокированных оператором сети.
Для анализа поведения абонентов с обманным умыслом и без такового в первой части отчета строят статистические модели, с помощью которых можно выразить различные, важные для обнаружения обмана аспекты поведения абонентов.
Поскольку поведение абонента с обманным умыслом при вызове изображается как слишком неоднородное для общей обработки, таких абонентов классифицируют на основе их разговорных признаков. Для каждого из этих классов указывают возможности обнаружения. Разделение происходит при этом на основе поведения, которое отличает определенную группу абонентов с обманным умыслом и которое заметно отличается от индивидуального поведения остальных абонентов. При этом применяют методы мультивариантной статистики и дискриминантного анализа. Они позволяют точно описать поведение абонентов с обманным умыслом всего двумя признаками и провести тесты, основанные на этих признаках.
В последней части исследований оценивают определенные фильтры системы MEGS в отношении их качества, т.е. их вероятностей ошибок для обнаружения обманщиков. Данные для этого относятся к предоставленным в распоряжение эмпирическим данным, собранным с помощью системы MEGS.
Построение модели
Для исследования поведения абонентов с обманным умыслом и без такового определяют характеристические величины распределений дневных оборотов. Затем классовые принадлежности в лежащих в основе абонентских сегментах 19 и 28 исследуют на их оцениваемость. Далее определяют необходимые для последующего анализа фильтров системы MEGS эмпирические функции распределения и плотности подсчета.
Распределение дневных оборотов
Дневные обороты обеих рассматриваемых абонентских групп рассматриваются как реализация некоррелированных случайных переменных Хe для честных абонентов и Хb для обманщиков. Важные характеристические признаки обоих распределений выражены эмпирическим средним значением и эмпирической дисперсией наблюдений. Перечень полученных величин приведен в нижеследующей таблице.
Честные абоненты | Обманщики | |
Ожидаемое значение | 205.88 | 11738.1 |
Дисперсия | 378174 | 8.95е+08 |
Для сегментов 19 и 28 имеются 80-дневные блоки данных, на основе которых еще раз вычисляют эмпирические средние значения дневных общих оборотов для обоих сегментов. При этом в противоположность вышеприведенному расчету значений из данных об отдельных соединениях учитывается также, звонил ли вообще абонент в определенный день. В нижеследующей таблице приведены соответствующие значения и количество наблюдений.
Сегмент 19... | Сегмент 28... | |
Ожидаемое значение | 0.22539 | 1.3335 |
Количество наблюдений | 512703 | 5876000 |
Заметное отличие в оценках параметров между сегментами 19 и 28 объясняется тем, что у сегмента 19 речь идет о совершенно новом абонентском сегменте, в котором первое пользование произошло только 11 июля 1998 г. Далее можно заметить, что многие новые абоненты этого сегмента добавились лишь после 11 июля 1998 г. Таким образом, эмпирическое среднее значение первого пользования в системе MEGS в сегменте 19 возникает следующим образом:
Эмп. среднее значение Х (первое пользование) | 1269.33 |
Кол-во наблюдений (=абонентов в сегменте 19) | 18989 |
Этим объясняется отличие сегментов 19 и 28 в отношении их эмпирических средних значений, поскольку многие абоненты сегмента 19 рассматриваются как таковые лишь в относительно поздний момент времени, т.е. в дни до их вступления в сеть их дневной общий оборот с 11 июля 1998 г. равен 0, что, конечно, сразу же сказывается на эмпирическом среднем значении.
Классовая принадлежность
Для дальнейшего исследования поведения честных абонентов следует рассмотреть классовую принадлежность абонента. Абонентам в зависимости от их возраста сетевым оператором присвоены классы A, B, C, D и Е, которые образуют хорошую основу оценки "платежной морали" абонентов.
Из-за недостаточной базы данных этот признак характеристики поведения абонентов до сих пор, однако, невозможно точно исследовать, поскольку сегмент 19 содержит очень юных абонентов (в смысле возраста в сети) и вследствие этого почти все абоненты отнесены к классу А. То же относится к сегменту 28. Здесь преобладающая доля абонентов уже отнесена к классам С и D, так что на основе только этого блока данных невозможно сделать точные выводы. Других сегментов в прежних исследованиях не было в распоряжении, из-за чего точное рассмотрение распределения классовой принадлежности без дополнительных данных осуществить невозможно. Частота классовой принадлежности в сегментах 19 и 28 приведена в следующей таблице, поясняющей эти рассуждения.
Класс | Сегмент 19... | Сегмент 28... |
Не классифицирован | 909 | 77 |
Класс А | 18078 | 6234 |
Класс В | 1 | 6933 |
Класс С | 1 | 13419 |
Класс D | 0 | 46784 |
Класс Е | 0 | 3 |
Характеристика поведения абонентов на основе данных об отдельных соединениях
После исследований 80-дневных блоков данных имеющиеся данные о соединениях для ведения отдельных разговоров включают в исследования, поскольку в этих блоках данных можно найти дополнительную информацию о поведении абонентов. В частности, обрабатывают необходимые для анализа фильтров системы MEGS граничные распределения.
Для описания поведения абонентов здесь интерес представляют прежде всего данные о набранном абонентом номере, продолжительности разговора сделанного вызова и число вызовов в день, а также распределение оборотов, поскольку они очень хорошо характеризуют различные аспекты поведения абонента. По этим трем признакам строят стохастические модели и предположения распределения.
Первые исследования в этих рамках относятся к распределению продолжительности разговоров при отдельных соединениях. Продолжительности разговоров рассматриваются как реализации непрерывной случайной переменной D, хотя они присутствуют в блоках данных в качестве дискретных значений. Графическое изображение относительных продолжительностей разговоров показано на фиг.12 и 13.
В качестве следующего этапа осуществляют построение модели распределения целевых номеров абонентов. Цель, которую набирает абонент, можно считать случайной. Она должна быть описана дискретной случайной переменной Z, носитель которой поясняется ниже более подробно.
Диапазон целевых номеров разделяют из-за множества возможностей на различные категории, которые затем служат точками носителя переменной Z. Это разделение с некоторыми пояснениями приведено в таблице 1.
Коды | Описание |
0177/0171/0172 | Коды германских мобильных телефонных сетей |
0130/0180/0190 | Германские кодовые номера со специальными тарифами |
2.../3883 | Сервисные номера от оператора сети (например, Т-бокс) |
Прочие национальные коды | Все еще не зарегистрированные германские коды |
Роуминг | Связь с другими мобильными телефонными сетями (без международного роуминга, без указания цели) |
МТС | МТС-связь, без указания цели (также "call forward", международная, роуминг) |
Связь по факсу | Национальная, международная и роуминг |
Международные коды | Общее число всех международных соединений и классификация по отдельным государствам (также международный роуминг) |
Таблица 1: Категории целевых номеров
При этом следует обратить внимание на то, что из данных об отдельных соединениях требуется не только информация о самом целевом номере, но и дополнительно еще так называемый "Calltype", который указывает, идет ли речь о национальном, международном или роуминговом разговоре, и содержит "mobile terminated calls" (МТС).
Выбор точек носителя осуществляют, в частности, с точки зрения возникающих расходов на один вызов. Это особенно касается специальных номеров 0130 и 0180 и сервисных номеров 2... и 3... с единым федеральным тарифом. Тот же аргумент относится и к различным мобильным телефонным сетям в Германии, записанным каждая в виде собственной категории. Тарифы различных 0190-х соединений отличаются, правда, между собой, однако все соединения этого рода объединены в одну группу, с тем чтобы не слишком увеличивать количество точек носителя в отношении дальнейших рассуждений. Разделение на роуминг, международные вызовы и МТС не отличаются, правда, едиными расходами, однако из-за структуры своих тарифов выделяются на фоне приведенных выше категорий. Для того чтобы можно было регистрировать все цели, дополнительно вызовы по факсу рассматриваются отдельно, поскольку речь при этом идет не о разговорах, а о передаче данных. Категория прочих национальных целевых номеров не имеет единой структуры расходов. Тем не менее эти целевые номера также следует регистрировать для обеспечения полной оценки. Из-за многообразия национальных кодовых номеров и структур их тарифов здесь больше невозможно разделение на классы. Таким образом, носитель T z случайной переменной можно представить как
T z={'0177','0171','0172','0130','0180','0190', сервис,
национальный, роуминг, МТС, факс, международный}
=:{t1, t2, ..., t12}
С помощью этих данных об отдельных разговорах из сегментов 19, 28, 30 и 31 определяют эмпирическое распределение случайной переменной Z. Перечень вычисленных частостей приведен на фиг.4-11. Для того чтобы получить еще более точную картину распределения целевых номеров, точку t12 носителя "международный" еще раз расщепляют по различным международным кодам. Получают, следовательно, расширенную модель, описываемую случайной переменной Z с носителем
Tz={t1, ..., t 11, i1, i2, ..., i225}
При этом ti, i=1, ..., 11 определено точно так же, как и выше, а точки ik, k=1, ..., 225 носителя обозначают расположенные с возрастанием по величине 225 различных международных кодовых номеров.
Также здесь эмпирическое распределение Z приведено в таблицах 12-18.
После того как распределение целевых номеров было описано с помощью только что описанной модели и случайной переменной Z, можно вместе с моделью распределения продолжительности разговоров произвести некоторые граничные распределения, которые выражают вероятности в виде
|P(D=x|Z=ti), i=1, ..., 12
и эмпирические ожидаемые значения и дисперсии которых приведены в таблицах на фиг.12-18. Эту информацию позднее используют для анализа фильтров системы MEGS.
Из графиков частостей количества вызовов можно видеть, что N удовлетворяет дискретному распределению, плотность подсчета которого имеет приблизительно следующий вид:
a(k+b)c, для kN
Параметры а, b и с можно вычислить путем оценки по имеющимся данным. Правда, из-за формы плотности подсчета их суммируемость необязательно дана. На фиг.25 изображены частости количества вызовов у честных абонентов и аппроксимация эмпирических значений посредством функции t(x)=113.5*(4.34+х)-3.42. Параметры t(х) вычислялись для этого изображения в числовой форме. Из-за меньшего числа наблюдений графики количества вызовов у обнаруженных обманщиков имеют больший разброс, чем у абонентов без обманного умысла. Соответствующее изображение приведено на фиг.21.
Как уже было упомянуто при распределении продолжительности разговоров, также при распределениях количества вызовов в день и распределении оборотов соответствующие совместные распределения изображены на фиг.12-18 посредством эмпирического среднего значения и эмпирической дисперсии.
Стохастическая зависимость целевых номеров
Для того чтобы можно было проанализировать используемые сетевым оператором фильтры системы MEGS, необходима дополнительная информация о распределении целевых номеров.
Так, некоторые фильтры рассчитаны на регистрацию тех абонентов, которые несколько раз в день звонят по телефону в определенную мировую зону. Эмпирические вероятности вообще звонков по телефону в одну из мировых зон могут быть взяты у описанной выше модели из фигур. Если бы события, заключающиеся в том, что разговор подпадает под одну из описанных категорий, были стохастически независимы, то можно было бы вероятность того, что в день k-e число раз звонят по телефону в определенный целевой класс, выразить k-кратным произведением эмпирических вероятностей соответствующего класса при распределении Z или .
Как уже предполагалось, категории целевых номеров, однако, не являются стохастически независимыми. Это проявляется в том случае, если попарно стохастическую независимость каждых двух классов опровергнуть с помощью теста, основанного на таблицах сопряженности признаков.
Ниже случайные переменные Х и Y рассматриваются с номинальными выражениями, причем Х обозначает категорию последнего вызова, а Y - категорию следующего вызова. Они имеют оба, следовательно, носитель Т=Tz{'МТС'}. Под номинальным выражением следует понимать значения, не подверженные иерархии и несопоставимые, например точки 0171, 0180 и 0190 носителя.
Для изображения номинальных случайных переменных и их исследования используют концепцию таблиц сопряженности признаков. Для этого пусть Х имеет I номинальных выражений, а Y-J. Существует, следовательно, М=I*J возможных комбинаций для описания отношений между Х и Y. Наблюдения (X,Y) пары признаков имеют распределение вероятностей, представленное в таблице с I строками и J столбцами. Ячейки таблицы представляют I*J возможных событий. Их вероятности пусть будут обозначены pij, причем рij обозначает вероятность того, что наблюдение попадает в ячейку (i, j). Если в ячейках находятся частоты пар признаков, то говорят о (I×J) таблице сопряженности признаков.
Распределение вероятностей рij является совместным распределением X и Y. Граничные распределения, являющиеся суммами строк и столбцов в зависимости от pij, обозначаются следующим образом:
В целом, при этом должны быть выполнены еще следующие краевые условия:
Для тестирования независимости проверяют гипотезу
где n обозначает общее количество всех наблюдений, а m ij, mi., m.j - соответствующие ожидаемые частоты, mij можно вычислить по наблюдаемым частотам путем оценки по принципу максимального правдоподобия
Гипотеза Но отклоняется к уровню , если значение тестовой статистики
больше, чем (1-) квантиль соответствующего 2 - распределения с (I-1)*(J-1) степенями свободы.
С помощью этого теста можно для каждого уровня отклонить гипотезу попарно стохастически независимых категорий целевых номеров при вызовах в течение одного дня.
Запланированные исследования данных об отдельных соединениях
Особый интерес при исследовании поведения абонентов с обманным умыслом и без такового, как уже упоминалось, представляет классовая принадлежность абонента, документально подтверждающего свою "платежную мораль". К сожалению, это осуществленное сетевым оператором разделение не содержится в качестве информации в данных об отдельных соединениях, так что для сегментов 30 и 31 в этом отношении не удается провести исследования. Разделение на классы имеется только в 80-дневных блоках данных, т.е. для сегментов 19 и 28. Однако сегмент 19 по упомянутым в начале причинам непригоден для исследования этого признака поведения. Поэтому использование такой информации возможно только тогда, когда в распоряжении для этого имеется достаточно много данных. Поэтому для рассмотрения этого признака поведения необходимы классовые принадлежности вместе с данными об отдельных соединениях, с тем чтобы получить надежные результаты.
Далее запланировано исследование ячеек, из которых абоненты ведут свои телефонные разговоры. Следует установить, имеются ли ячейки, т.е. географические области, с особенно высокой долей обмана. Для этого, однако, недостаточно имеющейся базы данных об обнаруженных обманщиках, чтобы получить надежные результаты.
Абоненты с обманным умыслом
Теперь проанализируем и математически опишем поведение обманщиков. Информационную базу для нижеследующих рассуждений образуют предоставленные сетевым оператором данные об уже обнаруженных обманщиках из различных сегментов.
Дневные обороты 80-дневных данных
По имеющимся данным об обманщиках из 80-дневных блоков данных невозможно сделать суждение о распределении общего дневного оборота у абонентов с обманным умыслом, поскольку в отношении информации о 18989 и 73450 абонентах соответственно сегмента 19 и 28 имеются, в целом, лишь данные соответственно о 8 или 4 обманщиках соответствующих абонентских групп. Кроме того, 3 из этих 12 абонентов были выявлены как обманщики с помощью отсутствовавшей в распоряжении дополнительной информации, поскольку их общие обороты в рассматриваемые 80 дней составляют всего от 1 до 6 ДМ, за счет чего для оценки распределения рассматриваются лишь более 8 наблюдений.
Обманное поведение на основе данных об отдельных соединениях
Для характеристики обманного поведения имеются данные об отдельных соединениях 57 уже обнаруженных сетевым оператором обманщиков. К сожалению, речь идет при этом лишь об информации из 3708 отдельных разговоров, что по сравнению с более чем миллионом блоков данных о поведении честных абонентов является очень малым числом. Из-за малого количества наблюдений не всегда можно будет проверить распределение вероятностей для всех аспектов обманного поведения. Оценка первого и второго моментов остается, однако, возможной и целесообразной.
Классификация обнаруженных обманщиков
На основе имеющейся информации об уже обнаруженных сетевым оператором обманщиках ниже производится классификация абонентов с обманным умыслом. Этим должно быть отделено поведение определенных групп обманщиков друг от друга, с тем чтобы можно было таким образом провести строгие тесты по их обнаружению.
В качестве мотивации этого может служить противопоставление общего дневного оборота и дневного оборота на 190-х номерах из фиг.26. Хорошо видно, что количество точек распадается на два класса, а именно, во-первых, точки вдоль главной диагонали для абонентов, общий оборот которых состоит из разговоров на 190-х номерах. Во-вторых, точки соответствуют вдоль оси х блокам данных с меньшим оборотом на 190-х номерах.
Для классификации абонентов с обманным умыслом проведем анализ главных компонент оцененной ковариационной матрицы R b. В основу положим на каждый день и каждого абонента дневной блок данных, состоящий из 30 признаков. Рассматриваются дневные обороты, количество вызовов в день и ежедневные продолжительности разговоров. Каждый из этих трех главных признаков разделяют на десять уже названных категорий целевых номеров. В пределах блока данных их используют для главных признаков соответственно в таком порядке: 171-,172-,177-,180-,190-е номера, международный разговор, прочие национальные соединения, роуминг, сервисные и МТС-вызовы. Обозначим для этого yiR 30, i=1,...,n, вектор с признаками дневного блока данных абонента с обманным умыслом и n их количество. Пусть далее
является оцениваемым ожидаемым значением. Тогда используем оценку ковариационной матрицы по принципу максимального правдоподобия:
Изобразим матрицу Rb как
Спектральное разложение соответствующей ковариационной матрицы Rb происходит за счет разложения матрицы Rb на ортогональную матрицу Т и диагональную матрицу , которая в качестве диагональных долей содержит расположенные с убыванием по величине собственные значения. При этом происходит определение актуальных основных компонент путем разложения диагональной матрицы на ее основные компоненты, т.е. собственные значения.
При этом получаем
Очевидно, что описанная первыми двумя основными компонентами доля тотальной изменчивости составляет
Это означает, что преобразованные блоки данных
за исключением пренебрежимо малой ошибки лежат в двухмерном подпространстве, образованном первыми двумя единичными векторами. Далее j-я основная компонента имеет ожидаемое значение 0, дисперсию 2 i, а различные основные компоненты не коррелированы.
Собственные векторы ti матрицы Rb являются столбцами ортогональной матрицы Т преобразования, т.е.
Т=(t1,...,t30)
За счет наибольших по величине долей первого и второго собственных векторов можно дискриминировать обманщиков. Классификация актуальных для обманного поведения основных компонент происходит за счет того, что относящиеся к этим компонентам категории рассматривают как классифицирующий признак обманного поведения. На основе относящихся к 2 1 и 2 2 собственных векторов возникает разделение абонентов с обманным умыслом на таких абонентов, обман которых охарактеризован 0190-ми номерами или международными разговорами. На фиг.27 группа 0190-х обманщиков изображена первой основной компонентой, проходящей в направлении оси х. Остальные обманщики, поведение которых выделяется за счет международных разговоров, могут быть обнаружены посредством второй основной компоненты в направлении оси у.
Тесты по обнаружению обманщиков
После дискриминации уже обнаруженных сетевым оператором обманщиков посредством анализа основных компонент осуществляют статистические методы тестирования с целью обнаружения обманщиков. Для этого наблюдения за поведением абонентов без обманного умысла рассматривают как случайные и обозначают случайной переменной Х(,R e), распределение которой имеет ожидаемое значение и дисперсию Re. Матрицу Re снова разлагают на
причем S=(s1,...,s30) является ортогональной матрицей.
обозначает диагональную матрицу упорядоченных собственных значений Re, оценка которых выражена через
С помощью ортогональной матрицы Т из преобразования основных компонент Rb образуем
из чего с линейностью ожидаемого значения следует и . При использовании собственных векторов t1, t 2 к обоим наибольшим собственным значениям ковариационной матрицы Rb обманщиков из предыдущего раздела следует
или
t1,i и t2,i обозначают при этом i-ю компоненту вектора соответственно t1 и t2 . В частности, действительно . Далее среднее значение блоков Yi данных при упомянутом преобразовании составляет
а дисперсии совпадают со значениями 2 1,..., 2 30 из .
Поскольку значения и Re неизвестны, их оценивают из имеющихся n наблюдений Xi с помощью оценки по принципу максимального правдоподобия:
Применимость разложения оцененной ковариационной матрицы для преобразования основных компонент гарантирована.
Результаты исследований обманщиков из последнего раздела объединены с только что произведенным преобразованием основных компонент данных о честных абонентах на фиг.21. На этом графике хорошо видна заметно меньшая дисперсия основных компонент у честных абонентов (Var(t' iX) 2 1=2*105 по сравнению с 2 2=2*108), которая вместе со смещением ожидаемых значений для абонентов с обманным умыслом в направлении больших основных компонент обеспечивает применение тестов на выбраковку.
С целью проведения теста на обнаружение обмана обе основные компоненты рассматривают отдельно, т.е. разрабатывают специальный тест для 190-х номеров и для зарубежных обманщиков. Сначала оценивают эмпирический (1-)-квантиль Qi 1- , i=1,2 для обеих основных компонент. Для этого используют расположенные n наблюдений
После этого определяют то число k, для которого действительно:
Тогда квантиль Qi 1- =Хi k:n. Для специально имеющихся данных для =0,005 квантили составляют Q1 1- =-0,035 и Q2 1- =14,1089.
С помощью эмпирических квантилей можно провести тест на обманный умысел путем преобразования основных компонент абонентских данных за один день. Если значение преобразования абонентских данных лежит выше одного из обоих вычисленных квантилей Qi 1- , то предполагается, что речь идет об обманщике. Параметр обозначает при этом вероятность ошибки того, что абонент без обманного умысла несправедливо считается обманщиком. Это недоразумение должно встречаться, конечно, как можно реже.
Для применения теста необязательно каждый раз заново вычислять квантили Q i 1- , а достаточно периодического пересчета этих значений. Помимо этого теста существует еще возможность обнаружить с помощью графического изображения преобразования основных компонент тех абонентов, значения которых не находятся на вычисленных осях преобразования и которые за счет этого выделяются своим поведением, поскольку они обманывают за счет комбинации вызовов по 0190-м номерам и международных разговоров. Соответствующие абонентские данные можно тогда проверить вручную на обманный умысел, поскольку они не отфильтровываются в результате только что описанного теста как обманные. (Примеры этого изображены на фиг.21).
Описанные метод преобразования основных компонент и последующий тест на обман применим не только для дневных блоков данных об абонентах, но и лежащие в основе данные могут быть собраны в течение произвольного промежутка времени и обработаны. Благодаря этому возникает возможность автоматического исследования поведения абонентов в течение различных промежутков времени.
Необычности в поведении абонентов определяли до сих пор только на основе их первых двух доминирующих основных компонент, т.е. вызовов по 0190-м номерам и международных соединений, поскольку уже обнаруженные обманщики в имеющемся в распоряжении материале данных отличаются по своему поведению только этими двумя аспектами. Целесообразным является, однако, обнаружение любого рода ненормальности поведения по сравнению с абонентами без обманного умысла. По этой причине используют тест на многомерную выбраковку. Он основан на расстоянии Махаланобиса
которое измеряет отклонения в поведении по сравнению с честными абонентами. Явно провести тест нельзя, поскольку в распоряжении имеются лишь данные об обманщиках обоих уже названных классов. В качестве альтернативы отклонению в поведении обманщиков по сравнению с честными абонентами можно, конечно, измерить и отклонение от обманного поведения путем применения Rb -1. Эти расстояния обеспечивают лучший обзор поведения абонентов и тест на явные отклонения. Из-за ограниченного количества различаемых типов обманщиков в имеющихся в распоряжении данных широкое рассмотрение многомерного теста на выбраковку в настоящее время, однако, невозможно.
В качестве другого метода тестирования можно использовать дискриминантный анализ Фишера, который основан на отделении обманщиков от честных абонентов посредством плоскости. Искомой является линейная функция а'x, которая максимизирует отношение возведенных в квадрат расстояний между обеими абонентскими группами и, таким образом, отделяет их друг от друга. Вектор а является при этом собственным вектором к максимальному собственному значению матрицы W-1B, которая вычисляется по уравнению
W=n1Re+n2Rb
и
При этом n1 обозначает количество данных о честных абонентах, а n2 - количество данных об обманщиках. Соответствующий собственный вектор а равен а=W-1d. Предложена тестовая статистика
которая использует положение точки относительно центра соединительного отрезка между и Y. Это целесообразно, однако, для применения к постановке проблемы обнаружения обмана у сетевого оператора, чтобы иначе градуировать это проверочное значение, что не оказывает влияния на корректность самого метода. Результаты применения дискриминантного анализа Фишера изображены на фиг.28. На оси y нанесены значения статистики (1) в зависимости от значений i/n1 для честных абонентов и j/n2 для обманщиков.
Оказывается, что примерно 30% данных об обманщиках лежат ниже линии при y=0,0025. Ожидается, что за счет соответствующего дискриминантного теста будет выделяться высокая доля обманщиков. Следует обратить внимание на то, что различные блоки данных относятся к одному и тому же лицу; в рассматриваемом случае имеется 213 блоков данных на 57 обнаруженных обманщиков. 30% соответствуют приблизительно 70 блокам данных из них, которые были обнаружены как обманные.
Алгоритм обнаружения обмана
Пусть даны новое наблюдение Х и квантили Qi 1- .
a. Вычисляем преобразование главных компонент Х=Т'(X-);
б. Проверяем преобразование на
Х>Qi 1- для iХ обманщик, переходим к в.
XiQ i 1- для iX честный абонент, переходим к г.
в. Корректировка ожидаемого значения и ковариационной матрицы у обманщиков:
г. Корректировка ожидаемого значения и ковариационной матрицы у честных абонентов:
Оценка выбранных фильтров системы MEGS
В этом разделе оценивают выбранные фильтры системы MEGS в смысле вероятностей ошибок 1-го и 2-го рода, получаемых из эмпирической модели распределения целевых номеров.
Каждый фильтр i можно воспринимать как тест гипотезы
Нi 0: абонент не обманщик
Нi 1: абонент обманщик
т.е. если абонент зарегистрирован фильтром i, то гипотеза становится Нi 1, следовательно, предполагается его обманный умысел.
При тестировании гипотез этого рода могут быть сделаны две различные ошибки. Во-первых, честный абонент может быть ошибочным образом сочтен обманщиком. Это недоразумение называют ошибкой 1-го рода, или также -ошибкой. Во-вторых, может, конечно, произойти так, что у тестированного абонента речь пойдет об обманщике, а тест, тем не менее, решает в пользу гипотезы Нi 0. Это обозначают тогда как ошибка 2-го рода, или -ошибка. В смысле постановки проблемы целесообразно ограничить ошибку 1-го рода, с тем чтобы не терять понапрасну абонентов, ввод которых был ошибочным образом блокирован.
Рассматривавшиеся выше вероятности ошибок следует теперь изобразить с помощью вычисленных эмпирических вероятностей, с тем чтобы получить таким образом меру оценки использованных фильтров. Следующая таблица показывает перечень результатов этого исследования.
Описание фильтра | -ошибка | -ошибка |
0190100 ДМ/день | 0,000042 | 0,987325 |
Роуминг 500 ДМ/день | 0,000004 | 1 |
Мировая зона 2+9300 ДМ/день | 0 | 0,995955 |
1 вызов в мировую зону 2 | 0,000462 | 0,837108 |
1 вызов в мировую зону 8 | 0,000389 | 0,989753 |
1 вызов в мировую зону 9 | 0,000189 | 0,898056 |
2 вызова/день в мировую зону 2+5 | 0,000160 | 0,991640 |
2 вызова/день в мировую зону 2+8 | 0,000162 | 0,994337 |
2 вызова/день в мировую зону 2+9 | 0,000468 | 0,990291 |
2 вызова/день в мировую зону 5+8 | 0,000121 | 0,994876 |
2 вызова/день в мировую зону 5+9 | 0,000430 | 0,989482 |
2 вызова/день в мировую зону 8+9 | 0,000431 | 0,992179 |
5 вызовов/день в мировую зону 2 | 0,000016 | 0,995146 |
5 вызовов/день в мировую зону 5 | 0,000012 | 0,997303 |
5 вызовов/день в мировую зону 9 | 0,000062 | 0,994876 |
-ошибка вычисляется как частость соответствующего фильтра у абонентов без обманного умысла, а -ошибка - как частость фильтра у обманщиков.
Видно, что все рассматриваемые фильтры имеют очень малую вероятность ошибок 1-го рода, однако очень высокую -ошибку.
Сетевой оператор использует еще множество других фильтров, которые, однако, вплоть до настоящего времени не могут быть оценены, поскольку они используют возраст абонента, т.е. его классовую принадлежность, к сожалению, не содержащуюся в имеющихся в распоряжении данных.
Ниже изобретение более подробно описано с помощью таблиц и чертежей. При этом из чертежей, таблиц и их описания следуют другие преимущества и признаки, согласно изобретению.
На чертежах изображают:
- фиг.1: частость оборотов разговоров у честных абонентов;
- фиг.2: частость оборотов разговоров у обманщиков;
- фиг.3: частость количества вызовов в день у обманщиков;
- фиг.4: таблицу значений эмпирического распределения целевых номеров;
- фиг.5а и 5b: таблицу данных расширения модели для различных международных номеров;
- фиг.6: таблицу частости вызовов из-за границы в Германию по целевым номерам (абоненты без обманного умысла);
- фиг.7: таблицу частости вызовов из-за границы в Германию по сравнению с другими целевыми странами (абоненты без обманного умысла);
- фиг.8: таблицу частости вызовов из-за границы в Германию абонентов с обманным умыслом;
- фиг.9: таблицу частости вызовов из-за границы абонентов с обманным умыслом;
- фиг.10 и 11: эмпирические значения целевых номеров абонентов с обманным умыслом;
- фиг.12-16: эмпирическое среднее значение и эмпирическая дисперсия продолжительности разговоров у честных абонентов и у обманщиков;
- фиг.17 и 18: эмпирические значения распределения оборотов у честных абонентов и у обманщиков;
- фиг.19: таблицу сопряженности признаков для теста на попарную независимость номеров в определенный промежуток времени наблюдения;
- фиг.20: изображение относящихся к 2 1 и 2 2 главных компонент;
- фиг.21: результат дискриминантного анализа Фишера;
- фиг.22: приборно-техническое изображение способа по фиг.23;
- фиг.23: блок-схему способа обнаружения обмана с помощью приборов по фиг.22;
- фиг.24: частость дневных оборотов у честных абонентов (фрагмент);
- фиг.25: частость количества вызовов в день у честных абонентов и приближение посредством функции (фрагмент);
фиг.26: общий дневной оборот по сравнению с дневным оборотом на 190-х номерах;
- фиг.27: относящиеся к 2 1 и 2 2 основные компоненты;
- фиг.28: результат дискриминантного анализа Фишера.
Таблица на фиг.4 содержит значения эмпирического распределения целевых номеров для носителя Tz={t1,t2,..., t12}. При этом следует обратить внимание на то, что различные категории, например "сервис" и "МТС", дополнительно разделены, с тем чтобы их можно было легче выделить из имеющихся данных об отдельных соединениях. Во второй таблице на фиг.5 содержатся данные расширения модели для различных международных номеров. Речь идет при этом о расщеплении категории "международные соединения". База данных состоит из 1391739 наблюдений.
В таблицах на фиг.6 и 7 для абонентов без обманного умысла еще раз специально приведены вызовы из-за границы в Германию, т.е. вызовы с кодом 0049. Частости относятся здесь к соответствующему количеству 0049-х соединений в предыдущей таблице.
Совершенно аналогично таблицам абонентов без обманного умысла на фиг.8-10 в трех таблицах приведены эмпирические значения целевых номеров обманщиков. На фиг.8 при этом приведена частость выбранной целевой категории, тогда как на фиг.9 (с продолжением на фиг.10) изображены выбранные обманщиком из-за границы коды и их частость. На фиг.11 изображена наиболее часто выбираемая обманщиком целевая категория.
В таблицах на фиг.13-18 приведены эмпирические значения для распределений у установленных категорий целевых номеров.
На фиг.12 изображены распределения продолжительности разговоров честных абонентов, а на фиг.13 - обманщиков.
На фиг.14 изображено количество вызовов в день у честных абонентов, а на фиг.15 - у обманщиков.
На фиг.16 и 17 изображено распределение оборотов у честных абонентов, а на фиг.18 - у обманщиков.
На фиг.19 изображен наконец тест независимости для категорий целевых номеров. Таблица показывает таблицу сопряженности признаков для теста на попарную зависимость категорий номеров. При этом следует обратить внимание на то, что 0130-е номера не наблюдались, т.е. речь идет о таблице 9×9, содержащей соответствующее 2 (хи-квадрат)-распределение, т.е. 64 степени свободы. При высоком значении тестовой статистики гипотеза независимости отклоняется, конечно, для всех целесообразных уровней . Из отклонения попарной стохастической независимости следует, что не может быть действительной совместная стохастическая независимость категорий целевых номеров. Это относится соответственно ко всем дням.
На фиг.20 показано графическое изображение относящихся к 2 1 и 2 2 основных компонент, тогда как на фиг.21 показан результат дискриминантного анализа Фишера в виде графического изображения.
На фиг.22 показано приборно-техническое осуществление способа, согласно изобретению, изображенного на фиг.23 в виде блок-схемы.
На этапе 1 телекоммуникационные сетевые элементы изображены в качестве примера. Сокращение MSC обозначает электронный коммутационный блок, представленный коммутационным компьютером, а сокращение VMS - так называемую систему голосовой почты, с помощью которой осуществляют зависимый от оператора сетевой речевой вывод данных.
Приборные блоки VAS-NE обозначают дополнительные сетевые элементы, например элементы регистрации сборов и др.
Блоки данных сетевого оператора, образуемые в этом приборном окружении, передаются через систему сигнализации №7 (File Transfer Access and Management) на компьютер для обнаружения обмана. Этот компьютер называется также сервер абонентских данных.
Упомянутая система сигнализации №7 (FTAM) является семислойным протоколом, передающим за один раз целые пакеты блоков данных. Речь идет, следовательно, о поле данных (файл), в котором содержатся многие тысячи блоков данных, передаваемых в реальном масштабе времени на сервер абонентских данных.
На этапе 2, изображенном на фиг.22 и 23 в виде блок-схемы, осуществляют весь способ. Важно, чтобы этапы вычислений, такие как преобразования главных компонент, дискриминантный анализ Фишера и все остальные, проводились на этом компьютере в реальном масштабе времени.
Вычисляют результаты, которые на этапе 3 могут быть переданы в реальном масштабе времени на станцию обработки абонентов (Customer Care Workstation). За консолью этой станции сидит оператор, на мониторе у которого при обнаружении обманного пользования вырабатывается оптический и/или акустический сигнал тревоги. Оператор может тогда еще во время текущего обманного разговора вмешаться и, например, прервать разговор или воспрепятствовать повторному набору и т.п. Обманщику может быть также выдано акустическое предупреждение.
Имеется также обратная связь от абонентского сервера к компьютеру обнаружения обмана. Оператор может, например, изменить на абонентском компьютере (при подаче сигнала тревоги) порог сигнала тревоги или другие критерии вмешательства. Эти данные сообщаются компьютеру обнаружения обмана, который учится по ним и включает их в свои вычисления.
На фиг.23 изображена блок-схема способа, согласно изобретению. Осуществляемые здесь этапы отражены в признаках п.1 формулы.
Важной является обратная связь из функциональных блоков, расположенных на нижнем краю чертежа. Через эту обратную связь происходит корректировка вычисленных ковариантностей и средних значений. Система является, следовательно, самообучающейся.
Исследования предоставленного в распоряжение материала данных показали, что поведение абонентов с обманным умыслом можно охарактеризовать в основном всего двумя признаками. Отдельные результаты в примере выполнения и изображенных таблицах относятся к примерному блоку данных сетевого оператора. На основе имеющихся данных удалось определить лишь две различные абонентские группы с обманным умыслом.
Класс H04M3/22 устройства для надзора, контроля и испытаний
Класс H04Q7/34 оборудование для тестирования или контроля