Благун И.С., Казмерчук А.И., Лотоцька М.Р.

Прикарпатський національний університет імені В.Стефаника

Імовірнісна модель сегментації ринку

В статті розглядається методика класифікації многочлена, в основі якої лежить твердження Байєса. А також розглянуто методи оцінки ймовірності.

 

Методика класифікації многочлена належить до класу таксономічних процедур у основі яких лежить положення структури груп многочлена. Щоб включити певний об'єкт до однієї з двох груп, G1 або G2 , досліджуємо k довільних дискретних змінних, вважаючи, що вони приймають скінченну кількість значень. Множину цих змінних практично можна буде представити у вигляді довільного вектора:

                                                                        (1)

Якщо кожна зі змінних є дихотомічною, то маємо s=2k можливих значень вектора , причому кожну окрему реалізацію вектору X будемо називати елементом сегментації і позначати x.

Теоретично, застосовуючи традиційне твердження Байєса, можна отримати найбільш ефективну класифікацію, що дозволяє оцінити ймовірність a posteriori належності об'єкту до груп G1 або G2 на основі ймовірності a priori і емпіричних даних.

Якщо через P(Gi/x) визначаємо ймовірність a posteriori , то:

                                                      (2)

де

                                                          (3)

x є послідовність реалізації вектора X (х=[х1, х2,…,xk]), P(x/Gi) є ймовірністю х моделі ситуації, або, інакше кажучи, умовною ймовірністю виникнення моделі ситуації X в групі Gi, P(Gi), а також Р(х) є відповідно ймовірністю та крайньою ймовірністю.

При такому підході основна проблема базується на отриманні достовірності P(x/Gi) та знання  ймовірності a priori, тобто P(Gi).

Якщо така інформація доступна, тоді застосовується принцип Байєса, згідно з яким певний об'єкт при x  ситуації дораховуємо до G1 якщо:

                                                                   (4)

Щоб мати можливість дізнатися про це, треба визначити коефіцієнт достовірності βx як:

                                                                                              (5)

Якщо βx0 то об'єкт зараховуємо в групу Gi , якщо βx0  то об'єкт зараховуємо в групу G2 , і якщо βx0 , то об'єкт зараховуємо довільно в G1 чи G2, причому :

                                                                                    (6)

Однак на практиці невідомі а ні P(x/Gi), а ні P(Gi). Отже, існує необхідність оцінювання їх на основі методу спроб. Припустимо, що в n - елементній довільній спробі, взятій з сукупності, що містить елементи, які належать як до групи G1 так і G2, всі спостереження можуть бути правильно зафіксовані. Оцінками ймовірності a priori (P(Gi)) буде:

         (i=1,2)                                                                   (7)

де ni- кількість спостережень, що належить до групи Gi.

Умовну ймовірність або, інакше кажучи, імовірність (P(x/Gi)) можна оцінити, застосовуючи один з наступних методів.

1)     повного многочлена,

2)     незалежності першого ряду,

3)     дистанції,

4)     найближчого сусідства,

5)     лінійної дискримінантної функції Фішера.

В методиці повного многочлена оцінюється частота многочлена до кожного з s=2k станів наступним чином:

                                                                          (8)

де nі(х) - кількість об'єктів в ni - елементній спробі, що має х модель ситуацію. Ця методика застосовується тоді, коли кількість випробувань є велика по відношенню до кількості станів, тому що в протилежному випадку отримуємо нестабільну оцінку, тобто надто малу деталізацію.

У методиці незалежності першого ряду закладається взаємна незалежність змінних. Це положення спрощує процедуру через зменшення кількості параметрів, але в практиці емпіричних досліджень є досить трудомістким до реалізації. Для цього вводимо  2k параметрів:

   (j=1,2,…,k, i=1,2).                                       (9)

на основі

                                                         (10)

де sj - множина ситуацій x, коли Xj=1. Умовна ймовірність вводиться наступним чином:

               (i=1,2).            (11)

В цій методиці використовуються тільки граничний розподіл для кожної зі змінних Xj. Таким чином, вище згадана методика наближена до лінійної дискримінаційної функції Фішера.

Метод дистанції базується на понятті відстані, яка використана для формування принципів класифікації, що базуються на результатах спостережень вибірки : нехай n1, n2,...,ns, а також m1,m2,....,ms ,будуть відповідно частота станів в спробах n i m- елементних похідних з груп G1 та G2. Нехай .Відстань між емпіричними графіками Sn та Sm що регульована даними частотами, подана в моделі:

                                              (12)

Можна сформулювати наступні принципи класифікації спостережень: коментар спостережень за моделлю ситуації х до Gi, де:

                                                    (13)

до G2, коли:

                               (14)

в наступний спосіб до G1 чи G2, коли:

                                                     (15)

Де Sn+1, Sm+1 – емпірична структура частоти станів обперта на n+1 або m+1 спостереженнях. Якщо n=m, то метод дистанції і повного многочлена є рівноцінними.

Процедура найближчого сусідства має перевагу над іншими, бо в ній регулятори коефіцієнтів ймовірності меншою мірою залежать від змінності вибірки, хоча не завжди є відповідними регуляторами. При формуванні принципу класифікації згідно найближчого сусідства ряду р регулюється коефіцієнт ймовірності для конкретної моделі ситуації, включаючи всі об'єкти, які модель ситуації відрізняє на р випадків (р=0,1,...,k). Регулювання коефіцієнта ймовірності методу найближчого сусідства ряду р подана моделлю:

                                                                               (16)

Де:

n1, n2 – вибірки, що належать до груп G1 i G2;

n1(x), n2(x) – кількість об’єктів в вибірках n1 і n2 в спробах моделювання поведінки х;

sj – множина всіх моделей хj що відрізняються  від х не більше ніж на р випадків.

Метод найближчого сусідства для ряду 0 відповідає повному многочлену, а для ряду k коефіцієнту ймовірності βx=1. Найкращим є застосування методу найближчого сусідства ряду 1.

Одним з методів оцінювання ймовірності є дискримінаційний метод Фішера, однак з тим застереженням, що його положення можуть бути не виконані при застосуванні до нульовоодиничних змінних.

Як показали В.Р.Діллон, М.Голдштейн і Л.Шіффман, в практичних застосуваннях цієї методи найкращі результати отримують при використанні повного многочлена, а потім методів дистанції. Методи незалежності першого ряду та дискримінації Фішера дають близькі результати, отже, їх можна розглядати як такі, що мають прикладне значення. Найгірші результати отримані при застосуванні методу найближчого сусідства першого ряду, з огляду на найвищу помилку класифікації.

Варто підкреслити, що запропоновані методи класифікації многочлена належать до дискримінантної технології. Вони вимагають прийняття зразків двох класів в генеральній популяції, а надають принципи класифікації спостережень вибірки до одного з класів. При використанні запропонованих технологій до графіку спостережень на більш ніж два класи треба застосувати послідовну поведінку, що полягає в наступному поділі досліджуваної колективності на дві підгрупи. Підхід такого типу має обмеження, що полягає у швидкому отриманні великої кількості груп по відношенню до кількості можливих ситуацій (комбінації варіантів дихотомічних властивостей).