Экономические науки/ 8. Математические методы в экономике
К.э.н., доцент Галкина Е. В.
Орловский государственный институт экономики и
торговли, Россия
Меры связи порядковых данных и их
использование в оценке, прогнозировании и планировании экономической деятельности
Меры связи
порядковых данных основаны на упорядоченности I категорий переменной А,
представляющих I рангов, один из которых присваивается каждому из общего
числа наблюдений. Наблюдения, которые принадлежат категории 1 переменной А (В),
имеют более высокий ранг, чем наблюдения из категорий 2 того же фактора А (В),
и т. д. При положительной связи между А и В наблюдения, имеющие
высокие ранги переменной А, будут иметь тенденцию к более высоким рангам
переменной В, а для
наблюдений с низкими рангами А будут характерны и низкие ранги В.
К основным
статистикам (мерам) связи порядковых данных относят коэффициенты γ Гудмена
и Краскала, t Кендэла и d Сомерса [1; 2].
Связь
переменных определяется на основе оценки пар наблюдений, одно из которых
принадлежит ячейке (i, j), т. е. имеет категорию i переменной А
и категорию j переменной В, а
второе - ячейке (i', j'). Порядковые меры связи - это простые функции от
величин:
S - общее число пар наблюдений, для которых
либо одновременно i> i' и j > j' либо i < i' и j
< j';
D - общее число пар наблюдений, для которых либо
i > i' и j < j' либо i < j' и j
>j';
Ta
- общее число пар наблюдений, для которых i=i';
Tb
- общее число пар наблюдений, для которых j=j'.
Когда
между переменными А и В существует сильная связь, число S
становится большим, а число D – малым. Поэтому порядковые меры связи оценивают величину разности S – D, а различаются способом
нормирования этой разности.
Мера γ Л. Гудмена и Е. Краскала представлена
формулой (1):
γ= (1)
Эта мера
отражает разность между вероятностями правильного и неправильного порядка для
двух наблюдений, извлеченных из совокупности случайно, при условии, что совпадающих
рангов нет.
Если
переменные А и В между собой независимы, то среднее значение γ
равно 0. Однако если γ =0, то это не обязательно означает, что А и В
независимы. Л. Гудмен и Е. Краскал продемонстрировали, что возможно построить
такую таблицу, в которой γ будет равна 0, а переменные А и В
окажутся явно не независимыми. Диапазон значений для γ простирается от - 1
до + 1. Выборочное распределение g приблизительно нормально.
В книге Г. Аптона предлагается следующий метод вычислений меры γ на основе таблицы сопряженности [1,
с. 38], который показан ниже по данным таблицы 1.
Таблица 1.
Таблица сопряженности переменных А и В
|
B1 |
B2 |
B3 |
B4 |
A1 |
4 |
15 |
11 |
20 |
A2 |
8 |
7 |
6 |
30 |
A3 |
6 |
21 |
12 |
32 |
Для
вычисления S последовательно перебираются все ячейки, их частоты умножаются
на общую частоту того блока ячеек, которые лежат ниже и правее соответствующей ячейки.
Например, в таблице 1 частота 4 в ячейке (1,1) должна умножаться на сумму частот
ячеек (2,2), (2,3), (2,4), (3,2), (3,3), (3,4). Эта сумма равна: 7+6+30+21+12+32=108.
Совокупность таких (I - 1)(J - 1) перекрестных наблюдений есть S.
Таким образом, для таблицы 1:
S=
4(7+6+30+21+12+32)+15(6+30+12+32)+11(30+32)+8(21+12+32)+7(12+32)+6*32=3334.
Для
расчета величины D частота в каждой ячейке умножается на общую частоту блока,
расположенного ниже и слева:
D = 20(8+7+6+6+21+12)+11(8+7+6+21)+15(8+6)+30(6+21+12)+6(6+21)+7*6
= 3246.
Согласно
уравнению (1) мера γ равна:
γ==0,013
Мера t М. Кендэла представлена
формулой (2):
τK= (2)
В первом примере
были вычислены значения S и D для данных из таблицы 1. Г. Аптон
предлагает рассчитывать величину Ta умножением частоты ячеек
на сумму частот тех из них, которые стоят правее в той же строке, и сложением
всех I(J-1) таких перекрестных произведений [1, с. 39]. По данным таблицы
1:
Та = 4(15+11+20)+15(11+20)+11*20+8(7+6+30)+7(6+30)+6*30+6(21+12+32)+21(12+32)+12*32=3343.
При
вычислении Tb те же операции осуществляются не со строками, а
со столбцами (частота ячейки умножается на сумму частот нижних ячеек в том же
столбце):
Тb
= 4(8+6)+8*6+15(7+21)+7*21+11(6+12)+6*12+20(30+32)+30*32
= 3141.
Откуда τK
равно:
τK== =0,179
Мера d Р. Сомерса. Р. Сомерс предложил видоизменить статистику τK, чтобы
она они соответствовала ситуации, когда переменная (В) может
рассматриваться как зависимая от переменной А. Эта статистика (dba)
определяется по формуле (3):
dba = (3)
Статистика
dba рассматривается как разность между вероятностями получить
правильный и неправильный порядок при извлечении из совокупности двух
наблюдений случайным образом, когда переменная А не имеет совпадающих
рангов. Она распределена приблизительно нормально.
По данным
таблицы 1:
dba ==0,009
Обратная
статистика рассматривает переменную А как зависимую – формула (4):
dab = (4)
и по
данным таблицы 1 равна:
dab = =0,009
Каждая
мера связи показателей таблицы сопряженности признаков определяет свой аспект
связи между переменными, что обусловливает разные значения данных мер. Так, в
примерах были рассчитаны (с округлением до тысячных) значения следующих мер
связи для одних и тех же данных (таблицы 1):
γ=0,013;
τK=0,179; dba=0,009; dab=0,009.
При выборе
среди этих мер для порядковых данных американский специалист по статистическому
анализу данных Г. Аптон [1] предложил предпочесть γ, если переменные
равноправны, и dba Сомерса, если переменная В зависит
от переменной А. При этом Г. Аптон отмечает, что ни одной из этих мер,
не стоит приписывать роль, большую, чем роль средства предварительной прикидки
перед более систематическим анализом. Сложные количественные методы оценки
взаимозависимости порядковых признаков включают методы энтропии, логнормальной
оценки.
Изучение таблицы
сопряженности порядковых признаков является полезным инструментом для анализа,
прогнозирования структурных сдвигов в динамике экономических показателей, с
последующим более обоснованным планированием экономической и социальной
политики на соответствующем уровне управления. Методологическая основа
прогнозирования на основе двумерных таблиц сопряженности отражена на рисунке 1.
|
|
Столбцы – Оценка
возможности изменения экономического показателя в лучшую сторону (улучшение
оценки отражается слева направо) |
|
|
|
Строки
– Балльная (или
словесная - в терминах «лучше/хуже..») оценка респондентами
приемлемости экономического
показателя с точки зрения его поддержания (увеличение/
улучшение балла отражается в направлении сверху вниз) |
|
|
Рисунок 1.
Методологическая основа прогнозирования изменения экономических показателей на
основе двумерных таблиц сопряженности
Стрелка на
рисунке 1 показывает ожидаемое смещение показателей в следующем периоде (чем
меньше оценка приемлемости экономического показателя, тем вероятнее его увеличение
в будущем под воздействием усилий респондентов).
Оценка
таблиц за ряд лет позволяет выявить динамику ожиданий и изменений экономических
показателей (в том числе пики – «воодушевление», мотивацию и дно – «разочарования»,
демотивацию респондентов).
Литература:
1. Аптон, Г.
Анализ таблиц сопряженности/ Г. Аптон. – М.: Финансы и статистика,
1982. – 143 с.
2. Татарова, Г.Г. Методология
анализа данных в социологии (введение): Учебник для
вузов/ Г.Г. Татарова. – М.: NOTA BENE, 1999. – 224 с.