Экономические науки/8. Математические методы в экономике
Д.т.н. Чебраков Ю.В.
Санкт-Петербургский государственный политехнический университет, Россия
Методы получения общих аналитических решений для регрессионных задач в эконометрике
Пусть заданы массив данных и аппроксимирующая функция , где yn —
n-ое значение зависимой переменной,
— n-ое
значение вектора независимой переменной и — неизвестный
вектор параметров. Требуется найти оценки A¢
и погрешности dA¢.
Если
F(A, X) = {F(A, X) — множественная линейная модель}, где hl(X) — некоторые функции от X, то обсуждаемую регрессионную задачу можно представить в
матричной форме
|
(1) |
и использовать алгебраические
методы для решения уравнения (1).
В частности, известный метод
наименьших квадратов (МНК) получается как решение следующей минимизационной
задачи [1, 2]
S(A) = yn – = (Y – HA)T(Y –
HA) Þ min, |
(2) |
где “T” означает
транспонирование матрицы. Действительно, если продифференцировать (2) по A и приравнять полученное выражение нулю, то получим
¶S(A)/¶A = –2H
TY + 2H THA
= 0. |
(3) |
Если матрица (H TH)–1 невырожденная (rank H = L),
то получим искомое решение
ALS = (H
TH) –1H TY, |
(4) |
умножив выражение (3) слева на матрицу (H TH)–1.
Очевидно, что вид решения регрессионной задачи
может зависеть от вида минимизационной задачи. Например, M-робастная минимизационная задача [2, 3] имеет вид
= или = |
(5) |
где функция j(r)
симметрична относительно оси Y, непрерывно
дифференцируема с минимумом в нуле и j(0) = 0; y(r) —
производная от j(r) по r.
Если F(A, X) —
нелинейная функция, то для оценки неизвестного вектора параметров A
часто используется стандартный МНК-метод или, другими словами, минимизируется
сумма квадратов остатков
S(A) =
. |
(6) |
Так как система уравнений ¶S/¶A = 0 в данном случае является нелинейной ищут
минимум S(A).
Как
показано в [2] общие аналитические решения обсуждаемых регрессионных задач
можно получить, решив следующие 4 задачи:
a) Найти такое наименьшее значение a = amin, что, для всех экспериментальных реализаций содержащих все возможные U подмножества из отсчетов, выполняется неравенство
£ amin , |
(7) |
где N —
размерность исходного массива данных — оценка
n-го значения независимой
переменной; —
функция усечения:
(y) = 2a[y/(2a)] + 2a, если êy – 2a [y/(2a)]ú ³ a; иначе ga(y) = 2a [y/(2a)] |
(8) |
и n0 — заданное целое число, которое определяет наибольший
уровень усечения исходного массива
данных
На практике значение
amin ищется как решение следующей экстремальной задачи
|
(9) |
где максимум по U означает нахождение решения по всем подмножествам U множества {XU}, содержащих N, N – 1, …, N – n0 отсчетов;
b) Построить набор эквивалентных аналитических функций (F ((Ci¢, x), Xn)), где a = amin и (Ci¢, x) — некоторый полином степени mi с переменной x
(–1 £ x £ 1) и
векторным параметром
Таким образом, набор эквивалентных
аналитических функций строится путем замены векторного параметра A функции (F(A, X))
на A = {(Ci, x)} и определения наименьшего значения степени и
определения оценок коэффициентов полинома (Ci, x).
c) Положить F ((Ci¢, x), Xn), где — искомое общее аналитическое решение
обсуждаемой регрессионной задачи;
d) Вычислить значения погрешностей dA¢, подставляя крайние значения x в
общее аналитическое решение F ((Ci¢, x), Xn).
Продемонстрируем, какие преимущества
исследователь может получить от использования функций для анализа многомерных массивов данных в
эконометрике.
Maronna и Yohai в [4] рассмотрели множественную
линейную модель , аппроксимирующую данные из Таблицы 1. Методы, изложенные
ранее, дают следующие решения для обсуждаемой регрессионной задачи:
y¢(x,
x) =( –10,9 – 19,9x + (0,0133 + 0,0303x) z +
(0,1487 – 0,0292x) + (0,923 – 0,0924x)), |
(10) |
где a = 67, –1 £ x £ 1. Следовательно, a0 = –11 ± 20, a1 = 0,13 ± 0,03, a2 = 0,15 ± 0,03, a3 = 0,92 ± 0,09 и общее аналитическое решение регрессионной
задачи имеет вид
–10,9 – 19,9x + (0,0133 + 0,0303x) z +
(0,1487 – 0,0292x) + (0,923 – 0,0924x) |
(11) |
ii) Если S =, то зависимость S от
x имеет вид
S(x) = 28077,4 – 880,58x + 436,28x. |
(12) |
Таблица 1. Данные для экономики Аргентины
за период 1956–1984.
y |
z |
x1 |
x2 |
|
y |
z |
x1 |
x2 |
|
y |
z |
x1 |
x2 |
90 |
682 |
135 |
82 |
|
112 |
909 |
225 |
92 |
|
125 |
1159 |
397 |
125 |
100 |
720 |
152 |
78 |
|
112 |
933 |
235 |
93 |
|
161 |
1172 |
473 |
131 |
104 |
765 |
167 |
78 |
|
119 |
970 |
260 |
96 |
|
146 |
1136 |
401 |
137 |
92 |
699 |
147 |
81 |
|
147 |
1031 |
316 |
99 |
|
221 |
1300 |
434 |
144 |
114 |
713 |
217 |
92 |
|
147 |
1074 |
340 |
100 |
|
315 |
1372 |
467 |
156 |
135 |
793 |
238 |
93 |
|
160 |
1120 |
376 |
105 |
|
303 |
1322 |
360 |
158 |
130 |
758 |
219 |
91 |
|
148 |
1137 |
378 |
103 |
|
175 |
1147 |
305 |
161 |
101 |
747 |
179 |
85 |
|
137 |
1174 |
361 |
109 |
|
167 |
1192 |
278 |
163 |
117 |
833 |
226 |
84 |
|
158 |
1277 |
367 |
116 |
|
172 |
1289 |
228 |
166 |
116 |
907 |
243 |
86 |
|
169 |
1292 |
375 |
118 |
|
- |
- |
- |
- |
Следовательно, S(x) имеет наименьшее значение в (12) когда x = 880,58/(2×436,28) = 1,009. Если x = 1,009, то из (11) и (12) получается стандартное
МНК-решение {A¢= (–31; 0,044; 0,12; 0,83); S= 27633};
iii)
Если то зависимость Q от x имеет вид:
если x £ –0,4079, то Q(x) = 552,256 – 4,0226x, если –0,4079
< x £ 0,239, то Q(x) = 556,196 + 5,6366x, если x > 0,239,
то Q(x) = 557,64 – 7,544x + 38,013x. |
(13) |
Следовательно, Q(x) имеет наименьшее значение в (13) когда x= –0,4079. Если x =
–0,4079, то из (11) и (13) получается решение метода наименьших модулей {A¢ = (–2,8; 0,001; 0,16; 0,96); = 553,91}.
iv) Если
то зависимость D от x имеет вид:
если x £ 1,79, то D(x) = 96,94 – 4,973x, если 1,79
< x £ 6,578, то D(x) = 94,213 – 3,453x, если x > 6,578,
то D(x) = 21,376 + 7,619x. |
(14) |
Следовательно, D(x) имеет наименьшее значение в
(14) когда x = 6,578, Если x = 6,578, то из (11) и(14)
получается равномерно-аппроксимирующее решение {A¢ = (–142; 0,213; –0,00434; 0,315); = 71,49}. Но значение x = 6,578 >> 1 и таким
образом это решение не входит в множество правильных решений.
Добавим,
если ,
то = 46, где th — гиперболический тангенс: th (x) = (exp(x) – exp(–x))/(exp(x) + exp(–x)). Таким образом, дает оценку для y лучшую, чем исходная
множественная модель
v) Как указано ранее, оцениватель =
является M-робастным, если j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0. В [2] предлагается в качестве j(r) использовать j(r) = (2/d) ln(1 + exp(dr)) – r. Если d = 2, ,
то зависимость от x имеет вид:
(x) = 510,86 – 37,48x – 8,618x+ 45,542 exp(x). |
(15) |
Следовательно, (x) имеет наименьшее значение в (15) когда x = –0,449. Если x =
–0,449, то из (11) и (15) получается M-робастное решение {A¢ = (–1,96; 0,001; 0,0003; 0,96); = 554,86}.
Maronna и Yohai в [4]
исследовали также модель одновременных уравнений, содержащую 3 уравнения:
a) Первое
уравнение — уже использовалось ранее для аппроксимации
данных из Таблицы 1;
b) Второе
уравнение — простая линейная модель , где значения
переменной w определены в Таблице 2;
c) Третье
уравнение — где значения переменных и определены в Таблице 2.
Таблица 2. Дополнительные данные для
экономики Аргентины за период 1956–1984.
w |
x3 |
x4 |
|
w |
x3 |
x4 |
|
w |
x3 |
x4 |
|
w |
x3 |
x4 |
828 |
89 |
69 |
|
1035 |
122 |
112 |
|
1469 |
163 |
163 |
|
1732 |
276 |
223 |
879 |
94 |
64 |
|
1130 |
134 |
123 |
|
1550 |
183 |
139 |
|
1643 |
298 |
191 |
921 |
97 |
81 |
|
1132 |
147 |
128 |
|
1597 |
184 |
188 |
|
1560 |
302 |
179 |
842 |
101 |
93 |
|
1135 |
145 |
158 |
|
1643 |
163 |
135 |
|
1666 |
327 |
126 |
902 |
102 |
108 |
|
1212 |
143 |
137 |
|
1567 |
214 |
202 |
|
1647 |
317 |
180 |
941 |
94 |
141 |
|
1315 |
166 |
149 |
|
1645 |
269 |
238 |
|
- |
- |
- |
959 |
128 |
106 |
|
1385 |
178 |
159 |
|
1563 |
291 |
255 |
|
- |
- |
- |
941 |
130 |
98 |
|
1455 |
161 |
146 |
|
1737 |
286 |
205 |
|
- |
- |
- |
Maronna и Yohai в [4]
использовали два метода для решения регрессионной задачи с моделью
одновременных уравнений: трех стадийный МНК-метод (3S-LS-E) и робастный t-оцениватель
со Stahel – Donoho весами (Rt-E-SDW): 3S-LS-E метод
дает решение
|
(16) |
Rt-E-SDW метод
дает решение
|
(17) |
В данной работе продемонстрировано, что
обсуждаемую трех модельную регрессионную задачу можно легко решить, если
сначала построить общие аналитические решения регрессионных задач для моделей,
указанных ранее в пунктах a) и b). При этом полученное итоговое решение задачи будет
обладать лучшими качествами, чем решения (16) и (17).
Литература:
1. Rao C.P. Linear statistical inference and its
applications. Wiley & Sons, 1973.
2. Чебраков Ю.В. Теория оценивания
параметров в измерительных экспериментах. Изд-во СПб гос. политехн. ун-та, 1997.
3. Huber P.J.
Robust Statistics. Wiley &
Sons, 1981.
4. Maronna N.A., Yohai V.J. Robust estimation in simultaneous equations models // J. of statistical planning and inference. 57. 233-244. 1997.