Математика/3.Теорія ймовірностей і математична
статистика
Кубайчук О.О.,Єршова О.О., Гончарова Л.С.
За оцінкою експертів важливою характеристикою економічного розвитку країни є тривалість життя населення. Дані про тривалість життя використовуються в різних областях знань, наприклад, в актуарній науці, біостатистиці, демографії [1].
Тривалість майбутнього життя (час дожиття) є випадковою величиною і зазвичай позначається . В свою чергу , де випадкова величина – вік у момент смерті особи віку . Тоді тривалість життя є не що інше як [2-3].
Для дослідження тривалості життя можуть бути використані дані, зібрані у різний спосіб, наприклад:
1. дані, оримані під час переписів населення;
2. дані, взяті у відділах реєстрації цивільного стану;
3.
дати народження і смерті з кладовищ
різних регіонів.
Перший
спосіб абсолютно точний (за умови, що перепис проводився добросовісно), але є
надто дорогим (мільйони гривень). Проводити дослідження тривалості життя,
використовуючи другий спосіб важко, враховуючи бюрократичну систему і …
численні помилки в документах. Третій спосіб збору інформації не має
вищенаведених недоліків.
1.
Методика дослідження
Основною
метою статистичного аналізу є виявлення деяких властивостей генеральної
сукупності. В нашому випадку генеральною сукупністю є населення України. Якщо
сукупність скінченна, то найкраща процедура – розглянути кожен елемент
(фактично провести перепис). Ми вчинимо інакше, а саме:
·
скористаємось
третім способом збору даних,
· зробимо вибірку об’єму і дослідимо її,
· узагальнимо отримані результати на всю генеральну сукупність.
Для того, щоб вибірка була репрезентативною досліджувались населені пункти з різною чисельністю населення, і різним географічним положенням. Фіксувались такі параметри:
· Рік народження (Birth).
· Рік смерті (Death).
· Стать (Gender).
·
Назва кладовища (Cemetery).
· Регіон (Region).
Інші параметри обчисювались безпосередньо за наведеними вище:
· Індикатор завершеності даного дослідження (Censored).
·
Число прожитих років (Years).
2.
Аналіз даних
Для статистичного аналізу даних скористаємось пакетом STATISTICA v.7.
Об’єктом дослідження є змінна Years – тривалість життя. Змінні
Gender і Region будуть групувальними. Щоб отримати попереднє уявлення про
тривалість життя, побудовані діаграми розмаху, які свідчать, що: середній вік
популяції, що населяє Україну (українців) – 68 років; половина людей помирає у
віці 53-78 років; зустрічаються довгожителі – 127 років; жінки живуть дещо
довше в середньому, і дисперсії в групах майже однакові; середня тривалість
життя у столиці трохи нижча ніж у регіонах, і дисперсії в групах майже
однакові.
Природньо виникають різні припущення, наприклад: розподіли тривалості життя столичного і регіонального населення, чоловіків і жінок суттєво відрізняються (вибірки з різних популяцій).
Хоча розподіл тривалості життя не є нормальним, ми можемо скористатися двовибірковим -критерієм для перевірки гіпотез про рівність середніх у групах, так як спостережень багато і внутрігрупові дисперсії майже однакові.
Рис. 1. T-тест на рівність середніх в столиці і регіонах. |
Рис. 2. T-тест на рівність середніх в групах за статтю. |
Тести підтверджують наші припущення (ймовірність помилки при відхиленні гіпотези про рівність середніх є 0,010632 і 0,000 відповідно). Відмітимо також, що для порівняння за регіонами доводиться вводити додаткову умову Birth>1908, для того щоб врахувати різницю у віці кладовищ. Також видно, що дійсно дисперсії в групах мало відрізняються.
Щоб остаточно зняти питання про нормальність
розподілів у групах застосовувались непараметричні тести – Wald-Wolfowitz runs test та Mann-Whitney test, які дали подібні результати.
3. Висновки
Всі проведені тести показують, що населення є суміш. Відповідно, тривалість життя доцільно досліджувати методами теорії сумішей.
Література:
1. Залетов О.М. Убезпечення життя. – К., 2006.
2. Бауэрс Н., Гербер Х. и др. Актуарная математика. – М., 2001.
3. Міхайленко В.М., Теренчук С.А., Кубайчук О.О. Теорія ймовірностей, ймовірнісні процеси та математична статистика. – К., 2007.