Современные информационные технологии

/2. Вычислительная техника и программирование

К.т.н. Тощигин И.К.

Майкопский государственный технологический университет, Россия

Систематизация и статистическая обработка одномерной выборки средствами электронной таблицы

Электронная таблица с возможностями создания базы данных, организации математических операций с применением многих встроенных функций, процедур выполнения анализа и вывода стандартной графики является мощным и удобным средством статистической обработки данных.

1.      Подготовка данных и их первичная обработка

Приведенные в табл. 1 данные отражают ежедневные стоимости произведенных предприятием металлоконструкций. Смысл обработки такой выборки заключается в оценке уровня выполнения нормы и статистических оснований для постановки вопроса о ее пересмотре. Данные относятся к близким условиям работ по категории техники, составу персонала и т.д. Выборка колеблется в широки пределах, т.е. ведет себя как случайная величина. Поскольку она насчитывает 168 вариант, она является репрезентативной.

                                                                                              Таблица 1

56

290

470

151

118

76

50

196

200

176

222

235

143

185

216

203

233

91

140

89

104

145

120

136

178

230

176

188

402

139

51

182

350

193

344

331

188

187

301

309

223

141

118

99

117

135

92

119

320

243

140

173

250

156

244

179

53

196

54

101

176

55

102

58

88

93

118

144

116

99

121

134

97

59

60

197

60

61

165

63

184

65

66

66

161

161

199

160

89

141

100

122

133

141

123

104

159

154

70

71

72

186

194

72

72

169

75

77

78

80

149

81

137

117

117

105

133

116

106

124

81

142

83

148

137

85

147

86

147

101

119

138

87

103

138

150

90

124

107

126

112

106

132

115

105

125

131

115

127

107

114

130

105

114

126

127

108

106

125

129

126

107

128

112

127

115

111

110

Поскольку выборка является одномерной, ввод данных в таблицу следует выполнять в один столбец, в противном случае она будет воспринята как двумерная.

2.      Систематизация и визуализация данных

Систематизация выборки в Excel, т.е. подсчет числа вариант в интервалах (карманах), предполагает задание их границ:

- явно (перечислением в отдельном столбце);

- автоматически (с помощью встроенного алгоритма). При явном задании интервалов с помощью функций МИН и МАКС определяется размах выборки [1]. Курсор устанавливается в свободной клетке, и в списке функций Статистические выбирается МАКС. В ее диалоговом окне в поле Число1 указываются исходные данные – их диапазон в столбце. Аналогично функцией МИН возвращается минимальное значение выборки.

Размах находится как разность максимального и минимального значений и разбивается на 10 – 12 карманов, например, на возрастающую последовательность граничных значений: 50, 90, …, 490.

Задать границы интервалов можно автоматически с помощью процедуры Гистограмма в пакете Анализ данных меню Сервис. В диалоговом окне следует ввести  в поле Входной интервал диапазон данных. Поле Интервал карманов заполняется в случае явного задания интервала или остается пустым. Флажок метки включается, если первая строка или первый столбец входного интервала содержит заголовки. В поле Выходной интервал вводится ссылка на левую верхнюю ячейку выходного диапазона, размер которого определяется автоматически. Переключатель Новый рабочий лист устанавливается для вставки выходного диапазона на Новом рабочем листе с ячейки А1. При установки переключателя Новая рабочая книга выходной диапазон выводится в новой книге на Листе 1, начиная с ячейки А1. Флажок Парето предназначен для вывода диаграммы с убыванием частот. Флажок Интегральный процент устанавливается для вывода интегральных процентных отношений и включения их в накопительную кривую. Флажок Вывод графика служит для вывода на экран гистограммы и накопительной кривой.

Полученная диаграмма имеет один максимум с монотонным уменьшением частот (спусками). Это позволяет считать совокупность однородной и получить описательную статистику, которая имеет смысл для однородной статистической совокупности.

3.      Статистическая обработка стоимостных объемов производства в Excel

1.      Ввести в таблицу все варианты, представленные в табл. 1.1, располагая их в столбец начиная с ячейки А1.

2.      В меню Сервис вызвать пакет Анализ данных, в котором вызвать процедуру Гистограмма.

3.      В диалоговом окне установить следующие параметры:

         - в текстовое окно Входной интервал ввести интервал со значениями вариант;

         - текстовое окно Интервал карманов оставить пустым;

         - флажок Метки не устанавливать;

         - в текстовое окно Выходной интервал ввести ссылку на верхнюю левую ячейку диапазона с результатами обработки данных, перед этим установив переключатель в положение Выходной интервал;

         - включить флажки Интегральный процент и Вывод графика.

4.      Нажать кнопку ОК.

5.      Проанализировать полученные результаты.

4.      Вывод описательной статистики

Процедура вызывается из меню Сервис, где выбирается пакет Анализ данных и команда Описательная статистика.

В диалоговом окне  в поле Входной интервал вводится адрес диапазона данных. Переключатель Группирование ставится по столбцам или по строкам в зависимости от расположения Входного диапазона. Флажок Метки в первой строке (или столбце) устанавливается, если в первом столбце (строке)  содержатся названия. Установка флажка Уровень надежности отбрасывает данные с вероятностью меньше 5%. Флажки К-й наибольший (наименьший) позволяют включить в выходную таблицу строку k-го наибольшего (наименьшего значения). При k=1 в таблицу включается наибольшее (наименьшее) значение. В поле Выходной интервал набирается адрес верхней  левой ячейки выходного диапазона. Из двух столбцов: левого – с метками статистик и правого – с их значениями. Флажок Итоговая статистика используется для вывода числовых значений статистических параметров.

                                                                                    Таблица 1.2

Статистика

Значение

Комментарий

Среднее

139,738

Оценка среднего арифметического

Стандартная ошибка

5,21927

Стандарт погрешности оценки среднего арифметического

Медиана

125,5

«Срединное» значение вариант упорядоченной выборки

Мода

118

Наиболее часто встречающееся значение

Стандартное отклонение

67,6495

Оценка среднеквадратичного отклонения вариант

Дисперсия выборки

4576,46

Квадрат стандартного отклонения

Эксцесс

4,82795

Островершинность распределения

Асимметричность

1,82874

Скошенность распределения

Интервал

420

Размах

Минимум

50

Наименьшая варианта

Максимум

470

Наибольшая варианта

Сумма

23476

Сумма вариант

Счет

168

Количество вариант

Оценка, полученная по гипотезе о нормальном распрелделении  – 139,328 ± 4,931.

Следует обратить внимание, что значения эксцесса и асимметричности, что говорит не несоответствии распределения случайной величины нормальному. В этом случае рекомендуется проводить анализ на основе логарифмически-нормального распределения с последующим потенцированием результатов.

6.      Расчет и анализ логнормального распределения

После анализа значений эксцесса и асимметрии по результатам Описательной статистики перейти к расчету и анализу логарифмически нормального распределения.

1.                 В поле В1 ввести формулу =LN(A1).

2.                 Скопировать полученную формулу в ячейки В2:В168.

3.                 Установить курсор в ячейку D32.

4.                 Провести Анализ данных с помощью меню Гистограмма.

5.                 Установить курсор в ячейку D47. Провести Анализ данных с помощью меню Описательная статистика.

6.                 Установить курсор в ячейку F49, вызвать функцию ЕХР() и получить уточненное значение математического ожидания на основе значения ячейки Е49.

В результате мы получим следующие значения статистического среднего, эксцесса и асимметричности:

Сравнение эксцесса

Нормальное

Логнормальное

4,923502108

0,284173965

Сравнение ассиметричности

1,855698086

0,262093986

Статистического среднего

139,1428571

126, 2581782

Литература

1. Пикуза В., Гаращенко А. Экономические и финансовые расчеты в Excel. СПб: «Питер», 2004.