Моложенко Е.С., научный рук.: к.ф-м.н., профессор Куликов В.П.

Северо-Казахстанский Государственный Университет имени Манаша Козыбаева, г. Петропавловск, Республика Казахстан

Почему R не из нашего лексикона?

 

Увеличение объема потоков информации, глобализация коммуникаций и быстрые перемены сформировали основные черты современности - мобильность и динамичность. Можно с уверенностью сказать, что из года в год объем хранимой и обрабатываемой информации будет неуклонно расти. Все это приводит к необходимости создания все более мощных и производительных средств анализа данных. Как утверждает проректор высшей школы Annenberg School for Communication & Journalism при Университете Южной Калифорнии Мартин Хилберт - «Мы живем в мире, где состояние экономики, политические свободы и культурный рост все сильнее зависят от наших технологических возможностей».

Статистическая обработка данных - один из важных этапов получения новых знаний в науке и бизнесе. Статистическое программное обеспечение занимает в этом процессе ключевую роль. На рынке подобных программных средств существует определенная конкуренция. Больше всего известны и широко распространены такие универсальные математические среды, как Matlab, Statistica и SPSS. Все они предоставляют широкие возможности для реализации различных потребностей учебных заведений и крупных компаний в области анализа данных и научно-исследовательской деятельности. Основным минусом данных математических сред является их высокая стоимость.  На одном уровне с ними находится, пока еще редко используемая в Казахстане и странах СНГ, среда статистических вычислений, а так же язык программирования для статистической обработки данных и работы с графикой - система с коротким названием R.

R применяется во всех областях знаний, где необходима работа с данными. Это не только статистика в узком смысле слова, но и первичный анализ (графики, таблицы сопряжённости), и продвинутое математическое моделирование. R без особых проблем может использоваться и там, где сейчас принято использовать коммерческие программы анализа уровня Matlab и Statistica. С другой стороны вполне естественно, что основная вычислительная мощь R лучше всего проявляется при статистическом анализе: от вычисления средних величин до вейвлет-преобразований временных рядов.

География использования R очень разнообразна. Трудно найти американский или западноевропейский университет, где бы ни работали с R. В учебных заведениях R используется для обучения статистике, проведения первичного анализа данных, подтверждения или опровержения научных гипотез и много другого. Его используют ученые в самых разных областях науки. R используется для анализа данных, как в научной среде, так и в бизнесе. Надежность этого инструмента подтверждает и то, что специалисты Google, Facebook, Boeing, Bank of America и других крупных компаний успешно применяют его в своей работе. Среда R легко привлекает к себе новых пользователей среди статистиков, инженеров,  ученых и крупных компаний тем, что R можно быстро освоить даже не имея навыков программирования.

«Значение R трудно переоценить» - говорит Daryl Pregibon, исследователь, работающий в компании Google, который постоянно применяет R в своей работе, - «Он позволяет статистикам проводить очень сложные виды анализа без глубокого знания вычислительных систем». [1]

В 2010 году R вошёл в список победителей конкурса «InfoWorld Bossie Awards 2010: The best open source application development software» лучшего открытого программного обеспечения года.

Следует также отметить, что производители коммерческих программных продуктов не обошли вниманием R. Так StatSoft интегрировала свой продукт Statistica с R, не отстает и SPSS, их программа так же поддерживает работу с R, интерфейс для взаимодействия с языком R предлагает и SAS. Подобные примеры внедрения в разные программы свидетельствует о том, что язык статистических вычислений R может по праву считаться универсальным инструментом статистиков. [2]

Но если система R может удовлетворить потребности, возникающие в процессе обработки данных, то почему она малоизвестна в нашей стране, а среди тех, кто о ней слышал не каждый применяет ее на практике? Причины две: доступность нелицензионного проприетарного программного обеспечения и явный недостаток русскоязычной информации о среде R. Есть еще один довод против - это интерфейс, а точнее отсутствие привычного пользователям графического интерфейса. Есть сторонние разработки, но они не идут ни в какое сравнение с другими программами. Более того, стандартная комплектация R предполагает работу в командной строке. Хотя, поработав в таком режиме, становится понятно, что это оптимальный вариант для математической программы.

Можно сказать, что среда R - это один из мощных инструментов для статистического анализа. Гарантией его надежности является качественный состав основной группы разработчиков, а так же поддержка крупнейших компаний лидеров различных направлений бизнеса. Тот факт, что R распространяется бесплатно, позволяет применять его каждому: от сотрудника крупной компании, не жалеющей денег на исследования, до студента, изучающего статистику.

 

Литература:

 

1.            Ashlee Vance. Data Analysts Captivated by R’s Power. The New York Times, 6.01.2009.;

2.            Robert A. Muenchen, R for SAS and SPSS Users (Statistics and Computing) – Springer, 2008. – 753с.;