Филологические науки/
Теоретические и методологические проблемы исследования языка
К.ф.н.,
доц. Лесников Сергей Владимирович
Сыктывкарский
государственный университет, Сыктывкар, Россия
serg@lsw.ru; lsw@mail.ru; lsw@syktsu.ru www.lsw.ru http://ЛСВ.РФ.
Расчёт индекса
исключительности русских
словарей лингвистических терминов
Данная
статья публикуется при финансовой поддержке Российского фонда фундаментальных
исследований по исследовательскому
проекту (грант) N 11-07-00733
(2011-2013) «Гипертекстовый [Лесников С.В. Омск, 2011. С.146-151]
информационно-поисковый [Лесников С.В. Комсомольск–на–Амуре, 2011.
С.227-234] тезаурус [Лесников С.В.
Иркутск, 2011. С.153-163] /ИПТ/
«Метаязык [Лесников С.В. Курск, 2011. С.11-16]
науки [Лесников С.В. Москва-Магнитогорск-Новосибирск, 2011. С.30-34]»
(структура; математическое, лингвистическое [Лесников С.В. Челябинск, 2011.
С.200-202] и программное обеспечения [Лесников С.В. Биробиджан, 2011. С.80-85];
разделы лингвистика [Лесников С.В. Ярославль, 2011. С.214-222], математика
[Кузнецова И.В., Лесников С.В. М., 2011. С.70-76], экономика [Лесников С.В.,
Найденов Н.Д., Новокшонова Е.Н. Красноярск, 2011. С.138-150]) (научный
руководитель С.В. Лесников)» [ЛСВ.РФ,
ГИЗАУРУС.РФ, МФРЯ.РФ, agora.guru.ru/conf_iitnio-2011, lsw.ru, umk.lsw.ru,
www.mmik.ru, moodle.syktsu.ru, subscribe.ru/catalog/linguistics.kto,
subscribe.ru/catalog/linguistics.rusling, www.famous-scientists.ru/2965,
subscribe.ru/science.humanity.hypervault].
Ключевые
слова: гизаурус, лингвистика, метаязык,
поиск, тезаурус, текст, язык.
Для формализованного (автоматического, автоматизированного,
алгебраического, аналитического, валентностного), вычислительного,
дистрибутивного, инженерного, квантитативного, кибернетического, комплексного
(программа ВААЛ), компьютерного, количественного, контентного, математического
[Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.; Гладкий А.В.; Беляевская
М.И.; Пальм Р.], машинного, механистического, статистического, численного,
факторного, цифрового…) анализа текстовой информации надо определиться с
базовыми понятиями: что именно и по каким формулам будем считать. Основные
понятия лингвистической статистики и методические указания по применению
математических методов можно найти у К.Б.Бектаева и Р.Г.Пиотровского [Бектаев
1974].
Количественный анализ текста предполагает расчёт
ряда некоторых количественных, квантитативных, математических, статистических,
численных характеристик корпуса лексикографических источников, напр.,:
N = объём текста = число
лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа,
лексема) в тексте.
Nletter = число
букв в тексте.
Nsyllable = число
слогов в тексте.
Nclause = число предложений в тексте.
L = число ЛЕ в тексте,
которые встретились в тексте хотя бы один раз.
Lf1 = ЛЕ, которые
встретились в тексте только один раз.
Lfk
= число
ЛЕ, которые встретились в тексте с частотой больше одного раза.
Lr1 = максимальная
частотность ЛЕ.
Fi
=
абсолютная частота ЛЕ.
F*i = накопленная
абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих
абсолютных частот ЛЕ.
fi
= Fi
/ N - относительная частота ЛЕ.
f*i = F*i / N - накопленная относительная частота ЛЕ.
Lword = средняя длина слова в буквах (среднее число
букв в слове, подсчитанное для каждой выборки).
Lclause =
средняя длина предложений в словах (среднее число слов в предложении,
подсчитанное для каждой выборки); = длина i предложения.
Lsyllable = средняя длина слов в
слогах (среднее число слогов в слове, подсчитанное для каждой выборки).
Lsyllable3
= среднее
число "длинных" слов (более трех слогов). Lsyllable3 i = число
"длинных" слов в i предложении.
Lempty = количество служебных слов в предложении
(среднее число союзов, предлогов и частиц в предложении для каждой выборки).
Hi
= - fi log fi
- удельная энтропия ЛЕ.
H*k = - накопленная энтропия текста, равная сумме Hi.
IC = (fr12+
L2)^1/2 - индекс
дистрибуции (чем IC больше, тем богаче словарь текста).
Ii =
индекс итерации (повторения ЛЕ в замкнутом тексте) Ii= N/L.
Ie =
индекс исключительности (специфичности) лексики Ie=20*Lf1/N.
Iq = Lfk/N - индекс плотности
текста (чем богаче тематика, тем выше Iq, чем однообразнее тема, тем
Iq ниже ).
IP
= индекс предсказуемости (предполагается, что чем IP меньше, тем
привлекательнее текст) IP = 100 - (Lf1*100)/N .
n = число
абзацев в тексте.
m = число абзацев текста, в которых встретилась ЛЕ.
K i = Fi * m / (N * n) коэффициент важности ЛЕ.
Iext
= объем экстенсивности словаря текста. Пропорционален широте лексики,
разнообразию выражения.
If
= индекс стереотипности текста. Длина интервала средней части повторяющихся ЛЕ.
Если If больше, то главное не форма, а содержание (для беглого
нестилизованного чтения, спонтанная речь). If меньше у
художественных текстов, беллетристики.
Таблица.
Словари лингвистических терминов /СЛТ/.
Словарь |
Слов (ЛЕ) N |
ЛЕ хотя бы один раз L |
ЛЕ только один раз Lf1 |
ЛЕ чаще чем раз Lfk |
Индекс исключительности Ie |
1946 Жирков Л.И. Лингвистический словарь |
42333 |
9509 |
5439 |
4070 |
2.5696265324923817 |
1964 Вахек Й. Лингвистический словарь Пражской школы |
58706 |
9412 |
5134 |
4278 |
1.7490546111130039 |
1966 Ахманова О.С. Словарь лингвистических терминов |
181641 |
24742 |
12587 |
12155 |
1.3859205796048248 |
1976 Нечаев Г.А. Краткий лингвистический словарь |
52144 |
10571 |
6053 |
4518 |
2.3216477447069654 |
1985 Розенталь
Д.Э., Теленкова М.А. Сл.-справочник лингвистических терминов |
119266 |
23488 |
13816 |
9672 |
2.3168379923867657 |
1991 Касаткин
Л.Л., Клобуков Е.В., Лекант П.А.
Краткий справочник по совр. РЯ |
105331 |
21542 |
12747 |
8795 |
2.4203700714889256 |
1995 Васильева
Н.В., Виноградов В.А., Шахнарович А.М. Краткий СЛТ |
48881 |
12549 |
7610 |
4939 |
3.1136842535954665 |
1995 Эмирова А.М. Словарь-справочник лингвистических терминов |
20137 |
6024 |
3726 |
2298 |
3.7006505437751405 |
1997 Потапов
В.В. Краткий лингвист. справочник. Языки и письменность |
55649 |
11806 |
6986 |
4820 |
2.510736940466136 |
2002 Стариченок В.Д. Русский язык Школьный словарь-справочник |
84995 |
19847 |
11841 |
8006 |
2.7862815459732926 |
2003 Варпахович
Л.В. Краткий термин. словарь. Лингвистика в таблицах и схемах |
13598 |
4619 |
2845 |
1774 |
4.184438888071775 |
2003 Апресян Ю.Д. Лингвистическая терминология словаря (из
Нового объяснительного словаря синонимов РЯ) |
25267 |
6831 |
4039 |
2792 |
3.197055447817311 |
2004 Абрегов А Н и др Словарь русской лингвистической
терминологии |
96158 |
19451 |
11057 |
8394 |
2.299756650512698 |
2005 Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный СЛТ |
49613 |
13019 |
7993 |
5026 |
3.2221393586358413 |
2007 Лемов А.Б. Школьный лингвистический словарь |
63099 |
13765 |
8031 |
5734 |
2.5455237008510436 |
2008 Стариченок В.Д. Большой лингвистический словарь |
210067 |
37576 |
20526 |
17050 |
1.9542336492642824 |
2008 Тихонов
А.Н. ред. Энц. сл.-спр. Лингвист. терминов и понятий РЯ. Т.1 |
335461 |
45534 |
24861 |
20673 |
1.4821991229979044 |
2008 Тихонов
А.Н. ред. Энц. сл.-спр. Лингвист. терминов и понятий РЯ. Т.2 |
314512 |
43614 |
24266 |
19348 |
1.5430889759373252 |
2010 Лесников С.В. Словарь базовых дефиниций определений
терминов языкознания |
227906 |
39696 |
22103 |
17593 |
1.9396593332338772 |
2010 Матвеева Т.В. Полный СЛТ |
154396 |
27705 |
15473 |
12232 |
2.004326536956916 |
2010 Жеребило Т.В. СЛТ |
265097 |
36831 |
19253 |
17578 |
1.4525249248388326 |
В представленной таблице
наглядно видно, что разброс полученных количественных характеристик
относительно не велик, что, очевидно, требует дополнительных исследований и не
только на данной выборке.
Литература
1. Андрющенко В.М.
Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3.
С.42-53. Лингвистический энциклопедический словарь. С.397
2. Бектаев К.Б.
Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР,
1978. 184с.
3. Бектаев К.Б.,
Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая
статистика и моделирование текста. Алма-Ата, 1974.
4. Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как
средство формирования профессиональной компетентности будущего учителя
математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.
5. Кузнецова И.В., Лесников
С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы
народов. Серия: информатизация образования. Москва: РУДН, 2011. №3.
С.70-76.
6. Лапшин В.А. Лекции по
математической лингвистики. М.: Научный мир, 2010.
7. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Математический формализм статистического анализа текстов //
Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20
сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.
8. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов //
Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009.
С.23-30.
9. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры
квантитативного анализа текстов // Национально-культурный компонент в тексте и
языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.
10. Лесников Г.С., Лесникова
Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов //
Славянская филология: исследовательский и методический аспекты. Томск: Изд-во
ТомскГПУ, 2009. Вып.2. С.216-231.
11. Лесников С.В. Базовые
блоки автоматизированной лексикографической системы // Вестник Челябинского
государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.
12. Лесников С.В. Галерея
словарей русского языка и текстов художественной литературы на основе новых
информационных технологий в виде открытого гипертекстового свода с адекватным
представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии
языковой коммуникации. Симферополь: Изд-во Таврического экологического
института, 2001. С.30-31.
13. Лесников С.В. Гипертекст
русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция.
26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II.
Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык
художественной литературы. СПб.: Филологический факультет СПбГУ, 2001.
С.360-371.
14. Лесников С.В. Гипертекст
русского языка // Русский язык: исторические судьбы и современность.
Международный конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001.
С.413-414.
15. Лесников С.В.
Гипертекстовое производство свода лексики русского языка на основе новых
информационных технологий как актуальный процесс интерактивного управления
формированием новых лексикографических знаний в виде открытой системы с
адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII
международный симпозиум по психолингвистике и теории коммуникации. Москва,
1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.
16. Лесников С.В.
Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и
семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.
17. Лесников С.В.
Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования. Самара: ПГСГА, 2011. С.103-117.
18. Лесников С.В.
Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33)
2011. Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.
19. Лесников С.В.
Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл:
ОрелГТУ, 2008. С.213-217.
20. Лесников С.В. Дефиниции
и формулы для компьютерного анализа текстов // Прагмалингвистика и практика
речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.
21. Лесников С.В. Дефиниции
и формулы для численного анализа текстов // Русское народное слово в языке и
речи. Арзамас-Саров: СГТ, 2009. С.219-226.
22. Лесников С.В. Дефиниции
и формулы для численного анализа текстов // Языки профессиональной
коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.
23. Лесников С.В.
Интерактивное моделирование гипертекстового ИПТ метаязыка науки на основе реляционной базы лексикографических материалов
русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158.
24. Лесников С.В.
Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени //
Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.
25. Лесников С.В.
Информационно-поисковая система лексико-семантических вариантов вокабул //
Актуальные проблемы современного научного знания. Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.
26. Лесников С.В.
Квантитативный анализ лексикографических материалов // Русский язык:
исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.
27. Лесников С.В.
Компьютерная версия "Энциклопедия академического журнала "Вопросы
языкознания" // Русский язык: исторические судьбы и современность.
Труды и материалы // МГУ, 2007. С.621.
28. Лесников С.В.
Конструирование русского лексического универсума // Русский язык в контексте
межкультурной коммуникации. Самара: ПГСГА, 2011. С.392-404.
29. Лесников С.В.
Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии.
М.: ИНТУИТ.РУ, 2011. С.706-713.
30. Лесников С.В.
Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного
университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.
31. Лесников С.В.
Направления и разделы лингвистики в систематическом указателе гипертекстового
информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве.
Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222.
32. Лесников С.В. О
гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред.
А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.
33. Лесников С.В. Проект конструирования
русского тезауруса // Славянские языки и культуры: прошлое, настоящее,
будущее. Иркутск: ИГЛУ, 2011. С.153-163.
34. Лесников С.В. Процедура
разработки информационно-поискового тезауруса метаязыка науки // Вопросы современной лингвистики и методики обучения
иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234.
35. Лесников С.В. Расчет
энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации,
исключительности, предсказуемости, плотности // Родной язык: проблемы теории и
практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.
36. Лесников С.В. Словарь
русских словарей: более 3500 источников. М.: Азбуковник, 2002. 334 с.
37. Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия:
филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.
38. Лесников С.В. Типология
программного обеспечения для компьютерного анализа текстов // Русский язык в
современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011.
С.80-85.
39. Лесников С.В. Типология
русских словарей лингвистической терминологии // Мир науки, культуры,
образования. №6(31). Ч2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.
40. Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия
"Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.
41. Лесников С.В.,
Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ
на основе синонимических рядов // Третья Всесоюзная конференция по созданию
Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.
42. Лесохин М.М.,
Лукьяненков К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.:
Наука и техника, 1982.
43. Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка. ВЯ. 1962.N6. С.115-130.
44. Пиотровский Р.Г.,
Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.
45. Тузов В.А.
Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.
46. Филиппович Ю.Н. Ч.1.
Семантические исследования естественно-языкового описания.
http://www.philippovich.ru/Library/Books/Semantics IT/gl1 2/glava1 2.htm
47. Шемакин Ю.И. Начала компьютерной лингвистики. М.: МГОУ, 1992.
48. Шеннон К. Работы по
теории информации и кибернетике. М.:
Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell
System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and
October, 1948.