Филологические науки/ Теоретические
и методологические проблемы исследования языка
К.ф.н.
Лесников Сергей Владимирович
Сыктывкарский
государственный университет, Сыктывкар, Россия
serg@lsw.ru; gowor@online.ru; lsw@mail.ru; lsw@syktsu.ru
Расчет энтропии лингвистических
словарей
Данная статья подготовлена при финансовой
поддержке Российского фонда фундаментальных исследований по исследовательскому проекту (грант) N 11-07-00733 (2011-2013) «Гипертекстовый
информационно-поисковый тезаурус «Метаязык науки» (структура; математическое,
лингвистическое и программное обеспечения; разделы лингвистика, математика,
экономика)» (научный руководитель - С.В. Лесников) (см. работы Лесников С.В. и
др.).
Для формализованного (автоматического,
автоматизированного, алгебраического, аналитического, валентностного),
вычислительного, дистрибутивного, инженерного, квантитативного, комплексного,
компьютерного, количественного, контентного, математического, машинного (механистического,
статистического, численного, факторного, цифрового…) анализа словарей
лингвистических терминов надо определиться с базовыми понятиями: что именно и
по каким формулам можно считать. Основные понятия лингвистической статистики и
методические указания по применению математических методов см.: [Арапов М.В., Бектаев
К.Б., Гладкий А.В., Головин Б.Н., Зубов А.В., Красноперова М.А., Лапшин В.А.,
Лесников С.В., Лесохин М.М., Пиотровский Р.Г., Шемакин Ю.И. и др.].
Дефиниций слова «СЛОВО» настолько много,
насколько много и разных подходов и точек зрения. Пока единства в ученом мире
нет (Ахманова О.С., Будагов Р.А., Виноградов В.В., Галкина-Федорук Е.М.,
Смирницкий А.А., Шанский Н.М. и мн. др.).
Слово = материальный объект
(набор звуков и/или графем), обладающий фонетическими, лексико-семантическими и
грамматическими свойствами.
Для информатики ПРОБЛЕМА - как определять
границы слова? Аналитически (графемами) или предметно (напр., все допустимые
словоформы зафиксировать в словаре)? С нашей точки зрения, логично каждую
словоформу (лексему, словоупотребление, текстоформу), которую удалось
зафиксировать (что относительно просто сделать в процессе создания частотного
словаря) в каком-либо реальном тексте (художественном, научном и т.п.)
посчитать вокабулой (леммой, черным словом) и далее в словаре дать толкование
(непосредственно, отсылкой к др. словарной статье или даже к др. словарю).
Анализ текста может осуществляться по следующему
алгоритму: 1) по заранее определенному списку разделительных символов
(пунктуационных знаков, специальных знаков: конец строки, абзаца и др.)
исследуемый текст разбивается на порции
(том, книга, часть, раздел, глава, параграф, абзац, предложение, словоформа);
2) выделяются приставки, суффиксы, окончания (аффиксы, форманты,
терминоэлементы) для каждого слова; 3) определяется часть речи и уточняются
атрибуты и параметры для каждого слова с помощью соответствующих алгоритмов; 4)
определяются части предложения и др. синтаксические показатели; 5) определяются
субъекты и объекты в тексте и наличие связей между ними. Объекты и субъекты
образуют в своих отношениях модель проблемы. Привнесение вопроса к модели
замыкает ее.
Теоретически после обработки текста по такому
алгоритму можно решать некоторые задачи, задавая вопросы к тексту: - ответ на
которые содержится в тексте; - ответ на которые можно получить логическим выводом;
- для ответа на которые требуется наличие дополнительной базы знаний; - на
которые можно найти ответ, зная модель поведения, аргументы поведения личности.
Предложенный алгоритм прост, но для исполнения
человеком (с учётом уровня грамотности, образованности, начитанности), однако
для реализации на компьютере недостаточно формализован.
Собственно говоря, количественный анализ текста
предполагает расчёт ряда некоторых количественных, квантитативных,
математических, статистических, численных характеристик корпуса текстов, напр.,:
N = объем текста - число
лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа,
лексема) в тексте.
L = число ЛЕ в тексте,
которые встретились в тексте хотя бы один раз.
Lf1 = ЛЕ, которые
встретились в тексте только один раз.
Lfk
= число
ЛЕ, которые встретились в тексте с частотой больше одного раза.
r = ранг ЛЕ. Ранг ЛЕ может
измеряться следущим образом: а) по частоте встречаемости в тексте (или
фрагменте) – самая частотная ЛЕ имеет ранг равный 1 и далее ранг r
увеличивается по мере уменьшения частоты встречаемости ЛЕ в тексте (ЛЕ имеющие
одинаковую частоту имеют и равные ранги); б) по длине слова (напр., число букв
в ЛЕ); в) число значений ЛЕ (по толковым словарям).
Lr1 = максимальная
частотность ЛЕ.
Fi
=
абсолютная частота ЛЕ.
F*i = накопленная
абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих
абсолютных частот ЛЕ.
fi
= Fi
/ N - относительная частота ЛЕ.
f*i = F*i / N - накопленная относительная частота ЛЕ.
Hi
= - fi log fi -
удельная энтропия ЛЕ.
H*k = - накопленная
энтропия текста, равная сумме Hi.
Для
сопоставительного анализа приведем результаты компьютерной обработки словарей лингвистических
терминов /СЛТ/.
Таблица
1. Поэты,
представленные на сайте «МФРЯ» [http://МФРЯ.РФ].
Словарь |
N |
L |
Lf1 |
H*k |
1946
ЛС_1946 |
10047 |
7869 |
5830 |
11.0667238 |
1964
ЛСПШ_1964 Вахек Й. Лингвистический словарь Пражской школы |
84465 |
13421 |
6269 |
11.3911252 |
1966
СЛТ_1966 Ахманова О.С. СЛТ |
212089 |
34312 |
17974 |
11.7753887 |
1976
КЛС_1976 Нечаев Г.А. Краткий лингвистический словарь |
52812 |
11032 |
6428 |
10.7694430 |
1985
ССЛТ_1985 Розенталь Д.Э., Теленкова М.А. Словарь-справочник лингвистических
терминов |
120011 |
24009 |
14263 |
11.6801673 |
1991
КССР_1991 Касаткин Л.Л., Клобуков Е.В., Лекант П.А. Краткий справочник по современному РЯ |
106139 |
21955 |
13075 |
11.7985341 |
1995
КСЛТ_1995 Васильева Н.В., Виноградов В.А., Шахнарович А.М. Краткий СЛТ |
49198 |
12831 |
7860 |
11.3025317 |
1995
ССЛТ_1995 Эмирова А.М. Словарь-справочник лингвистических терминов |
20765 |
6475 |
4093 |
10.7825899 |
1997
КЛС_1997 Потапов В.В. Краткий лингвистический справочник. Языки и
письменность |
57194 |
12674 |
7704 |
11.0690418 |
2002
РЯШСС_2002 Стариченок В.Д. РЯ. Школьный словарь-справочник |
85598 |
20245 |
12170 |
11.8387248 |
2003
КТС_2003 Варпахович Л.В. Краткий терминологический словарь. Лингвистика в
таблицах и схемах |
14113 |
4977 |
3130 |
10.7614693 |
2003
ЛТС_2003 Апресян Ю.Д. Лингвистическая терминология словаря |
25405 |
6863 |
4056 |
10.8154680 |
2004
СРЛТ_2004 Абрегов А.Н. и др. Словарь русской лингвистической терминологии |
101061 |
21773 |
12682 |
11.6416942 |
2005
УСЛТ_2005 Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный СЛТ |
49912 |
13204 |
8140 |
11.4150880 |
2007
ШЛС_2007 Лемов А.Б. Школьный лингвистический словарь |
63389 |
13941 |
8163 |
11.3406605 |
2008 БЛС_2008
Стариченок В.Д. Большой лингвистический словарь |
215332 |
38937 |
21614 |
12.2231447 |
2008
ЭССЛТП_2008-1 Тихонов А.Н., ред. и др. Энц. сл.-спр. лингвистических терминов
и понятий РЯ. Т.1. |
338344 |
46400 |
25563 |
11.9057027 |
2008
ЭССЛТП_2008-2 Тихонов А.Н., ред. и др. Энц. сл.-спр. лингвистических терминов
и понятий РЯ. Т.2. |
319191 |
44503 |
24938 |
11.9542630 |
2010
Лесников С.В. Словарь базовых дефиниций определений терминов языкознания |
231037 |
41155 |
23136 |
12.2440281 |
2010
ПСЛТ_2010 Матвеева Т.В. Полный СЛТ |
154855 |
27836 |
15562 |
11.7920779 |
2010
СЛТ_2010 Жеребило Т.В. СЛТ |
266872 |
37648 |
19899 |
11.9881660 |
|
|
|
|
|
Словарь |
N |
L |
Lf1 |
H*k |
|
|
|
|
|
В
представленной таблице наглядно видно, что разброс уровня энтропии не велик. О
чём это может свидетельствовать?
Трактовка
энтропии требует дополнительных исследований и не только на данной выборке. Энтропия (от греч. entropía — поворот, превращение), понятие,
впервые введенное в термодинамике (введено Р. Клаузиусом в 1865
г.) для определения меры необратимого рассеяния энергии. Энтропия широко
применяется и в других областях науки. В информатике под энтропией понимается
мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо
символа первичного алфавита. В лингвистике, например,
под первичным алфавитом можно понимать традиционный алфавит, расширенный
знаками препинания и специальными разделителями (пробел, разметка, непечатные
невидимые на экране символы) или, полный набор ЛЕ (словоформ, текстоформ, лемм
и т.п.). При отсутствии информационных потерь энтропия равна количеству
информации на символ передаваемого сообщения. К.Шеннон предположил, что прирост информации
равен утраченной неопределённости, и задал требования к её измерению: 1) мера
должна быть непрерывной, т.е. изменение значения величины вероятности на малую
величину должно вызывать малое результирующее изменение функции; 2) в случае,
когда все варианты (в нашем случае - ЛЕ) равновероятны, увеличение количества
вариантов ЛЕ должно всегда увеличивать значение функции; 3) должна быть
возможность сделать выбор ЛЕ в два шага, в которых значение функции конечного
результата должно являться суммой функций промежуточных результатов. Таким
образом, показатель энтропии количественно характеризует уровень информационной
упорядоченности текста как системы, т.е. чем больше энтропия, тем менее
упорядочен текст, при этом, энтропия - это функция состояния: любому состоянию
системы можно придать вполне определенное значение энтропии (Шеннон К.,
Колмогоров А.Н., Пиотровский Р.Г.,
Бектаев К.Б., Арапов М.В.). Величина энтропии текста - это свойство этого
текста - степень его упорядоченности, степень его отклонения от
состояния полного хаоса, при котором все ЛЕ имели бы равную вероятность, а
текст превратился бы в бессмысленный набор ЛЕ. Упорядоченность
текста будет тем больше, чем больше различие вероятностей и чем
больше вероятность последующего события будет зависеть от вероятностей
предыдущих событий.
В
перспективе, целесообразно характеристики СЛТ сопоставить с терминологическими
словарями и отдельных разделов лингвистики, а также смежных дисциплин.
Литература
Андрющенко В.М. Вычислительная лексикография. Её
возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический
энциклопедический словарь. С.397
Арапов М.В. Квантитативная лингвистика. М.:
Наука, 1988.
Бектаев К.Б. Статистико-информационная типология
тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.
Бектаев К.Б., Пиотровский
Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и
моделирование текста. Алма-Ата, 1974.
Головин Б.Н. Язык и статистика. М.: Просвещение,
1970.
Зиндер Л.Р. О лингвистической вероятности // ВЯ.
1958. № 2. С.121-125.
Зубов А.В., Зубова И.И. Основы искусственного
интеллекта для лингвистов. М.: Университетская книга; Логос, 2007.
Зубова И.И. Информационные технологии в
лингвистике. Минск: МГЛУ, 2001.
Караулов Ю.Н., Андрющенко В.М. Автоматизация
лингвистических работ и создание МФ РЯ // Изв.АН СССР. 1988. Т.47. N1. С.3-11.
Карпов В.А. Язык как система. Минск: Выш. шк.,
1992.
Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как
средство формирования профессиональной компетентности будущего учителя
математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.
Кузнецова И.В., Лесников С.В. Разработка и
описание гипертекстового информационно-поискового тезауруса по алгебре //
Вестник Российского университета дружбы народов. Серия: информатизация
образования. Москва: РУДН, 2011. №3. С.70-76.
Лапшин В.А. Лекции по математической лингвистики.
М.: Научный мир, 2010.
Лесников Г.С., Лесникова Д.С., Лесников С.В.
Математический формализм статистического анализа текстов // Научные труды III
Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009).
Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.
Лесников Г.С., Лесникова Д.С., Лесников С.В.
Фундаментальные дефиниции и математические
формулы процедуры анализа текстов // Родной язык: проблемы теории и практики
преподавания. Борисоглебск: БГПИ, 2009. С.23-30.
Лесников Г.С., Лесникова Д.С., Лесников С.В.
Фундаментальные дефиниции и математические
формулы рекурсивной процедуры квантитативного анализа текстов //
Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009
С.233-235.
Лесников Г.С., Лесникова Д.С., Лесников С.В.
Фундаментальные дефиниции и математические формулы
количественного анализа текстов // Славянская филология: исследовательский и
методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.
Лесников С.В. Базовые блоки автоматизированной
лексикографической системы // Вестник Челябинского государственного
университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.
Лесников С.В. Галерея словарей русского языка и
текстов художественной литературы на основе новых информационных технологий в
виде открытого гипертекстового свода с адекватным представлением на сайтах и
серверах во всемирной компьютерной системе Internet и на современных
машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь:
Изд-во Таврического экологического института, 2001. С.30-31.
Лесников С.В. Гипертекст русского языка /
Русский язык на рубеже тысячелетий. Всероссийская конференция. 26-27 октября
2000г. Материалы докладов и сообщений в трех томах. Том II. Динамика синхронии.
Описание русского языка как этнокультурного феномена. Язык художественной
литературы. СПб.: Филологический факультет СПбГУ, 2001. С.360-371.
Лесников С.В. Гипертекст русского языка //
Русский язык: исторические судьбы и современность. Международный конгресс.
Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.
Лесников С.В. Гипертекстовое производство свода
лексики русского языка на основе новых информационных технологий как актуальный
процесс интерактивного управления формированием новых лексикографических знаний
в виде открытой системы с адекватным представлением во всемирной компьютерной
системе Internet // Языковое
сознание. Содержание и функционирование. ХIII международный симпозиум по
психолингвистике и теории коммуникации. Москва, 1-3июня 2000. / Ред. Е.Ф.
Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.
Лесников С.В. Гипертекстовый свод лексики
русского языка / Квантитативная лингвистика и семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.
Лесников С.В. Гипертекстовый свод определений
лингвистики (гиперсол) // Актуальные проблемы образования и науки: цели, задачи
и перспективы развития. Коряжма: Суров С.В., 2010. С.213-216.
Лесников С.В. Гипертекстовый свод русского языка
/ Проблемы прикладной лингвистики. Ч.2. Пенза: Приволжский Дом знаний, 2000.
С.6-7.
Лесников С.В. Гипертекстовый словарь базовых дефиниций,
интерпретаций, объяснений, определений, понятий, пояснений, разъяснений,
толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка лингвистики (языковедения,
языкознания) // Медиадискурс и проблемы медиаобразования. Омск: ОГУ им. Ф.М.Достоевского, 2011.
С.146-151.
Лесников С.В. Гипертекстовый словарь базовых экскурсов
терминов метаязыка лингвистики (языковедения,
языкознания) // Русский язык в контексте национальной культуры. Саранск:
Изд-во Мордов. ун-та, 2010. С.123-127.
Лесников С.В. Гипертекстовый тезаурус // Проблемы
гуманитаризации образования в малых городах: теория, практика и перспективы.
Коряжма: Суров С.В., 2010. С.336-345.
Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Гипертекст как
объект лингвистического исследования. Самара: ПГСГА, 2011. С.103-117.
Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Проблемы истории,
филологии, культуры. №3(33) 2011. Москва-Магнитогорск-Новосибирск: РАН,
2011. С.30-34.
Лесников С.В. Гипертекстовый тезаурус русского языка //
Русское слово в контексте культуры. Орёл: ОрелГТУ, 2008. С.213-217.
Лесников С.В. Дефиниции и формулы для
компьютерного анализа текстов // Прагмалингвистика и практика речевого общения.
Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.
Лесников С.В. Дефиниции и формулы для численного
анализа текстов // Русское народное слово в языке и речи. Арзамас-Саров: СГТ, 2009. С.219-226.
Лесников С.В. Дефиниции и формулы для численного
анализа текстов // Языки профессиональной коммуникации. Челябинск: ООО
«Энциклопедия», 2009. С.353-356.
Лесников С.В. Интерактивное моделирование
гипертекстового информационно-поискового тезауруса метаязыка науки на основе
реляционной базы лексикографических материалов русского языка // Перспективное
развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158.
Лесников С.В. Интерактивное моделирование
информационно-поискового тезауруса метаязыка науки на персональном
компьютере в режиме реального времени // Роль иностранного языка в модернизации
современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74. (100
экз.) ISBN 978-5-91556-058-0.
Лесников С.В. Информационно-поисковая система
лексико-семантических вариантов вокабул // Актуальные проблемы современного
научного знания. Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.
Лесников С.В. Квантитативный анализ
лексикографических материалов // Русский язык: исторические судьбы и
современность. Труды и материалы. МГУ, 2010. С.521-522.
Лесников С.В. Компьютерная версия
"Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность.
Труды и материалы // МГУ, 2007. С.621.
Лесников С.В. Конструирование русского
лексического универсума // Русский язык в контексте межкультурной
коммуникации. Самара: ПГСГА, 2011. С.392-404.
Лесников С.В. Лексико-семантическая основа
информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные
информационных технологий и ИТ-технологии. М.: ИНТУИТ.РУ, 2011.
С.706-713.
Лесников С.В. Моделирование тезауруса метаязыка лингвистики на базе
гипертекстовых фреймов // Вестник Вятского
государственного гуманитарного университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.
Лесников С.В. Направления и разделы лингвистики
в систематическом указателе гипертекстового информационно-поискового тезауруса метаязыка лингвистики // Человек в
информационном пространстве. Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2.
С.214-222.
Лесников С.В. О гипертекстовом генеральном своде
лексики русского языка в Internet // Компьютерная
лингвистика и обучение языкам / Отв. ред. А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.
Лесников С.В. Опыт использования русского языка
для реализации интерактивного режима обработки информации // Linguistics by the
End of the XXth Century: Achievements and Perspectives. Vol. II. Moscow:
Philologia Publishers, 1995. P.587-588.
Лесников С.В. Поиск лексики на основе
гипертекстового тезауруса русского языка //
Русский язык в современном мире. Биробиджан: Изд-во
ДВГСГА, 2009. С.60-64.
Лесников С.В. Поиск лексики на основе
гипертекстового тезауруса русского языка //
Изменяюшийся славянский мир: новое в лингвистике. Вып.2. Севастополь: Рибэст,
2009. С.441-445.
Лесников С.В. Проект конструирования русского
тезауруса // Славянские языки
и культуры: прошлое, настоящее, будущее. Иркутск: ИГЛУ, 2011. С.153-163.
Лесников С.В. Процедура разработки
информационно-поискового тезауруса метаязыка науки // Вопросы
современной лингвистики и методики обучения иностранным языкам в школе и
вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234.
Лесников С.В. Расчет энтропии текстов русской
поэзии XIX-XX веков и индексов дистрибуции, итерации, исключительности,
предсказуемости, плотности // Родной язык: проблемы теории и практики
преподавания. Борисоглебск: БГПУ, 2011. С.81-87.
Лесников С.В. Русский гипертекстовый тезаурус (гизаурус) / Проектирование инновационных процессов в социокультурной
и образовательной сферах. Ч.2. Сочи: РИО СГУТиКД, 2002. С.54-55.
Лесников С.В. Словарь русских словарей. 10
компакт-дисков. М.: Минобр РФ, Гос. Координационный центр информационных
технологий. Отраслевой фонд алгоритмов и программ, 24 апреля 2003. №2538.
Информационно-библиотечный фонд РФ № гос. регистрации: 502000300341 от 29
апреля 2003 года.
Лесников С.В. Словарь русских словарей: более
3500 источников / Предисловие проф. В.В. Дубичинского. Рецензенты: В.М. Андрющенко, Р.П. Рогожникова, Г.И. Тираспольский.. М.: Азбуковник, 2002. 334 с. (500 экз). ISBN
5-88744-047-3
Лесников С.В. Тезаурус как отражение
системности языка // Вестник ЧелГУ. Серия: филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.
Лесников С.В. Типология программного обеспечения
для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011.
С.80-85. (100 экз.) ISBN 978-5-8170-0166-2.
Лесников С.В. Типология русских словарей
лингвистической терминологии // Мир науки, культуры, образования. №6(31) 2011.
Часть 2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.
Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник
Поморского университета. Серия "Гуманитарные и социальные науки".
№4. Архангельск: ПГУ, 2011. С.84-89.
Лесников С.В., Калашников Э.В. К задаче
классификации диалектов языка на основе их семантико-статистических связей //
Компьютеризация лингвистических исследований // Альманах “ГОВОР”. Май 1995.
С.41-56.
Лесников С.В., Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ
на основе синонимических рядов // Третья Всесоюзная конференция по созданию
Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.
Лесохин М.М., Лукьяненков К.Ф., Пиотровский Р.Г.
Введение в математическую лингвистику. Мн.:Наука и техника, 1982.
Марчук Ю.Н. Компьютерная лингвистика. М.:
Восток-Запад, 2007.
Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского
языка // Вопросы языкознания. 1962. N6. С.115-130.
Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.
Математическая лингвистика. М.: Высш. шк., 1977.
Тузов В.А. Математическая модель языка. Л.:
ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.
Филиппович Ю.Н. Ч.1. Семантические исследования
естественно-языкового описания.
http://www.philippovich.ru/Library/Books/Semantics_IT/gl1_2/glava1_2.htm
Шемакин Ю.И.
Начала компьютерной лингвистики.
М.: МГОУ, 1992.
Шеннон К. Работы по теории информации и
кибернетике. М.: Изд. иностр. лит., 2002. Shannon C.E. A mathematical
theory of communication. Bell System Technical Journal, vol. 27, pp.
379-423 and 623-656, July and October, 1948.