Филологические науки/ Теоретические и методологические проблемы исследования языка

К.ф.н. Лесников Сергей Владимирович

Сыктывкарский государственный университет, Сыктывкар, Россия

serg@lsw.ru; gowor@online.ru; lsw@mail.ru; lsw@syktsu.ru

www.lsw.ru и http://ЛСВ.РФ.

Расчет энтропии лингвистических словарей

Данная статья подготовлена при финансовой поддержке Российского фонда фундаментальных исследований  по исследовательскому проекту  (грант) N 11-07-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика)» (научный руководитель - С.В. Лесников) (см. работы Лесников С.В. и др.).

Для формализованного (автоматического, автоматизированного, алгебраического, аналитического, валентностного), вычислительного, дистрибутивного, инженерного, квантитативного, комплексного, компьютерного, количественного, контентного, математического, машинного (механистического, статистического, численного, факторного, цифрового…) анализа словарей лингвистических терминов надо определиться с базовыми понятиями: что именно и по каким формулам можно считать. Основные понятия лингвистической статистики и методические указания по применению математических методов см.: [Арапов М.В., Бектаев К.Б., Гладкий А.В., Головин Б.Н., Зубов А.В., Красноперова М.А., Лапшин В.А., Лесников С.В., Лесохин М.М., Пиотровский Р.Г., Шемакин Ю.И. и др.].

Дефиниций слова «СЛОВО» настолько много, насколько много и разных подходов и точек зрения. Пока единства в ученом мире нет (Ахманова О.С., Будагов Р.А., Виноградов В.В., Галкина-Федорук Е.М., Смирницкий А.А., Шанский Н.М. и мн. др.).

Слово = материальный объект (набор звуков и/или графем), обладающий фонетическими, лексико-семантическими и грамматическими свойствами.

Для информатики ПРОБЛЕМА - как определять границы слова? Аналитически (графемами) или предметно (напр., все допустимые словоформы зафиксировать в словаре)? С нашей точки зрения, логично каждую словоформу (лексему, словоупотребление, текстоформу), которую удалось зафиксировать (что относительно просто сделать в процессе создания частотного словаря) в каком-либо реальном тексте (художественном, научном и т.п.) посчитать вокабулой (леммой, черным словом) и далее в словаре дать толкование (непосредственно, отсылкой к др. словарной статье или даже к др. словарю).

Анализ текста может осуществляться по следующему алгоритму: 1) по заранее определенному списку разделительных символов (пунктуационных знаков, специальных знаков: конец строки, абзаца и др.) исследуемый  текст разбивается на порции (том, книга, часть, раздел, глава, параграф, абзац, предложение, словоформа); 2) выделяются приставки, суффиксы, окончания (аффиксы, форманты, терминоэлементы) для каждого слова; 3) определяется часть речи и уточняются атрибуты и параметры для каждого слова с помощью соответствующих алгоритмов; 4) определяются части предложения и др. синтаксические показатели; 5) определяются субъекты и объекты в тексте и наличие связей между ними. Объекты и субъекты образуют в своих отношениях модель проблемы. Привнесение вопроса к модели замыкает ее.

Теоретически после обработки текста по такому алгоритму можно решать некоторые задачи, задавая вопросы к тексту: - ответ на которые содержится в тексте; - ответ на которые можно получить логическим выводом; - для ответа на которые требуется наличие дополнительной базы знаний; - на которые можно найти ответ, зная модель поведения, аргументы поведения личности.

Предложенный алгоритм прост, но для исполнения человеком (с учётом уровня грамотности, образованности, начитанности), однако для реализации на компьютере недостаточно формализован.

Собственно говоря, количественный анализ текста предполагает расчёт ряда некоторых количественных, квантитативных, математических, статистических, численных характеристик корпуса текстов, напр.,:

N = объем текста - число лексических единиц /ЛЕ/ (ЛЕ = словоупотребление, словоформа, текстоформа, лексема) в тексте.

L = число ЛЕ в тексте, которые встретились в тексте хотя бы один раз.

Lf1 = ЛЕ, которые встретились в тексте только один раз.

Lfk = число ЛЕ, которые встретились в тексте с частотой больше одного раза.

r = ранг ЛЕ. Ранг ЛЕ может измеряться следущим образом: а) по частоте встречаемости в тексте (или фрагменте) – самая частотная ЛЕ имеет ранг равный 1 и далее ранг r увеличивается по мере уменьшения частоты встречаемости ЛЕ в тексте (ЛЕ имеющие одинаковую частоту имеют и равные ранги); б) по длине слова (напр., число букв в ЛЕ); в) число значений ЛЕ (по толковым словарям).

Lr1 = максимальная частотность ЛЕ.

Fi = абсолютная частота ЛЕ.

F*i = накопленная абсолютная частота ЛЕ = сумме частоты данной ЛЕ и всем предшествующих абсолютных частот ЛЕ.

fi  = Fi / N - относительная частота ЛЕ.

f*i = F*i  / N - накопленная относительная частота ЛЕ.

Hi = - fi  log fi - удельная энтропия ЛЕ.

H*k =  - накопленная энтропия текста, равная сумме Hi.

 

Для сопоставительного анализа приведем результаты компьютерной обработки словарей лингвистических терминов /СЛТ/.


Таблица 1. Поэты, представленные на сайте «МФРЯ» [http://МФРЯ.РФ].

Словарь

N

L

Lf1

H*k

1946 ЛС_1946
Жирков Л.И. Лингвистический словарь

10047

7869

5830

11.0667238

1964 ЛСПШ_1964 Вахек Й. Лингвистический словарь Пражской школы

84465

13421

6269

11.3911252

1966 СЛТ_1966 Ахманова О.С. СЛТ

212089

34312

17974

11.7753887

1976 КЛС_1976 Нечаев Г.А. Краткий лингвистический словарь

52812

11032

6428

10.7694430

1985 ССЛТ_1985 Розенталь Д.Э., Теленкова М.А. Словарь-справочник лингвистических терминов

120011

24009

14263

11.6801673

1991 КССР_1991 Касаткин Л.Л., Клобуков Е.В., Лекант П.А.  Краткий справочник по современному РЯ

106139

21955

13075

11.7985341

1995 КСЛТ_1995 Васильева Н.В., Виноградов В.А., Шахнарович А.М. Краткий СЛТ

49198

12831

7860

11.3025317

1995 ССЛТ_1995 Эмирова А.М. Словарь-справочник лингвистических терминов

20765

6475

4093

10.7825899

1997 КЛС_1997 Потапов В.В. Краткий лингвистический справочник. Языки и письменность

57194

12674

7704

11.0690418

2002 РЯШСС_2002 Стариченок В.Д. РЯ. Школьный словарь-справочник

85598

20245

12170

11.8387248

2003 КТС_2003 Варпахович Л.В. Краткий терминологический словарь. Лингвистика в таблицах и схемах

14113

4977

3130

10.7614693

2003 ЛТС_2003 Апресян Ю.Д. Лингвистическая терминология словаря

25405

6863

4056

10.8154680

2004 СРЛТ_2004 Абрегов А.Н. и др. Словарь русской лингвистической терминологии

101061

21773

12682

11.6416942

2005 УСЛТ_2005 Брусенская Л.А., Гаврилова Г.Ф., Малычева Н.В. Учебный СЛТ

49912

13204

8140

11.4150880

2007 ШЛС_2007 Лемов А.Б. Школьный лингвистический словарь

63389

13941

8163

11.3406605

2008 БЛС_2008 Стариченок В.Д. Большой лингвистический словарь

215332

38937

21614

12.2231447

2008 ЭССЛТП_2008-1 Тихонов А.Н., ред. и др. Энц. сл.-спр. лингвистических терминов и понятий РЯ. Т.1.

338344

46400

25563

11.9057027

2008 ЭССЛТП_2008-2 Тихонов А.Н., ред. и др. Энц. сл.-спр. лингвистических терминов и понятий РЯ. Т.2.

319191

44503

24938

11.9542630

2010 Лесников С.В. Словарь базовых дефиниций определений терминов языкознания

231037

41155

23136

12.2440281

2010 ПСЛТ_2010 Матвеева Т.В. Полный СЛТ

154855

27836

15562

11.7920779

2010 СЛТ_2010 Жеребило Т.В. СЛТ

266872

37648

19899

11.9881660

 

 

 

 

 

Словарь

N

L

Lf1

H*k

 

 

 

 

 

В представленной таблице наглядно видно, что разброс уровня энтропии не велик. О чём это может свидетельствовать?

Трактовка энтропии требует дополнительных исследований и не только на данной выборке. Энтропия (от греч. entropía — поворот, превращение), понятие, впервые введенное в термодинамике (введено Р. Клаузиусом в 1865 г.)  для определения меры необратимого рассеяния энергии. Энтропия широко применяется и в других областях науки. В информатике под энтропией понимается мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита. В лингвистике, например, под первичным алфавитом можно понимать традиционный алфавит, расширенный знаками препинания и специальными разделителями (пробел, разметка, непечатные невидимые на экране символы) или, полный набор ЛЕ (словоформ, текстоформ, лемм и т.п.). При отсутствии информационных потерь энтропия равна количеству информации на символ передаваемого сообщения. К.Шеннон предположил, что прирост информации равен утраченной неопределённости, и задал требования к её измерению: 1) мера должна быть непрерывной, т.е. изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции; 2) в случае, когда все варианты (в нашем случае - ЛЕ) равновероятны, увеличение количества вариантов ЛЕ должно всегда увеличивать значение функции; 3) должна быть возможность сделать выбор ЛЕ в два шага, в которых значение функции конечного результата должно являться суммой функций промежуточных результатов. Таким образом, показатель энтропии количественно характеризует уровень информационной упорядоченности текста как системы, т.е. чем больше энтропия, тем менее упорядочен текст, при этом, энтропия - это функция состояния: любому состоянию системы можно придать вполне определенное значение энтропии (Шеннон К., Колмогоров А.Н.,  Пиотровский Р.Г., Бектаев К.Б., Арапов М.В.). Величина энтропии текста - это свойство этого текста - степень его упорядо­ченности, степень его отклонения от состояния полного хаоса, при котором все ЛЕ имели бы равную вероят­ность, а текст превратился бы в бессмысленный набор ЛЕ. Упорядоченность текста будет тем больше, чем больше различие вероятностей и чем больше вероятность последующего события будет зависеть от вероятностей предыдущих событий. 

В перспективе, целесообразно характеристики СЛТ сопоставить с терминологическими словарями и отдельных разделов лингвистики, а также смежных дисциплин.

Литература

Андрющенко В.М. Вычислительная лексикография. Её возможности и перспективы // ВЯ.1986.№3. С.42-53. Лингвистический энциклопедический словарь. С.397

Арапов М.В. Квантитативная лингвистика. М.: Наука, 1988.

Бектаев К.Б. Статистико-информационная типология тюркского текста. Алма-Ата: Наука КазССР, 1978. 184с.

Бектаев К.Б., Пиотровский Р.Г. Математические методы в языкознании. Ч.2. Математическая статистика и моделирование текста. Алма-Ата, 1974.

Головин Б.Н. Язык и статистика. М.: Просвещение, 1970.

Зиндер Л.Р. О лингвистической вероятности // ВЯ. 1958. № 2. С.121-125.

Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. М.: Университетская книга; Логос, 2007.

Зубова И.И. Информационные технологии в лингвистике. Минск: МГЛУ, 2001.

Караулов Ю.Н., Андрющенко В.М. Автоматизация лингвистических работ и создание МФ РЯ // Изв.АН СССР. 1988. Т.47. N1. С.3-11.

Карпов В.А. Язык как система. Минск: Выш. шк., 1992.

Кузнецова И.В., Лесников С.В. Компетентностно-ориентированные задания как средство формирования профессиональной компетентности будущего учителя математики и информатики // Казанская наука. №8. 2011. Казань: Изд-во Казанский Издательский Дом, 2011. С.268-271.

Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового информационно-поискового тезауруса по алгебре // Вестник Российского университета дружбы народов. Серия: информатизация образования. Москва: РУДН, 2011. №3. С.70-76.

Лапшин В.А. Лекции по математической лингвистики. М.: Научный мир, 2010.

Лесников Г.С., Лесникова Д.С., Лесников С.В. Математический формализм статистического анализа текстов // Научные труды III Международной школы-симпозиума АМУР-2009 (Севастополь, 14-20 сентября 2009). Симферополь: ТНУ им. В.И. Вернадского, 2009. С.147-157.

Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы процедуры анализа текстов // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПИ, 2009. С.23-30.

Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы рекурсивной процедуры квантитативного анализа текстов // Национально-культурный компонент в тексте и языке. Часть 2. Минск: МГЛУ, 2009 С.233-235.

Лесников Г.С., Лесникова Д.С., Лесников С.В. Фундаментальные дефиниции и математические формулы количественного анализа текстов // Славянская филология: исследовательский и методический аспекты. Томск: Изд-во ТомскГПУ, 2009. Вып.2. С.216-231.

Лесников С.В. Базовые блоки автоматизированной лексикографической системы // Вестник Челябинского государственного университета. Серия: филология, искусствоведение. Вып. 60. №33(248). Челябинск: ЧелГУ, 2011. С.200-202.

Лесников С.В. Галерея словарей русского языка и текстов художественной литературы на основе новых информационных технологий в виде открытого гипертекстового свода с адекватным представлением на сайтах и серверах во всемирной компьютерной системе Internet и на современных машинных носителях / Когнитивные сценарии языковой коммуникации. Симферополь: Изд-во Таврического экологического института, 2001. С.30-31.

Лесников С.В. Гипертекст русского языка / Русский язык на рубеже тысячелетий. Всероссийская конференция. 26-27 октября 2000г. Материалы докладов и сообщений в трех томах. Том II. Динамика синхронии. Описание русского языка как этнокультурного феномена. Язык художественной литературы. СПб.: Филологический факультет СПбГУ, 2001. С.360-371.

Лесников С.В. Гипертекст русского языка // Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. МГУ им. М.В. Ломоносова, 2001. С.413-414.

Лесников С.В. Гипертекстовое производство свода лексики русского языка на основе новых информационных технологий как актуальный процесс интерактивного управления формированием новых лексикографических знаний в виде открытой системы с адекватным представлением во всемирной компьютерной системе Internet // Языковое сознание. Содержание и функционирование. ХIII международный симпозиум по психолингвистике и теории коммуникации. Москва, 1-3июня 2000. / Ред. Е.Ф. Тарасов. М.: МГЛУ, ИЯ РАН, 2000. С.140.

Лесников С.В. Гипертекстовый свод лексики русского языка / Квантитативная лингвистика и семантика. Вып.3. Новосибирск: НГПУ, 2001. С.120-128.

Лесников С.В. Гипертекстовый свод определений лингвистики (гиперсол) // Актуальные проблемы образования и науки: цели, задачи и перспективы развития. Коряжма: Суров С.В., 2010. С.213-216.

Лесников С.В. Гипертекстовый свод русского языка / Проблемы прикладной лингвистики. Ч.2. Пенза: Приволжский Дом знаний, 2000. С.6-7.

Лесников С.В. Гипертекстовый словарь  базовых дефиниций, интерпретаций, объяснений, определений, понятий, пояснений, разъяснений, толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка лингвистики (языковедения, языкознания) // Медиадискурс и проблемы медиаобразования. Омск: ОГУ им. Ф.М.Достоевского, 2011. С.146-151. 

Лесников С.В. Гипертекстовый словарь базовых экскурсов терминов метаязыка лингвистики (языковедения, языкознания) // Русский язык в контексте национальной культуры. Саранск: Изд-во Мордов. ун-та, 2010. С.123-127.

Лесников С.В. Гипертекстовый тезаурус // Проблемы гуманитаризации образования в малых городах: теория, практика и перспективы. Коряжма: Суров С.В., 2010. С.336-345.

Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Гипертекст как объект лингвистического исследования.  Самара: ПГСГА, 2011. С.103-117.

Лесников С.В. Гипертекстовый тезаурус метаязыка науки // Проблемы истории, филологии, культуры. №3(33) 2011.  Москва-Магнитогорск-Новосибирск: РАН, 2011. С.30-34.

Лесников С.В. Гипертекстовый тезаурус русского языка // Русское слово в контексте культуры. Орёл: ОрелГТУ, 2008. С.213-217.

Лесников С.В. Дефиниции и формулы для компьютерного анализа текстов // Прагмалингвистика и практика речевого общения. Ростов н/Д: ЮФУ, 2009. Вып.3. С.242-247.

Лесников С.В. Дефиниции и формулы для численного анализа текстов // Русское народное слово в языке и речи. Арзамас-Саров: СГТ, 2009. С.219-226.

Лесников С.В. Дефиниции и формулы для численного анализа текстов // Языки профессиональной коммуникации. Челябинск: ООО «Энциклопедия», 2009. С.353-356.

Лесников С.В. Интерактивное моделирование гипертекстового информационно-поискового тезауруса метаязыка науки на основе реляционной базы лексикографических материалов русского языка // Перспективное развитие науки, техники и технологий. Курск: Юго-Западный гос. университет, 2011. С.155-158. 

Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74. (100 экз.) ISBN 978-5-91556-058-0.

Лесников С.В. Информационно-поисковая система лексико-семантических вариантов вокабул // Актуальные проблемы современного научного знания.  Пятигорск: ПГЛУиздат, ПГФА, 2009. С.86-93.

Лесников С.В. Квантитативный анализ лексикографических материалов // Русский язык: исторические судьбы и современность. Труды и материалы. МГУ, 2010. С.521-522.

Лесников С.В. Компьютерная версия "Энциклопедия академического журнала "Вопросы языкознания" // Русский язык: исторические судьбы и современность. Труды и материалы // МГУ, 2007. С.621.

Лесников С.В. Конструирование русского лексического универсума // Русский язык в контексте межкультурной коммуникации.  Самара: ПГСГА, 2011. С.392-404.

Лесников С.В. Лексико-семантическая основа информационно-поискового тезауруса /ИПТ/ метаязыка лингвистики // Современные информационных технологий и ИТ-технологии. М.: ИНТУИТ.РУ, 2011. С.706-713. 

Лесников С.В. Моделирование тезауруса метаязыка лингвистики на базе гипертекстовых фреймов // Вестник Вятского государственного гуманитарного университета. Филология и искусствоведение. №3(2). Киров: ВятГГУ, 2011. С.51-54.

Лесников С.В. Направления и разделы лингвистики в систематическом указателе гипертекстового информационно-поискового тезауруса метаязыка лингвистики // Человек в информационном пространстве. Вып.10. Ярославль: Изд-во ЯГПУ, 2011. Т.2. С.214-222. 

Лесников С.В. О гипертекстовом генеральном своде лексики русского языка в Internet // Компьютерная лингвистика и обучение языкам / Отв. ред. А.В. Зубов. Минск: МГЛУ, 2000. С.218-219.

Лесников С.В. Опыт использования русского языка для реализации интерактивного режима обработки информации // Linguistics by the End of the XXth Century: Achievements and Perspectives. Vol. II. Moscow: Philologia Publishers, 1995. P.587-588.

Лесников С.В. Поиск лексики на основе гипертекстового тезауруса русского языка // Русский язык в современном мире.  Биробиджан: Изд-во ДВГСГА, 2009. С.60-64.

Лесников С.В. Поиск лексики на основе гипертекстового тезауруса русского языка // Изменяюшийся славянский мир: новое в лингвистике. Вып.2. Севастополь: Рибэст, 2009. С.441-445.

Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры: прошлое, настоящее, будущее. Иркутск: ИГЛУ, 2011. С.153-163.

Лесников С.В. Процедура разработки информационно-поискового тезауруса  метаязыка науки // Вопросы современной лингвистики и методики обучения иностранным языкам в школе и вузе. Комсомольск–на–Амуре: Изд-во АмГПГУ, 2011. С.227-234. 

Лесников С.В. Расчет энтропии текстов русской поэзии XIX-XX веков и индексов дистрибуции, итерации, исключительности, предсказуемости, плотности // Родной язык: проблемы теории и практики преподавания. Борисоглебск: БГПУ, 2011. С.81-87.

Лесников С.В. Русский гипертекстовый тезаурус (гизаурус) / Проектирование инновационных процессов в социокультурной и образовательной сферах. Ч.2. Сочи: РИО СГУТиКД, 2002. С.54-55.

Лесников С.В. Словарь русских словарей. 10 компакт-дисков. М.: Минобр РФ, Гос. Координационный центр информационных технологий. Отраслевой фонд алгоритмов и программ, 24 апреля 2003. №2538. Информационно-библиотечный фонд РФ № гос. регистрации: 502000300341 от 29 апреля 2003 года.

Лесников С.В. Словарь русских словарей: более 3500 источников / Предисловие проф. В.В. Дубичинского. Рецензенты: В.М. Андрющенко, Р.П. Рогожникова, Г.И. Тираспольский.. М.: Азбуковник, 2002. 334 с. (500 экз). ISBN 5-88744-047-3

Лесников С.В. Тезаурус как отражение системности языка // Вестник ЧелГУ. Серия: филология, искусствоведение. Вып.59. №28(243). Челябинск: ЧелГУ, 2011. С.52-61.

Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85. (100 экз.) ISBN 978-5-8170-0166-2.

Лесников С.В. Типология русских словарей лингвистической терминологии // Мир науки, культуры, образования. №6(31) 2011. Часть 2, декабрь 2011. Раздел: Филология. Горно-Алтайск: Концепт, 2011. С.6-10.  

Лесников С.В. Фреймовое конструирование тезауруса метаязыка лингвистики // Вестник Поморского университета. Серия "Гуманитарные и социальные науки". №4. Архангельск: ПГУ, 2011. С.84-89.

Лесников С.В., Калашников Э.В. К задаче классификации диалектов языка на основе их семантико-статистических связей // Компьютеризация лингвистических исследований // Альманах “ГОВОР”. Май 1995. С.41-56.

Лесников С.В., Калашников Э.В. Квантитативная оценка генетической связи языковых сообществ на основе синонимических рядов // Третья Всесоюзная конференция по созданию Машинного фонда русского языка. Ч.2. М.: ИРЯз АН СССР, 1989. С.147-149.

Лесохин М.М., Лукьяненков К.Ф., Пиотровский Р.Г. Введение в математическую лингвистику. Мн.:Наука и техника, 1982.

Марчук Ю.Н. Компьютерная лингвистика. М.: Восток-Запад, 2007.

Пиотровская A.А., Пиотровский Р.Г., Разживин К.А. Энтропия русского языка // Вопросы языкознания. 1962. N6. С.115-130.

Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высш. шк., 1977.

Тузов В.А. Математическая модель языка. Л.: ЛНИВЦ АН СССР, 1980. ЛГУ, 1984.

Филиппович Ю.Н. Ч.1. Семантические исследования естественно-языкового описания. http://www.philippovich.ru/Library/Books/Semantics_IT/gl1_2/glava1_2.htm

Шемакин Ю.И.  Начала компьютерной лингвистики.  М.: МГОУ, 1992.

Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002. Shannon C.E. A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 and 623-656, July and October, 1948.

*