Филологические науки/3.Теоретические и методологические проблемы исследования языка

 

К.филол.н. Шаповал В.В.

Московский городской педагогический университет, Россия

 

Помилки комп’ютерної природи як об’єкт лексикографiчної критики

 

 

Чи це взагалi справа фiлолога розбиратися з технічними причинами комп’ютерних помилок, яких безлiчь? Думається, в світлі завдань критики словників пріоритет слід віддавати другому аспектовi, направити зусiлля на критику паперового видання, яке має статус документа, вид i змiст якого не змiнюється залежно від характеристик конкретного комп’ютера.

1. Комп’ютерна революція і лексикографія. Нові типи помилок в лексикографічному описі слова набули поширення у зв’язку з вживанням комп’ютерних програм створення, зберігання і автоматичного розпізнавання тексту. Вони зустрічаються сьогодні як у словниках на папері, так і в словниках, які використовуваються виключно в електронній формі.

2. Нові можливості набору тексту на комп’ютері. Широке використання клавіатури комп’ютера приводить до того, що поряд із звичними описками, все частіше доводиться мати справу і з незвичайно масовими помилками друку. У цій області були свої особливості, які раніше цікавили лише секретарок та типографiв, але сьогодні виникли й новi, якi стосуються майже кожної грамотної людини, включаючи школярів. Відбувається відмова від паперової версії чернетки (в твердій копії). Вiдсутнiсть автографа в фiзичному сенсi мiняє й ситуацiю в текстологiї. До якої мiри – ще важко судити.

2.1. Можливості безконечного редагування. Нові (в порівнянні з друкарською машинкою) можливості дозволяють правити текст на екрані. Відповідальність за невірне натиснення на клавішу комп’ютера набагато нижча, ніж при роботі на машинці. Це створює умови для безконечного редагування. Але це ж створює і умови для кинутих недоредагуванимі фраз i .под.

Так, в словнику, надрукованому з електронного набору, читаємо залишок робочої розмітки: «parallel !!! Стрыг, м. Железный утюг со вставными пластинами. Стрыг – утюг железный с вкладышами. Перм., 1848. Перм., Даль [с вопросом к слову]» [13, с. 54]. Слово, дійсно, унікальне [4, с. 588]. Мабуть, пошук паралелі не було скiнчено, але мітка залишилася.

2.2. Нові можливості клавіатури в комп’ютерній версії. Чуйніша, ніж в машинки, клавіатура комп’ютера дозволяє помилково друкувати здвоєні і навiть сусідні букви: «РП» замість «Р» в темному слові: «ГАШИ́РПА, -ы, ж. Угол. Спиртное» [9, с. 123], з відсиланням, зокрема, до словника, де «ГАШИРА – спиртное» [1, с. 55]. Останнє не є бездоганним з точки зору достовірності: ймовірно, це помилкове прочитання запису *гамира, пор.: «Гама/ы/ра – самогон, спирт» [10, с. 35]. Див. також тхван < *тхан [16, с. 160]. Тривале натиснення на одну клавішу дає подвоєння і т.д. букви: буквииииии. Такі помилки зазвичай виправляються.

Варіант цієї помилки (кома надрукована із захватом сусідньої букви): «МЭНЮ, м. Жарг. Сожитель, любовник» [8, с. 218]. Ранiше: «МЭН, м. Жарг. 1. Богатый человек. 2. Сожитель, любовник» [7, с. 138]. Вiд англ. man ‘чоловiк, людина’.

Треба сказати, що подiбнi клавіатурні помилки часом досить слабо коррегуються програмою автоматичної перевірки орфографії комп’ютера (див. 3.1).

2.3. Наявність двох (або більш) алфавітiв. У одному етимологічному словнику для школярів читаємо текст, не дуже зрозумілий навіть поліглотові: «ВЕДЬМА. Lhtdytheccrjt – dtljvf (pyf.ofz)/» [12, с. 169]. Проте, маючи перед очима клавіатуру, легко дешифрувати це «заклинання»: «Древнерусское – ведОма (знающая)» [17, с. 77-78].

Ще більш заплутаним випадком ігрового використання подвійної графіки є росiйський неологiзм лытдыбр ‘персональний журнал в Інтернеті’. Це слово «дневник», надруковане в англійському регістрі як lytdybr. Читається як [лытды́бр], а часом так і пишеться: лытдыбр і дыбр. Похідні розглянутi за даними Інтернету [18].

3. Втручання комп’ютера в процес створення тексту. Широке використання комп’ютера приводить, зокрема, до того, що тексти часом не проходять стадію рукопису (у строгому сенсі слова). Але і в цьому випадку ведмедячі послуги комп’ютера – завжди результат недостатньої кваліфікації людини, що його використовує. Машина не винна.

Комп’ютер розподіляє абзаци між сторінками і знаки між рядками. Від його налаштування, а не лише від бажання людини, залежить зовнішній вигляд сторінки. Наприклад, розрядка, задана через параметри шрифту і розрядка, отримана розставлянням пропусків межи буквами, поводяться по-різному. У першому випадку машина бачить слово, а в другому – серію однобуквених слів, які може розподіляти межи рядками без знаку перенесення (р˙о˙з˙|˙р˙я˙д˙к˙а).

3.1. Автоматична перевірка орфографії і автоматичні заміни. Автоматична перевірка орфографії полягає в порівнянні графiчного слова (серії знаків між пропусками) з комп’ютерним лексиконом вибраної мови. У разі відсутності даної серії символів в лексиконі вона підкреслюється. А в разі присутності – не підкреслюється, тому на долю коректора залишаються помилки, що приводять до правдоподібних написань, наприклад, росiйське: «людей перевели их здания в задание».

Налаштований на російську мову комп’ютер підкреслить написання сула. Але досить звичайна клавіатурна помилка сула не виправляється на суда по підказці комп’ютера, який пропонує лише заміни, знайдені по другій і четвертій буквам: сала, села, сила, сули, сулю. Таким чином, клавіатурна помилка не виявляється і не враховується комп’ютером при виведенні варіантів заміни.

Як відомо, словники зазвичай дають як об’єкт описання неординарні слова, тому автоматична перевірка орфографії їх виділяє. Крім того, готовність машини по першому сигналу замінити нестандартне написання на один із зовні близьких «графiчних паронiмiв» також може бути джерелом помилок, викликаних неумисною правкою. Наприклад, в словнику жаргону: «ВЕРХУШЕЧНИК (устар.) – ворующий с чердаков. ВЕЧЕРИНКА – овца. ВЕРШАТЬ – смотреть» [16, с. 43]. На місці вечеринка повинно бути, судячи по оточенню, слово, що починається на вер- в діапазоні верх-, верц-, верч-, верш-. Дійсно, з 1927 року в словниках жаргону наводиться слово: «Верчинка – овца» [10, с. 25]. В даному випадку заміна верчинка вечеринка могла вiдбутися в два такти: 1) мала місце неконтрольована перестановка букв в результаті неузгодженої роботи рук, що дала проміжний варiант *вечринка, 2) вже *вечринка могла бути виправлена людиною за власною ініціативою або по підказці програми перевірки орфографії (що пропонує лише одну заміну).

Інший приклад накопичення помилок також показує, як небезпечно надмірно довірятися комп’ютеру. «Шниво – окно» [10, с. 190]. >> «ШНИВО – около» [3, с. 51]. >> «Шниво – рядом, около» [5, с. 203]. Мабуть, вставка букви, викликана при роботі на клавіатурі машинки або комп’ютера зайвим натисненням «о» – «о» – «о», привела до малозрозумілого *оконо, яке було виправлено по здогадці або на підставі рекомендацій комп’ютера, що пропонує заміни: окно, окон, около.

Як і клавіатурна помилка, помилка сканування також слабо виявляється і не завжди враховується комп’ютером при виведенні варіантів заміни. Наприклад, «друт» замість друг – елементарна для коректора помилка – не виправляється комп’ютером, бо правильний варіант відсутній серед запропонованих: дрот, дерут, дут, рут, врут.

Знаки наголосу, необхідні в словнику, наприклад: КВАРТИРА́НТ, – перевірка орфографії також пропонує вiдкинути.

Додаткові послуги комп’ютера можуть бути включені, але користувач про це не завжди пам’ятає. Тоді, наприклад, навіть в серйозних словниках попадаються написання типа: «множ. Число», «див. Вижче». Після крапки комп’ютер “побачив” початок нового речення, і не утрудняючи людини питанням, сам поставив прописну букву замість рядкової, тому що так був налагоджений [17, с. 77]. Автоматичні заміни інколи вбачають абревіатуру там, де її немає: «Собр. соч.» >> «СОБР. соч.»

3.2. Проблеми кодування. Як не дивно, найбезпечніший випадок помилки кодування (рос. «окодирки») – це випадок повної несумісності кодів. У цій ситуації ми отримуємо абсолютно незрозумілий текст, який і не намагаємося інтерпретувати. Бiльш небезпечна з точки зору iнтересiв читача часткова заміна символів, яка приводить до правдоподібного результату: у прекрасній книзі, що вводить до наукового обігу доти не видані словники В.І.Даля, спорадично замість «ять» виявилося надруковане «у»: стрела > струла, мешокъ > мушокъ [2, с. 152, 165]. Також часто можна підозрювати проблему кодування, коли вiдбулась заміна о із знаком «акута» на y: «Судук, м. Рыба судак. Чердын. Перм., 1928» [13, с. 1716]. Пор.: «3. Судок, м. Рыба судак» [13, с. 172]. Такий сюрприз майже неможливо передбачити, коли вiн трапляється в комп’ютері видавця, поза межами авторського контролю [17, с. 78]. Заміні в цьому випадку можуть піддаватися і знаки наголосу: «чоґбiт» або «чоiбiт» замiсть «чóбiт». Коли в росiйському текстi цi незвичнi знаки однозначно сигналiзують про помилку, то в укранськiй (ґ, i) i бiлоруськiй (i) кирилицi вони можуть приводити до правдоподібного результату, який читач намагатиметься осмислити як рiдкий варiант слова, неологiзм, тощо.

3.4. Особливості автоматичного розставляння за абеткою. Комп’ютер розставляє за абеткою спочатку латиницю (а, потім а з «акутом», потім а з «гравісом», і так далі), потiм кирилицю. Якщо в словнику використана буква i з латинського ряду, то слова з нею посунуться вгору. Літери ё та е, ґ та г при пошуку не вирізняються.

Невизначеність статусу російської букви ё (як i української ґ «з носиком») привела до того, що при розробці автоматичної системи перевірки орфографії для російської мови було прийнято компромісне рішення. Ви можете друкувати слово перепёлка як перёпелка, пёрёпелка, пёрёпёлка і тому подібне, а «Ворд» із залізною витримкою прийматиме всі написання як правильні (як i ґіґроґраф), тому що для нього знаки «е» і «ё» рівноцінні. Та ж проблема виникає і при розставлянні за абеткою: «ёж, елей, ёлка» розставиться так, немов крапок над ё нема [17, с. 79].

3.4. Виведення на екран невидимих елементів тексту або рекомендацій комп’ютера. Ще одним наслідком конфлікту кодувань є виведення на екран тих елементів, які не друкуються при нормальному розпізнаванні, наприклад: сербiзований Џанас Њирний замiсть Панас Мирний, ім’я Doré може перетворитися на «Dor&#233;», або на «Dorй», або на «Dor&еacute;» [17, с. 79].

Подвійні теги типа початок <i> і кінець </i> курсиву, втративши пару, також стають видимими. Наприклад: «Считаю, что хам должен передо мной извиниться. </Span>» (LJ, Бiлозерська). Тэг <span> видiляє фрагмент тексту. Кiнцеву його частину у цьому випадку було продубльовано, й вона стала через те видима.

Підказка комп’ютера про втрачений елемент покажчика друкується в статті: «заводитьсяОшибка! Закладка не определена. ‘начинать действовать’» [11, с. 108].

4. Не виправлені людиною помилки сканера. Помилки сканування (рос. «осканирки») буває важко відрізнити від описок і друкарських помилок. Наприклад, в «сiтьового» Шевченка: «вариации Ленинского на известную червонорусскую песню», треба: Лепинского [20, с. 508, 70]. В словнику: ГРАБКИ ‘руки’, «фразеол. грабки по бренгалкам распускать. Мол. Шутл. Играть на музыкальном инструменте. Запись 1998 г.» [9, с. 137], цитується за текстом жаргонних експеріментів Нiкіти Колпакчи: «бренчалкам» [14, с. 4, 5 (илл.)]. Те, що це помилка сканерна, можна лише побічно обгрунтувати: бренчалки є досить прозорим дериватом (по частотній моделі із значенням ‘iнструмент, засіб дії’). Тобто, джерелом помилки була скорiше машина.

Інколи помилка розпізнавання стає своєрідним брендом сайту. На сайті «Google книги» (http://books.google.com) компанії Гугл книги, викладені у вигляді картинки формата «pdf». Всi вони мають стандартну передмову, яка починається з фрази з неправильним розпізнаванням російської букви «п» як «и»: «Это цифровая коиия книги, хранящейся для иотомков на библиотечных иолках, ирежде чем ее отсканировали сотрудники комиании Google…».

Помилки при скануванні з паперу особливо характерні для курсиву, його доводиться перевіряти особливо ретельно, щоб, наприклад, замість слова лише не виявилося надруковане лшие (л.ш.и.е). Часто такі помилки сканера пов’язані з неправильною інтеграцією графічних елементів і нагадують помилки прочитання людини, наприклад: «Семенов-Тян.ы.п.анский» замість «Семенов-Тян.ь.ш.анский», «Вза.г.ш.освязь» замість «Вза.и.м.освязь», «п.ш.е.р» замість «т.и.ф».

Треба мати на увазі, що в Інтернеті можуть зустрічатися недбало вичитані сканованi копії паперових видань, які слід цитувати обережно, наприклад: «Фразеологический словарь русских говоров Сибири» [15]. Характерна помилка сканування – б замiсть о з «акутом» (самб < *само́), а помилкове кодування дасть б замiсть а з «акутом» (самб < *сама́). Ото ж без знання природи помилки важче реконструювати попереднiй вид слова.

Помилки сканування також слабо виявляються і враховуються комп’ютером при виведенні пропонованих варіантів виправлення сумнiвного слова (див. 3.1).

Як було показано вище, не завжди можна на основі паперової копії розрізнити по результату помилку людини і помилку, викликану технічними засобами. Неочевидними залишаються і підстави для вибору оптимального балансу між аналізом комп’ютерних причин виникнення помилки і чисто філологічними проблемами її виявлення і виправлення [19].

Але сьогодні цi помилки, поза сумнівом, суть об’єктом лексикографічної критики або принаймні його частиною, яку вже не можна ігнорувати. Думається, в світлі завдань критики словників, маючи на увазi фактичну різноманітність технічних причин помилок, пріоритет слід віддавати другому аспектовi, направити зусiлля на критику паперового видання, яке має статус документа. Його вид i змiст не змiнюється залежно від технічних характеристик конкретного комп’ютера.

 

Литература

1. Балдаев, Д.С. Словарь тюремно-лагерно-блатного жаргона: речевой и графический портрет советской тюрьмы / Д.С.Балдаев, В.К.Белко, И.М.Исупов. – Одинцово: Края Москвы, 1992. – 526 с.

2. Бондалетов, В.Д. Даль и тайные языки в России / В.Д.Бондалетов. – М.: Флинта, 2004. – 456 с.

3. Бронников, А.Г. 10 000 слов: Словарь уголовного жаргона / А.Г.Бронников. – [Пермь: без изд-ва, 1990]. – 52 с.

4. Даль, В.И. Толковый словарь живого великорусского языка / В.И.Даль. – Т. IV – СПб. Изд. М.О. Вольфа, 2009. – 1620, XII с.

5. Дубягин, Ю.П. Толковый словарь уголовных жаргонов / Ю.П.Дубягин, А.Г.Бронников [ред.] и др. – М.: Интер-ОМНИС; РОМОС, 1991. – 206 с.

6. Дубягина, О.П., Современный русский жаргон уголовного мира. Словарь-справочник / О.П.Дубягина, Г.Ф.Смирнов. – М.: Юридич. л-ра, 2001. – 352 с.

7. Мак-Киенго, У. Словарь русской брани (матизмы, обсценизмы, эвфемизмы) / У. Мак-Киенго. – Калининград, 1997. – 326 с.

8. Мокиенко, В.М. Словарь русской брани (матизмы, обсценизмы, эвфемизмы) / В.М.Мокиенко, Т.Г.Никитина. – СПб.: Норинт, 2000. – 448 с.

9. Мокиенко, В.М. Большой словарь русского жаргона / В.М.Мокиенко, Т.Г.Никитина. – СПб.: Норинт, 2000. – 720 с.

10. Потапов, С.М. 1927 – Словарь жаргона преступников (блатная музыка) / С.М.Потапов. – М.: НКВД СССР, 1927. – 196 с.

11. Саляев, В.А. Два источника и две составных части русского сленга / В.А.Саляев // Социальные варианты языка. Материалы международной научной конференции 25-26 октября 2002 г. – Нижний Новгород: без изд-ва, 2002. – С. 105-108.

12. Семенов, А.В. Этимологический словарь для школьников. Русский язык от А до Я / А.В.Семенов. – М., 2005. (=М., 2002.). – 320 с.

13. Словарь русских народных говоров. – Вып. 42. – СПб.: Наука, 2010. – 336 с.

14. Слово о Полку Игореве: Новые пер. / Изд. подгот. Н.Колпакчи. – М.: АРГО-РИСК, 1997. – 23 с.

15. Фразеологический словарь русских говоров Сибири / Под ред. А. И. Федорова. – Новосибирск: Наука, 1983. – 232 с. (slovar frazeo sibiri.pdf 2007-05-07).

16. Шаповал, В.В. О некоторых ошибках в современных жаргонных словарях / В.В.Шаповал // Вопросы филологии. – 2007. – № 1 (25). – С. 55-61.

17. Шаповал, В.В. Новые типы ошибок в письменной речи / В.В.Шаповал // Русский язык в школе. – 2009. – № 9. – С. 76-83.

18. Шаповал, В.В. Развитие гнезда нестандартных дериватов существительного дневник (лытдыбр ‘интернет дневник’ и т.п.) в 2001-2008 гг. / В.В.Шаповал // Русский язык в научном освещении. – № 2 (18). – М., 2009. – С. 105-117.

19. Шаповал, В.В. Модернизация и проблемы современной лексикографии / В.В.Шаповал // Модернизация России: наука, образование, высокие технологии. Тезисы выступлений участников II всероссийской конференции по науковедению. – М.: МГПУ, 2010. – С. 309-311.

20. Шевченко, Т.Г. Зібрання творів: У 6 т. – Т. 4. – К.: Днiпро, 2003. – С. 11-119 (izbornyk.org.ua/shevchenko/shev406.htm).