Современные
информационные технологии/Вычислительная техника и
программирование.
к.т.н., профессор Пинт Э.М., к.т.н., доцент Яшин
А.В., к.т.н., доцент Еличев К.А.
ГОУ ВПО «Пензенский ГУАС», Россия
ФГОУ ВПО «Пензенская ГСХА», Россия
Оценка надежности распознавания
компьютером печатных знаков
Создание читающего
устройства до настоящего времени является актуальной проблемой. Читающее
устройство должно выполнять две основные функции: воспринимать сигналы
изображения знаков текста и распознавать каждый знак. Если задача восприятия
изображения знаков в настоящее время не вызывает трудностей, то задача
распознавания печатных знаков разных шрифтов до сих пор проблематична.
Разработанное Э.М.
Пинтом читающее устройство состоит из фотоэлектронной системы считывания
печатных знаков и компьютера. При помощи фотоэлектронной системы считывания
изображение знака дискретно преобразуется в электрические импульсы, поступающие
в определенном порядке в запоминающее устройство компьютера. Печатный знак
оказывается как бы вписанным в дискретную прямоугольную матрицу, состоящую из
ячеек запоминающего устройства компьютера, где заполненные ячейки соответствуют
элементам изображения знака.
Э.М. Пинтом была
разработана программа для компьютера, реализующая предложенный метод распознавания
печатных знаков разных шрифтов. Кратко остановимся на сути этого метода.
Компьютер по программе, начиная с заполненной ячейки с наименьшим номером,
обходит дискретно представленный знак по так называемым главным направлениям,
то есть по контуру. Так как линии контура печатного знака имеют толщину,
которая к тому же непостоянная для разных знаков, необходимо выделять главные
направления и совершать обход по ним, не принимая во внимание направления,
возникающие от толщины линий, а также от декоративных украшений, дефектов и
т.п. Поэтому главное направление выбиралось как направление, имеющее количество
заполненных ячеек, большее или равное весу, а вес (определенное количество
ячеек матрицы) выбирался больше количества ячеек, составляющих толщину линий знака.
Было выбрано восемь главных направлений. Если эти направления направить из
центра окружности, то соседние направления окажутся сдвинутыми на 450.
Компьютер для каждой
заполненной ячейки матрицы отыскивает возможные направления, образуемые
соседними с исследуемой заполненными ячейками по всем восьми направлениям, для
последующего перехода по главному направлению на соседнюю ячейку. Печатный знак
после обхода по контуру представляется в виде номеров главных направлений.
Полученная после
обхода по контуру последовательность направлений упрощается с целью исключения
нехарактерных наклонов вертикальных и горизонтальных линий, то есть их
выпрямления и с целью исключения нехарактерных отклонений наклонных линий. Как
показал анализ, при этом ликвидируются определенные дефекты, например, размывы
линий знака и отклонения формы от стандартной.
Полученная упрощенная
запись знака по направлениям сравнивается со стандартными видами (эталонами)
для определения знака. Каждому печатному знаку одного смыслового символа и
определенного стиля написания независимо от шрифта соответствует определенный
стандартный вид. По разработанной методике при сравнении записи знака по
направлениям с любым стандартным видом подсчитывается возможное количество несовпадений.
После окончания сравнения со всеми стандартными видами по меньшему количеству
несовпадений определяется знак.
Как известно,
качество распознавания читающим устройством печатных знаков определяется
надежностью распознавания знаков, которая определяется как отношение числа
правильно прочитанных знаков к числу предъявляемых устройству знаков: , (1)
где – число правильно
прочитанных знаков; – число подлежащих
различию знаков алфавита; – число испытаний для
каждого знака.
Причем , (2)
где – максимальная
надежность распознавания знаков.
Однако, при таком
определении надежности распознавания не учитываются вероятности появления
знаков в тексте , величина которых находится в пределах от 0,1102 до 0,000037,
а сумма составляет: , (3)
где – число знаков
алфавита.
Авторы считают, что
наиболее целесообразно использовать следующую формулу для оценки надежности
распознавания печатных знаков, которая будет учитывать вероятность их появления
в тексте:
, (4)
где – число правильно
распознанных знаков для одного смыслового символа.
Максимальная
надежность распознавания знаков составляет , что определяется нераспознаваемостью букв «ш» и «щ» друг
относительно друга. Все остальные знаки алфавита распознаются по предложенному
методу распознавания. Надежность распознавания получается меньше максимальной в
связи с непропечатанными полностью знаками и размывами линий знаков.
Чтобы надежность
распознавания приблизить к максимальной, вместо матрицы запоминающего
устройства компьютера, состоящей из ячеек, была выбрана
матрица, состоящая из ячеек, и количество
стандартных видов для русского алфавита была увеличена с 57 до 62.