устройство для распознавания печатных и рукопечатных изображений символов
Классы МПК: | G06K9/68 с помощью последовательных сравнений сигналов изображения с множеством эталонов, например адресной памятью |
Автор(ы): | Сойфер Виктор Александрович (RU), Казанский Николай Львович (RU), Фурсов Владимир Алексеевич (RU), Козин Никита Евгеньевич (RU) |
Патентообладатель(и): | Институт систем обработки изображений Российской академии наук (ИСОИ РАН) (RU) |
Приоритеты: |
подача заявки:
2005-04-13 публикация патента:
20.10.2006 |
Изобретение относится к автоматике и цифровой вычислительной технике. Его использование при построении устройств автоматического чтения печатных и рукопечатных текстов позволяет получить технический результат в виде повышения надежности распознавания символов. Устройство содержит блок формирования изображений, блок сравнения, умножитель, накапливающий сумматор, блок принятия решений, блок памяти эталонов, блок памяти весовых коэффициентов и блок управления. Технический результат достигается за счет того, что в него введены блок нормировки изображений, который состоит из последовательно соединенных блока суммирования и контроля, блока выбора шаблона и блока модификации изображений, и блок формирования весовых коэффициентов, который состоит из последовательно соединенных блока формирования полей семантической значимости, блока упорядочивания полей семантической значимости, блока вычисления коэффициентов семантической значимости и блока формирования остаточных полей семантической значимости. 4 ил.
Формула изобретения
Устройство для распознавания печатных и рукопечатных символов, содержащее блок формирования изображений, вход которого является информационным входом устройства, блок сравнения, выход которого соединен с первым входом умножителя, выход которого соединен с первым входом накапливающего сумматора, выход которого соединен со входом блока принятия решений, выход которого является выходом устройства, блок памяти эталонов, выход которого соединен со вторым входом умножителя, а также входом блока памяти весовых коэффициентов, выход которого, в свою очередь, соединен со вторым входом накапливающего сумматора, и блок управления, отличающееся тем, что дополнительно введены блок нормировки изображений, первый выход которого соединен с первым входом блока сравнения, а второй выход соединен с первым входом блока памяти эталонов, и блок формирования весовых коэффициентов, выход которого соединен со вторым входом блока памяти весовых коэффициентов, при этом блок нормировки изображений состоит из последовательно соединенных блока суммирования и контроля, блока выбора шаблона и блока модификации изображений, а блок формирования весовых коэффициентов состоит из последовательно соединенных блока формирования полей семантической значимости, блока упорядочивания полей семантической значимости, выход которого соединен с первым входом блока вычисления коэффициентов семантической значимости, выход которого является выходом блока формирования весовых коэффициентов, а также соединен со входом блока формирования остаточных полей семантической значимости, выход которого соединен со вторым входом блока вычисления коэффициентов семантической значимости.
Описание изобретения к патенту
Изобретение относится к автоматике и цифровой вычислительной технике и может быть использовано при построении устройств автоматического чтения печатных и рукопечатных текстов.
Известно устройство для распознавания изображений символов (RU 2178916, кл. G 06 K 9/68, опубл. 27.01.2002.), содержащее телевизионный датчик, блок памяти эталонов, блок памяти весовых коэффициентов, блок управления, блок сравнения, накапливающий сумматор, блок памяти количества элементов шаблона, блок деления и блок принятия решения.
Известна система распознавания символов "REI Input 80 Model A" компании Recognition Equipment Incorporated (Дж.Ту, Р.Гонсалес. Принципы распознавания образов. М.: Мир, 1978, с.35-37), содержащая блок распознавания, контроллер с программным управлением, печатающее устройство для ввода/вывода данных, построчно-печатающее устройство, блок распознавания, блок магнитной ленты и страничный процессор.
Недостатком данных устройств является низкая надежность распознавания символов при значительных отклонениях исследуемого изображения от эталонного, характерных для рукопечатных символов.
Наиболее близким по технической сущности к заявляемому устройству является выбранное в качестве прототипа устройство для идентификации текстовых изображений (SU 1543431, G 06 K 9/00, опубл. 15.02.1990.), содержащее телевизионный датчик, блок сравнения, блок управления, блок памяти эталонов, блок памяти весовых коэффициентов, умножитель, накапливающий сумматор и блок принятия решения. Важнейшей отличительной характеристикой прототипа является наличие блока памяти весовых коэффициентов, умножителя и накапливающего сумматора. Весовые коэффициенты, хранящиеся в блоке памяти, выбираются таким образом, чтобы сигналы, поступающие от участков изображения с высокой семантической значимостью, вносили больший вклад при подсчете отличий изображений от эталона.
Недостатком известного устройства является недостаточно высокая надежность различения похожих символов. Связано это с тем, что размеры зон семантической значимости, формируемые для символов с разной степенью различий в написании, также существенно различаются. После объединения всех зон семантической значимости каждого отдельного эталона, построенных для изображений символов, которые необходимо отличить от данного эталона, участки семантической значимости некоторых эталонов оказываются также похожими или малыми по площади. При этом, если в блоке принятия решений порог с целью уменьшения числа отказов в распознавании задан небольшим, при наличии помех не обеспечивается достаточно высокая надежность различения похожих символов.
В основу изобретения поставлена задача повышения надежности различения похожих символов.
Поставленная задача решается за счет того, что в устройство для распознавания печатных и рукопечатных изображений символов, содержащее блок формирования изображений, вход которого является информационным входом устройства, блок сравнения, выход которого соединен с первым входом умножителя, выход которого соединен с первым входом накапливающего сумматора, выход которого соединен со входом блока принятия решений, выход которого является выходом устройства, блок памяти эталонов, выход которого соединен со вторым входом умножителя, а также входом блока памяти весовых коэффициентов, выход которого, в свою очередь, соединен со вторым входом накапливающего сумматора, и блок управления, согласно изобретению дополнительно введены блок нормировки изображений, первый выход которого соединен с первым входом блока сравнения, а второй выход соединен с первым входом блока памяти эталонов, и блок формирования весовых коэффициентов, выход которого соединен со вторым входом блока памяти весовых коэффициентов, при этом блок нормировки изображений состоит из последовательно соединенных блока суммирования и контроля, блока выбора шаблона и блока модификации изображений, а блок формирования весовых коэффициентов состоит из последовательно соединенных блока формирования полей семантической значимости, блока упорядочивания полей семантической значимости, выход которого соединен с первым входом блока вычисления коэффициентов семантической значимости, выход которого является выходом блока формирования весовых коэффициентов, а также соединен со входом блока формирования остаточных полей семантической значимости, выход которого соединен со вторым входом блока вычисления коэффициентов семантической значимости.
Повышение надежности является результатом использования данных блоков в совокупности.
Нормировка изображений заключается в том, что исходные бинарные изображения распознаваемых символов и эталонов, имеющие различную протяженность и толщину изображающих их линий, приводятся к таким изображениям, в которых соотношение числа черных и белых точек одинаково для всех различаемых символов и эталонов. Нормировка зон семантической значимости заключается в масштабировании весовых коэффициентов таким образом, чтобы при поэлементном умножении этих коэффициентов на отсчеты изображения, полученного после сравнения эталонов, соответствующих различным символам, получались равные заданные числа.
Введение указанных нормировок позволяет установить значение порога, обеспечивающее более высокую надежность различения похожих символов за счет "запаса", который имеет место для сильно отличающихся по написанию символов.
Сопоставительный анализ с прототипом показывает, что заявляемое устройство отличается наличием новых блоков: блока нормировки изображений и блока формирования весовых коэффициентов. Таким образом, заявляемое устройство соответствует критерию изобретения "новизна".
На фиг.1 представлена блок-схема устройства для распознавания печатных и рукопечатных символов. На фиг.2 представлена схема блока нормировки изображений. На фиг.3 представлена схема блока формирования весовых коэффициентов. На фиг.4а приведены примеры нормированных изображений эталонов для случая различения цифр ("2", "3", "4"), на фиг.4б, 4в приведен пример формирования поля нормированных весовых коэффициентов при переходе от эталона цифры "3" к эталону цифры "4".
Устройство для распознавания печатных и рукопечатных символов (фиг.1) содержит блок управления 1, блок формирования весовых коэффициентов 2, блок памяти эталонов 3, блок памяти весовых коэффициентов 4, вход устройства 5, блок формирования изображений 6, блок нормировки изображений 7, блок сравнения 8, умножитель 9, накапливающий сумматор 10, блок принятия решения 11 и выход устройства 12. В свою очередь, блок нормировки изображений 7 состоит из блока суммирования и контроля 13, блока выбора шаблона 14 и блока модификации изображения 15. Блок формирования весовых коэффициентов 2 состоит из блока формирования полей семантической значимости 16, блока упорядочивания полей семантической значимости 17, блока вычисления коэффициентов семантической значимости 18 и блока формирования остаточных полей семантической значимости 19. Вход 5 подключен к блоку формирования изображений 6, выход которого соединен со входом блока нормировки изображений 7, первый выход которого соединен с первым входом блока сравнения 8, а второй выход соединен с первым входом блока памяти эталонов 3. Выход блока сравнения 8 соединен с первым входом умножителя 9, выход которого соединен с накапливающим сумматором 10, выход которого соединен со входом блока принятия решения 11, выход которого является выходом устройства 12. В свою очередь, первый выход блока управления 1 соединен со вторым входом блока памяти эталонов 3, а второй выход соединен со входом блока формирования весовых коэффициентов 2, выход которого соединен со вторым входом блока памяти весовых коэффициентов 4, выход которого соединен со вторым входом умножителя 9. Первый выход блока памяти эталонов 3 соединен со вторым входом блока сравнения 8, а второй выход соединен с первым входом блока памяти весовых коэффициентов 4. Первый вход блока суммирования и контроля 13 является входом блока нормировки изображений 7. Первый выход блока суммирования является выходом блока 7 и также соединен со вторым входом блока модификации изображения 15. Второй выход соединен со входом блока выбора шаблона 14, выход которого соединен с первым входом блока модификации изображения 15. Выход блока 15 соединен со вторым входом блока суммирования и контроля 13. Вход блока формирования полей семантической значимости 16 является входом блока формирования весовых коэффициентов 2. Его выход соединен с блоком упорядочивания полей семантической значимости 17, выход которого соединен с первым входом блока вычисления коэффициентов семантической значимости 18, выход которого является выходом блока формирования весовых коэффициентов 2, а также соединен со входом блока формирования остаточных полей семантической значимости 19, выход которого соединен со вторым входом блока вычисления коэффициентов семантической значимости 18.
Устройство работает в двух режимах: настройки и распознавания. Включение режимов осуществляется блоком управления 1. В режиме настройки устройство работает следующим образом. Блок формирования изображений 6, включающий телевизионный датчик и блок преобразования сигнала, преобразует оптическое изображение эталона, считанное с входа 5, в бинарные цифровые сигналы, соответствующие значениям яркости в точках исследуемого текстового изображения и фона. Точкам фона ставится в соответствие значение 0, а точкам начертания символа - значение 1. Сигнал с выхода блока 6 поступает на вход блока 7 нормировки изображений. Данный блок осуществляет наращивание (или удаление) черных точек по контуру начертания символа, пока их общее число не станет равным заданному числу черных точек, одинаковому для всех эталонов.
Выход блока 6 соединен со входом блока 7. Выход блока 7 соединен со входом блока 8. В блоке суммирования и контроля 13 подсчитывается сумма черных точек на изображении и эта сумма сравнивается с заданным значением. Если эти значения совпадают в пределах допустимой погрешности, изображение передается в блок 8. Если нет, результат сравнения с выхода блока 13 поступает на вход блока 14, в котором, в зависимости от знака результата, выбирается маска наращивания или удаления. Маска представляет собой трехточечный элемент (две черных точки и одна белая для наращивания и две белых и одна черная для удаления). В блоке 15 выбранная маска накладывается во всех точках изображения, поступающего с выхода блока 13, и в случае совпадения одна из соответствующих точек исходного изображения заменяется на противоположное значение (черная на белую при удалении, белая на черную при наращивании). После каждого этапа наращивания или удаления изображение с выхода блока 15 вновь поступает в блок 13 для суммирования и сравнения и т.д.
Сформированные таким образом нормированные эталоны передаются в блок 3 хранения эталонов. После того, как все возможные эталоны будут сформированы, они поступают на вход блока 2 формирования весовых коэффициентов. В блоке 2 путем сравнения изображений эталонов строится поле различий с каждым эталоном, называемое полем семантической значимости.
Для построения полей семантической значимости для каждого эталона в блоке формирования весовых коэффициентов 2 последовательно осуществляются следующие операции. В блоке 16 производится поэлементное сравнение исследуемого эталона со всеми остальными. На основе сравнения строится поле различий с каждым эталоном (фиг.4а), называемое полем семантической значимости. Это поле характеризует степень различия эталонов. Чем меньше область темного, тем больше эталоны "похожи" друг на друга, тем больше возможность ложного распознавания. Пример полей семантической значимости эталона цифры "2" при сравнении с эталонами цифр "3" и "4" приведен на фиг 4б.
Полученные в блоке 16 поля семантической значимости поступают в блок упорядочения полей семантической значимости 17, в котором каждому из них присваивается число ki, i=1, L (где L - число эталонов), равное площади (числу черных точек) темных областей. Поля располагаются в порядке возрастания чисел: k1 k2 ... kL.
Далее в блоке вычисления коэффициентов семантической значимости 18 для первого поля из ряда задается коэффициент q1, определяемый из условия
где Q - заданное число, определяемое величиной порога принятия решений.
После этого в блоке формирования остаточных полей семантической значимости 19 из следующего поля (соответствующего k2) исключаются участки, которые оказались семантически значимыми на первом поле (фиг.4в). Сформированное остаточное поле семантической значимости по каналу обратной связи из блока 19 поступает в блок 18 и для оставшейся семантически значимой зоны вычисляется значение q2 из условия:
Процедура вычисления коэффициентов qi , i=1, L в блоке 18 повторяется для каждого i-го эталона (до тех пор пока i L) по формуле:
При реализации описанной процедуры весовые коэффициенты, соответствующие остающимся участкам поля семантической значимости каждого следующего эталона, формируются независимо от предыдущих. При этом при сравнении любых двух эталонных изображений, соответствующих разным символам, всегда получается число, равное Q или незначительно отличающееся от него вследствие помех или искажений символов. Это достигается в том числе за счет использования блока нормировки изображений 7.
Поле весовых коэффициентов q1 , q2...qL, соответствующее каждому эталону, сохраняется в блоке 4 памяти весовых коэффициентов.
В режиме распознавания предъявленное на вход 6 оптическое изображение преобразуется в блоке формирования изображений в бинарное. Далее в блоке 7 осуществляется нормировка изображения, обеспечивающая заданное относительное число черных точек (такое же, как и для эталонов). Нормированное изображение с выхода блока 7 поступает на вход блока 8 сравнения. На второй вход блока 8 сравнения из блока 3 памяти эталонов поступают сигналы нормированных эталонных изображений. В блоке сравнения поэлементно сравниваются точки эталона и входного изображения символа. В случае совпадения соответствующих точек изображений присваивается значение 0, в противном случае 1. Таким образом, на выходе блока сравнения 8 формируется поле, каждая точка которого отмечена 0 в случае совпадения и 1 в случае несовпадения точек входного изображения символа и эталона. Этот сигнал поступает на вход умножителя 9. Умножитель производит поэлементное умножение отсчетов входного поля на соответствующие коэффициенты, поступающие с блока 4 памяти весовых коэффициентов. Результаты умножения накапливаются в сумматоре 10. Далее в блоке 11 принимается решение.
Процедура принятия решений состоит в следующем. Исследуемое изображение идентифицируется с тем эталоном, для которого накопленная в блоке 10 сумма минимальна и не превышает заданного порога. Если порог превышен для всех эталонов, происходит отказ от распознавания.
Качество распознавания регулируется величиной порога. Увеличение значения порога приводит к уменьшению числа отказов, при этом вероятность ошибки возрастает. Значение порога является одинаковым для всех эталонов. Это обеспечивается за счет вычисления весовых коэффициентов в блоке формирования весовых коэффициентов, как указано выше.
Экспериментальные исследования заявляемого устройства для распознавания цифр показали, что по сравнению с устройством аналогичного назначения (прототип) заявляемое устройство обеспечивает более высокую надежность распознавания.
Класс G06K9/68 с помощью последовательных сравнений сигналов изображения с множеством эталонов, например адресной памятью