способ считывания полного блока данных из формуляров с графическими знаками

Классы МПК:G06K9/03 обнаружение и исправление ошибок, например повторное считывание образа
Патентообладатель(и):ВЕТШТАЙН Матиас (DE)
Приоритеты:
подача заявки:
2001-10-26
публикация патента:

Изобретение относится к способам распознавания символов в бланках и формулярах. Его применение позволяет получить технический результат в виде проведения распознавания символов в формулярах при сохранении конфиденциальности содержащейся в них информации. Этот результат достигается благодаря тому, что предложенный способ содержит операции получения изображения формуляра и записи в память видеоданных отдельных полей данных; идентификации графических знаков; определения неидентифицированных полей данных; объединение видеоданных каждого неидентифицированного поля данных со ссылочным значением, присвоенным этому полю данных; передачи обрабатываемого блока данных на периферийную станцию обработки данных; полной идентификации графических знаков неидентифицированного поля данных; объединения блока данных графических знаков со ссылочным значением соответствующего поля данных с образованием обработанного блока данных для передачи; обратной передачи обработанного блока данных; объединения блока данных графических знаков с остальными полями данных того же формуляра. 2 з.п. ф-лы, 1 ил.

способ считывания полного блока данных из формуляров с графическими   знаками, патент № 2249853

способ считывания полного блока данных из формуляров с графическими   знаками, патент № 2249853

Формула изобретения

1. Способ считывания полного блока данных из формуляров с графическими знаками, текстовая часть которых содержит несколько разделенных между собой полей данных (а, b, с, d, е), пространственное положение которых в текстовой части является единообразным для всех формуляров (1), содержащий операции a) получения изображения формуляра (1) и записи в память видеоданных отдельных полей данных (а, b, с, d, е); b) идентификации содержащихся в полях данных (а, b, с, d, е) графических знаков посредством видеоданных полей (а, b, с, d, е) и программы (3) распознавания знаков при условии, что последние идентифицируемы при заданной степени достоверности; c) определения неидентифицированных полей данных (d, е), т.е. тех полей данных формуляров, графические знаки которых не были идентифицированы вообще или с заданной степенью достоверности; d) передачи информации о полях данных на периферийную станцию (7) обработки данных преимущественно по глобальной сети передачи данных; e) полной идентификации графических знаков неидентифицированного поля данных (d, е) на основе информации о полях данных на периферийной станции (7) обработки данных; f) передачи результатов идентификации графических знаков, проведенной на станции (7) обработки данных, для последующего применения, отличающийся тем, что g) видеоданные (Bd, Be) каждого неидентифицированного поля данных (d, е) объединяют с присвоенным этому полю данных (d, е) ссылочным значением (R4, R5) с образованием обрабатываемого блока (6) данных для передачи; h) проводят идентификацию графических знаков неидентифицированного поля данных (d, е) на периферийной станции (7) обработки данных на основе видеоданных (Вd, Be) блока данных для передачи; i) на периферийной станции (7) обработки данных идентифицированные графические знаки объединяют с образованием блока данных графических знаков и формируют из них вместе со ссылочным значением (R 4, R5) соответствующего поля данных (d, е) обработанный блок (8) данных для передачи, который передается обратно; j) на основе ссылочного значения (R4, R5) обратно переданного блока (8) данных для передачи блок данных графических знаков объединяют с остальными полями данных того же формуляра для получения полного блока (10) данных.

2. Способ по п.1, отличающийся тем, что в качестве видеоданных в память вводятся как черно-белые видеоданные, так и видеоданные контрастных тонов и что содержащиеся в обрабатываемом блоке (6) данных для передачи видеоданные являются видеоданными с контрастными тонами.

3. Способ по п.1 или 2, отличающийся тем, что видеоданные, обработанные программой (3) распознавания знаков, являются черно-белыми видеоданными.

Описание изобретения к патенту

Изобретение относится к способу считывания полного блока данных из формуляров с графическими знаками, текстовая часть которых содержит несколько разделенных между собой полей данных, пространственное положение которых внутри текстовой части является единообразным для всех формуляров, при этом способ содержит операции:

a) получения изображения формуляра и записи в память видеоданных отдельных полей данных;

b) идентификации содержащихся в полях данных графических знаков посредством видеоданных этих полей и программы распознавания знаков при условии, что последние идентифицируемы с заданной степенью достоверности;

c) определение неидентифицированных полей данных, т.е. тех полей данных в формуляре, графические знаки которых не могли быть идентифицированы вообще или с заданной степенью достоверности;

d) передачи информации о полях данных на периферийную станцию обработки данных преимущественно по глобальной сети передачи данных;

e) полной идентификации графических знаков неидентифицированного поля данных на основе информации о полях данных на периферийной станции обработки данных;

f) передачи результатов идентификации графических знаков на станции обработки данных для последующего применения.

При обработке документов и, в частности, формуляров часто возникает необходимость в переводе на компьютерный язык рукописных слов или знаков. Для этого соответствующий документ с помощью сканера преобразуют в электронные изображения в форме видеоданных. С помощью соответствующей программы считывания изображений предпринимается попытка перевода этих видеоданных в компьютерные символы с тем, чтобы в конечном итоге определить через компьютерные символы скрытое за написанными словами или знаками содержание. Достоверность при считывании графических знаков зависит в очень большой степени от качества заполнения считываемого документа и качества изображений в нем. Влияющим фактором является, прежде всего, качество заполнения, например качество рукописного или машинописного текста. Кроме того, имеет значение четкость изображения, т.е. разделение между отдельными графическими знаками и, как правило, светлым фоном изображения, качество преобразования серых тонов в черно-белые, а также не в последнюю очередь возможное загрязнение оригинала. Все эти факторы могут сыграть роль в отношении распознавания или нераспознавания знаков программой их распознавания. При этом возрастание количества нераспознанных знаков приводит к неправильному распознаванию. На основе ошибочно распознанного знака интерпретируется бессмысленный знак.

При обширном считывании рукописных формуляров, типичном, например, при обработке медицинских рецептов, в результате неопознанных или ошибочно опознанных графических знаков возникают значительные расходы на дополнительное считывание, т.е. ручное считывание, тех формуляров, которые не были считаны или были считаны неполностью с помощью программы распознавания знаков. Это касается, прежде всего, формуляров, заполненных не сегментированным шрифтом, а рукописным.

Способ с приведенными выше операциями известен из ЕР 0 565 912 А2. Он представляет собой способ корректуры для распознавания заполненных формуляров, причем нераспознанные или недостоверно распознанные буквы или графические знаки определяются итеративно в несколько приемов. Это может проводиться, в частности, на удаленной станции обработки данных, например, с использованием глобальной сети передачи данных. Сначала переводят в память отдельные видеоданные формуляра в соответствии с его полями данных. На основе видеоданных с помощью программы распознавания знаков проводится идентификация графических знаков при условии, что такая идентификация возможна с достаточной достоверностью. Координаты символов, нераспознанных или распознанных с недостаточной достоверностью, заносятся в созданную машиной структуру данных. Затем данные из этой машинной структуры передаются на периферийную станцию обработки данных. На ней проводится полная идентификация графических знаков, а машинная структура данных дополняется соответствующей информацией о корректуре. В способе согласно ЕР 0 565 912 А2 применяется только одна комплексная структура данных, которая для всех соответствующих полей создает “историю корректуры” и выдает ее в конце обработки данных. С точки зрения защиты данных такой способ не является удовлетворительным, так как он не может гарантировать конфиденциальность содержащейся в формулярах информации именно вследствие возможного доступа ко всей комплексной структуре данных.

Поэтому в основу изобретения положена задача создания способа, позволяющего проводить недорогое дополнительное считывание формуляров, недостаточно идентифицированных в отношении содержания посредством программы распознавания знаков, причем в рамках дополнительного считывания должна гарантироваться конфиденциальность содержащейся в формулярах информации.

Для решения указанной задачи предлагается способ приведенного выше типа, отличающийся тем, что

g) по каждому неидентифицированному полю данных его видеоданные объединяют с присвоенным этому полю данных с ссылочным значением с образованием обрабатываемого блока данных для передачи;

h) идентификация графических знаков неидентифицированного поля данных проводится на периферийной станции обработки данных на основе видеоданных блока данных для передачи;

i) на периферийной станции обработки данных идентифицированные графические знаки формируются в блок данных графических знаков и объединяются с ссылочным значением с образованием обработанного блока данных для передачи, который передается обратно;

j) на основе ссылочного значения обратно переданного блока данных для передачи блок данных графических знаков объединяется с остальными полями данных того же формуляра с формированием полного блока данных.

Предпочтительно вводить в память в качестве видеоданных как черно-белые видеоданные, так и контрастные тона, причем видеоданные, содержащиеся в обрабатываемом блоке данных для передачи, являются видеоданными с контрастными тонами. Также предпочтительно, чтобы обработанные программой распознавания знаков видеоданные были черно-белыми.

Способ согласно изобретению отличается низкими затратами на дополнительное считывании формуляров, текст заполнения которых не идентифицируется или идентифицируется с недостаточной достоверностью посредством программы распознавания знаков. Для этого согласно изобретению для формуляров, графические знаки которых не были идентифицированы или идентифицированы с недостаточной степенью достоверности, проводится разделение, с одной стороны, на поля данных, содержание которых уже распознано, и, с другой стороны, на поля данных, содержание которых пока не распознано. Введенные ранее в память видеоданные полей данных, содержание которых остается пока не распознанным, объединяют с присвоенным этому полю данных ссылочным значением для формирования блока данных для передачи. На периферийную станцию обработки данных передается только этот блок данных, на которой затем в результате оптического сравнения, выполненного соответствующим работником, проводится полная идентификация сохранявшегося до этого времени неидентифицированным поля данных, а именно на основании видеоданных соответствующего поля данных, содержащихся в переданном блоке данных для передачи. После этого сформированный таким образом блок данных графических знаков вместе с ссылочным значением передается обратно в качестве полного блока данных для передачи, причем при этой обратной передаче, как и во время предыдущей передачи на периферийную станцию обработки данных, возможно использовать информационные пути глобальной сети передачи данных, в частности Интернета.

Поэтому в способе согласно изобретению отказались от полного дополнительного считывания всех неидентифицируемых машинным способом формуляров в пользу исключительного дополнительного считывания отдельных полей данных. Это позволяет заметно сократить трудовые и, следовательно, финансовые затраты на дополнительное считывание. Еще одним преимуществом является то, что при дополнительных считываниях соответствующим работником проверяются и идентифицируются графические знаки лишь отдельных полей данных. Установить связь с другими полями данных того же формуляра не представляется возможным работнику, занимающемуся дополнительным считыванием, в результате чего гарантируется максимальная конфиденциальность содержащейся в формуляре информации. Это имеет особое значение при считывании рецептурных формуляров с содержащимися в них данными о пациенте.

Подробности способа поясняются ниже с помощью примера осуществления со ссылкой на приложенный чертеж. На чертеже в схематическом виде представлен способ считывания полного блока данных из формуляров с графическими знаками.

Формуляры 1, которые могут представлять собой, например, рецепты с нанесенными на них в рукописном виде предписаниями врача, содержат несколько полей данных а, b, с, d, е. Пространственное положение таких полей в текстовой части формуляра единообразно. В поля данных а, b, с, d, е могут быть внесены, например, предписание врача, фамилия пациента, идентификационный код медицинского страхования и пр.

Заполнение таких формуляров 1, например, лечащим врачом производится, как правило, не на пишущей машинке или другим стандартным способом, а вручную. В том случае, когда требуется машинное считывание полей данных а, b, с, d, е, это обстоятельство обуславливает применение соответственно интеллектуальной программы распознавания знаков. Для считывания содержания полей данных отдельных формуляров сначала получают отдельные изображения этих формуляров посредством видеосчитывания, и полученные при этом видеоданные вводят в память. Для этого пользуются обычным сканером. Важно, чтобы видеосчитывание подразделялось на черно-белое видеосчитывание 2а и видеосчитывание отдельных контрастных тонов 2b, т.е., например, серых тонов или многоступенчатых цветовых тонов, которые позже при обработке фильтруются электронным способом в зависимости от цветовых смещений.

Полученные на основе видеосчитывания черно-белые видеоданные 2а соответствующего формуляра обрабатываются с помощью программы 3 распознавания знаков. В большинстве случаев, т.е. при подавляющем большинстве формуляров 1, программа 3 распознавания знаков в состоянии распознать графические знаки во всех полях данных а, b, с, d, е, так что может сразу проводиться обработка этих данных. В таких преобладающих случаях соответственно имеет место полное распознавание блоков данных 4.

Однако с помощью программы 3 распознавания знаков не обеспечивается полное считывание всех формуляров. Сохраняется остаточное количество неопознанных или не полностью опознанных блоков данных 5. Причины такого нераспознавания полей данных отдельных формуляров могут быть очень разнообразны. Так, например, может оказаться нечитабельным почерк производившего заполнение лица, написанное может быть смазано или находиться в непредусмотренном для него месте в текстовой части формуляра или сам формуляр может быть загрязнен на участке отдельных полей данных или целиком. Во всех случаях, когда блоки данных 5 являются нераспознанными или распознанными не полностью, требуется дополнительное считывание соответствующих формуляров. Для этого на следующей операции проводится определение неидентифицированных полей данных d, е, с размежеванием на уже идентифицированные поля данных а, b, с соответствующего блока данных. При этом неидентифицированными полями данных считаются такие поля, графические знаки которых программой 3 распознавания знаков не могут распознаваться или распознаются не с заданной, присущей для системы степенью достоверности. Видеоданные Вd, Be неидентифицированных полей данных d, е вместе с присвоенными этим полям d, е ссылочными значениями R4, R5 группируют в блок 6 данных для передачи.

Присвоение ссылочных значений R4 , R5 блоку 6 данных для передачи производится по принципу шифрования для обеспечения положения, при котором постороннее лицо не может сделать выводы на основе объединения видеоданных Вd, Be с соответствующими ссылочными значениями R4, R5 о владельце этих данных или о причастном к ним лице. Таким образом достигается максимально возможная защита данных от несанкционированного к ним доступа, поскольку блок 6 данных для передачи сам по себе содержит лишь незначительные сведения.

Обрабатываемый блок 6 данных для передачи запрашивается периферийной станцией 7 обработки данных по Интернету или другой глобальной сети передачи данных путем их обмена. Периферийная станция 7 обработки данных представляет собой, например, периферийную сервисную службу, выполняющую для оператора способа платные услуги по дополнительному считыванию. На основе видеоданных Вd , Be блока 6 данных для передачи на периферийной станции обработки данных сотрудник с опытом распознавания графических знаков перепроверяет блок видеоданных, т.е. изображение пока не считанного поля данных, и получает результат, при котором в наиболее общих случаях содержащиеся в этих полях графические знаки оказываются идентифицироваными. Для упрощения этой идентификации в основу видеоданных Вd, Be блока 6 данных для передачи закладывают данные, полученные при считывании изображения 2b с серыми тонами. Оказалось, что трудно читаемые графические знаки идентифицируются лучше на основе факсимильных изображений в серых тонах, чем на основе черно-белого изображения. Вместо серых тонов могут применяться также цветные тона. Последние могут подвергаться, например, электронной фильтрации с тем, чтобы таким образом, например, заглушить при обработке цветные фоновые структуры.

Поля данных d, е, идентифицированные на периферийной станции 7 обработки данных на основе видеоданных с серыми тонами, снова обратно передаются в виде блока данных графических знаков вместе с присвоенными им ссылочными значениями R4, R 5 в качестве обработанного блока 8 данных для передачи, причем эта обратная передача проводится по линиям передачи данных Интернета или другой глобальной сети передачи данных.

Информация из обработанного блока 8 для передачи вместе с ранее полностью считанной информацией полей данных а, b, с формируется в полный блок данных полей а, b, с, d, е. На чертеже объединение полей данных отмечено позицией 9. Критерием последовательности при объединении служат присвоенные соответствующим полям данных ссылочные значения, причем не только ранее неидентифицированные поля данных d, е, но также и поля данных а, b, с, распознанных с помощью программы 3 распознавания знаков, содержат соответствующее отдельное ссылочное значение R4, R5 или R1 , R2, R3. В результате этого блоки 10 данных оказываются полностью распознанными и могут быть подвержены дополнительной обработке.

Наверх