способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое преобразование изображения на основании поиска текстовых строк

Классы МПК:G06K9/03 обнаружение и исправление ошибок, например повторное считывание образа
Автор(ы):, ,
Патентообладатель(и):ЛУМЕКС АС (NO)
Приоритеты:
подача заявки:
2006-05-19
публикация патента:

Изобретение относится к средствам геометрического преобразования деформированных изображений документов, содержащих текст. Техническим результатом является повышение достоверности распознавания текстов. В способе и системе обеспечивается отслеживание текстовой строки, дающее в результате изображение, содержащее параллельные текстовые строки. Преобразованное изображение используют в качестве входных данных для программы оптического распознавания символов. При этом компонуют идентифицированные направления соседних идентифицированных связанных элементов изображения, тем самым идентифицируя текстовые строки, направляющие линии или подобные элементы, составляющие направление текстовых строк по всей площади изображения или ее части, идентифицируют точки преобразования, относящиеся к скомпонованным направлениям текстовых строк на площади изображения. 4 н. и 40 з.п. ф-лы, 6 ил. способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482

способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482 способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482 способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482 способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482 способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482 способ, система, цифровая фотокамера и сис, обеспечивающие геометрическое   преобразование изображения на основании поиска текстовых строк, патент № 2412482

Формула изобретения

1. Способ для геометрического преобразования деформированного изображения, содержащего текст, с помощью поиска текстовых строк на изображении, причем способ содержит этапы, на которых:

a) выполняют начальный анализ, чтобы оценить, достаточно ли на изображении похожих на текст структур для выполнения преобразования,

b) идентифицируют связанные элементы изображения, вероятно формирующие символы, слова, и осуществляют поиск вероятных символов, слов, чтобы идентифицировать направление каждого вероятного символа, слова, отражающее направление текстовых строк, направляющих линий или подобных элементов, составляющих направление текстовых строк в каждой из соответствующих позиций на изображении, которые содержат каждый из идентифицированных связанных элементов изображения, формирующих символы, слова,

c) компонуют идентифицированные направления соседних идентифицированных связанных элементов изображения, тем самым идентифицируя текстовые строки, направляющие линии или подобные элементы, составляющие направление текстовых строк по всей площади изображения или ее части, идентифицируют точки преобразования, относящиеся к скомпонованным направлениям текстовых строк на площади изображения,

d) на основании точек преобразования преобразуют изображение или часть изображения, содержащую текст, в изображение, на котором текстовые строки являются ровными и параллельными.

2. Способ по п.1, в котором этап а) дополнительно содержит этап, на котором анализируют связанные элементы изображения, чтобы удостовериться, что связанные элементы изображения согласованы по размеру, форме и взаимному расположению в тексте.

3. Способ по п.1, в котором этап а) дополнительно содержит этап, на котором сравнивают высоты связанных элементов изображения с заранее заданным пороговым уровнем, идентифицирующим минимальную элементарную разрешающую способность изображения.

4. Способ по п.1, в котором этап а) дополнительно содержит этап, на котором измеряют связанные элементы изображения, обеспечивая соотношение между площадью/высотой/шириной каждого из связанных элементов изображения, и обеспечивают сравнение измеренного соотношения с заранее заданным нижним пороговым уровнем и верхним пороговым уровнем, признавая негодными связанные элементы изображения, имеющие соотношение, выходящее за пределы, задаваемые нижним и верхним пороговыми уровнями.

5. Способ по п.1, в котором этап b) дополнительно содержит этап, на котором измеряют интервалы между связанными элементами изображения, обеспечивая первый особый интервал, относящийся к промежутку между символами, и второй особый интервал, относящийся к промежутку между словами.

6. Способ по п.5, который дополнительно содержит этап, на котором выделяют группы связанных элементов изображения, формирующих вероятные слова, исходя из первого и второго особых интервалов.

7. Способ по п.6, который дополнительно содержит этап, на котором выделяют группы связанных элементов изображения с помощью геометрического упорядочения.

8. Способ по п.5, который дополнительно содержит этап, на котором идентифицируют направление текстовых строк на основании выделенной группы связанных элементов изображения, отражающее направление локальной текстовой строки в позиции в текстовой строке, в которой размещается выделенная группа связанных элементов изображения.

9. Способ по п.8, который дополнительно содержит этап, на котором упорядочивают направления локальных текстовых строк в текстовых строках, исходя из второго особого интервала, разделяющего слова.

10. Способ по п.9, который дополнительно содержит этап, на котором идентифицируют длинные слова с помощью упорядочивания соотношения высоты-ширины между сгруппированными связанными элементами изображения, и используют длинные слова как основу для упорядочивания направлений локальной текстовой строки.

11. Система, реализованная в программируемой компьютерной системе или устройстве, обеспечивающая геометрическое преобразование деформированного изображения, содержащего текст, с помощью поиска текстовых строк на изображении, причем система содержит:

e) программный модуль, выполняющий начальный анализ, чтобы оценить, достаточно ли на изображении похожих на текст структур для выполнения преобразования,

f) программный модуль, идентифицирующий связанные элементы изображения, вероятно формирующие символы, слова, и осуществляющий поиск вероятных символов, слов, чтобы идентифицировать направление каждого вероятного символа, слова, отражающее направление текстовых строк, направляющих линий или подобных элементов, составляющих направление текстовых строк в каждой из соответствующих позиций на изображении, которые содержат каждый из идентифицированных связанных элементов изображения, формирующих символы, слова,

g) программный модуль, компонующий идентифицированные направления соседних идентифицированных связанных элементов изображения, тем самым идентифицируя текстовые строки, направляющие линии или подобные элементы, составляющие направление текстовых строк по всей площади изображения или ее части, идентифицирующий точки преобразования, относящиеся к скомпонованным направлениям текстовых строк на площади изображения,

h) программный модуль, который на основании точек преобразования преобразует изображение или часть изображения, содержащую текст, в изображение, на котором текстовые строки являются ровными и параллельными.

12. Система по п.11, в которой модуль е) дополнительно содержит функцию анализа связанных элементов изображения, чтобы удостовериться, что связанные элементы изображения согласованы по размеру, форме и взаимному расположению в тексте.

13. Система по п.11, в которой модуль е) дополнительно содержит функцию сравнения высот связанных элементов изображения с заранее заданным пороговым уровнем, идентифицирующим минимальную элементарную разрешающую способность изображения.

14. Система по п.11, в которой модуль е) дополнительно содержит функцию измерения связанных элементов изображения, определяющего соотношение между площадью/высотой/шириной каждого из связанных элементов изображения, и функцию обеспечения сравнения измеренного соотношения с заранее заданным нижним пороговым уровнем и верхним пороговым уровнем, признающего негодными связанные элементы изображения, имеющие соотношение, выходящее за пределы, задаваемые нижним и верхним пороговыми уровнями.

15. Система по п.11, в которой модуль f) дополнительно содержит функцию измерения интервалов между связанными элементами изображения, определяющего первый особый интервал, относящийся к промежутку между символами, и второй особый интервал, относящийся к промежутку между словами.

16. Система по п.15, в которой модуль дополнительно содержит функцию выделения групп связанных элементов изображения, формирующих вероятные слова, исходя из первого и второго особых интервалов.

17. Система по п.16, в которой модуль дополнительно содержит функцию выделения групп связанных элементов изображения с помощью геометрического упорядочения.

18. Система по п.15, которая дополнительно содержит функцию идентификации направления локальной текстовой строки на основании выделенной группы связанных элементов изображения, отражающего направление текстовой строки в позиции в текстовой строке, в которой размещается выделенная группа связанных элементов изображения.

19. Система по п.18, в которой модуль дополнительно содержит функцию упорядочивания направлений локальных текстовых строк в текстовых строках, исходя из второго особого интервала, разделяющего слова.

20. Система по п.19, в которой модуль дополнительно содержит функцию идентификации длинных слов с помощью упорядочивания соотношения высоты-ширины между сгруппированными связанными элементами изображения, и функцию использования длинных слов как основу для упорядочивания направлений локальных текстовых строк.

21. Система по п.11, в которой модуль е) дополнительно содержит функцию оповещения пользователей, если в результате начального анализа делается вывод, что изображение содержит недостаточную информацию.

22. Цифровая фотокамера, содержащая программируемое устройство, исполняющее программу для геометрического преобразования деформированного изображения, содержащего текст, с помощью поиска текстовых строк на изображении, причем цифровая фотокамера содержит:

i) программный модуль, идентифицирующий связанные элементы изображения, вероятно формирующие символы, слова, и осуществляющий поиск вероятных символов, слов, чтобы идентифицировать направление каждого вероятного символа, слова, отражающее направление текстовых строк, направляющих линий или подобных элементов, составляющих направление текстовых строк в каждой из соответствующих позиций на изображении, которые содержат каждый из идентифицированных связанных элементов изображения, формирующих символы, слова,

j) программный модуль, компонующий идентифицированные направления соседних идентифицированных связанных элементов изображения, тем самым идентифицируя текстовые строки, направляющие линии или подобные элементы, составляющие направление текстовых строк по всей площади изображения или ее части, идентифицирующий точки преобразования, относящиеся к скомпонованным направлениям текстовых строк на площади изображения,

k) программный модуль, который на основании точек преобразования, преобразует изображение или часть изображения, содержащую текст, в изображение, на котором текстовые строки являются ровными и параллельными.

23. Цифровая фотокамера по п.22, в которой модуль i) дополнительно содержит функцию анализа связанных элементов изображения, чтобы удостовериться, что связанные элементы изображения согласованы по размеру, форме и взаимному расположению в тексте.

24. Цифровая фотокамера по п.22, в которой модуль i) дополнительно содержит функцию сравнения высот связанных элементов изображения с заранее заданным пороговым уровнем, идентифицирующим минимальную элементарную разрешающую способность изображения.

25. Цифровая фотокамера по п.22, в которой модуль i) дополнительно содержит функцию измерения связанных элементов изображения, определяющего соотношение между площадью/высотой/шириной каждого из связанных элементов изображения, и функцию обеспечения сравнения измеренного соотношения с заранее заданным нижним пороговым уровнем и верхним пороговым уровнем, признающего негодными связанные элементы изображения, имеющие соотношение, выходящее за пределы, задаваемые нижним и верхним пороговыми уровнями.

26. Цифровая фотокамера по п.22, в которой модуль j) дополнительно содержит функцию измерения интервалов между связанными элементами изображения, определяющего первый особый интервал, относящийся к промежутку между символами, и второй особый интервал, относящийся к промежутку между словами.

27. Цифровая фотокамера по п.26, в которой модуль дополнительно содержит функцию выделения групп связанных элементов изображения, формирующих вероятные слова, исходя из первого и второго особых интервалов.

28. Цифровая фотокамера по п.27, в которой модуль дополнительно содержит функцию выделения групп связанных элементов изображения с помощью геометрического упорядочения.

29. Цифровая фотокамера по п.26, которая дополнительно содержит функцию идентификации направления локальной текстовой строки на основании выделенной группы связанных элементов изображения, отражающего направление текстовой строки в позиции в текстовой строке, в которой размещается выделенная группа связанных элементов изображения.

30. Цифровая фотокамера по п.29, в которой модуль дополнительно содержит функцию упорядочивания направлений локальных текстовых строк в текстовых строках, исходя из второго особого интервала, разделяющего слова.

31. Цифровая фотокамера по п.30, в которой модуль дополнительно содержит функцию идентификации длинных слов с помощью упорядочивания соотношения высоты-ширины между сгруппированными связанными элементами изображения, и функцию использования длинных слов как основы для упорядочивания направлений локальных текстовых строк.

32. Цифровая фотокамера по п.22, в которой модуль i) дополнительно содержит функцию оповещения пользователей, если в результате начального анализа делается вывод, что изображение содержит недостаточную информацию.

33. Цифровая фотокамера по п.22, выполненная с возможностью встраивания в мобильное беспроводное пользовательское оборудование.

34. СИС (Специализированная Интегральная Схема), содержащая электронные схемы для геометрического преобразования деформированного изображения, содержащего текст, с помощью поиска текстовых строк на изображении, причем СИС содержит:

l) электронные схемы, идентифицирующие связанные элементы изображения, вероятно формирующие символы, слова, и осуществляющий поиск вероятных символов, слов, чтобы идентифицировать направление каждого вероятного символа, слова, отражающее направление текстовых строк, направляющих линий или подобных элементов, составляющих направление текстовых строк в каждой из соответствующих позиций на изображении, которые содержат каждый из идентифицированных связанных элементов изображения, формирующих символы, слова,

m) электронные схемы, компонующие идентифицированные направления соседних идентифицированных связанных элементов изображения, тем самым идентифицируя текстовые строки, направляющие линии или подобные элементы, составляющие направление текстовых строк по всей площади изображения или ее части, идентифицирующий точки преобразования, относящиеся к скомпонованным направлениям текстовых строк на площади изображения,

n) электронные схемы, которые на основании точек преобразования, преобразует изображение или часть изображения, содержащую текст, в изображение, на котором текстовые строки являются ровными и параллельными.

35. СИС по п.34, в которых электронные схемы l) дополнительно содержат функцию анализа связанных элементов изображения, чтобы удостовериться, что связанные элементы изображения согласованы по размеру, форме и взаимному расположению в тексте.

36. СИС по п.34, в которой электронные схемы l) дополнительно содержат функцию сравнения высот связанных элементов изображения с заранее заданным пороговым уровнем, идентифицирующим минимальную элементарную разрешающую способность изображения.

37. СИС по п.34, в которой электронные схемы l) дополнительно содержат функцию измерения связанных элементов изображения, определяющего соотношение между площадью/высотой/шириной каждого из связанных элементов изображения, и функцию обеспечения сравнения измеренного соотношения с заранее заданным нижним пороговым уровнем и верхним пороговым уровнем, признающего негодными связанные элементы изображения, имеющие соотношение, выходящее за пределы, задаваемые нижним и верхним пороговыми уровнями.

38. СИС по п.34, в которой электронные схемы m) дополнительно содержат функцию измерения интервалов между связанными элементами изображения, определяющего первый особый интервал, относящийся к промежутку между символами, и второй особый интервал, относящийся к промежутку между словами.

39. СИС по п.38, в которой электронные схемы дополнительно содержат функцию выделения групп связанных элементов изображения, формирующих вероятные слова, исходя из первого и второго особых интервалов.

40. СИС по п.39, в которой электронные схемы дополнительно содержат функцию выделения групп связанных элементов изображения с помощью геометрического упорядочения.

41. СИС по п.38, в которой электронные схемы дополнительно содержат функцию идентификации направления локальной текстовой строки на основании выделенной группы связанных элементов изображения, отражающего направление текстовой строки в позиции в текстовой строке, в которой размещается выделенная группа связанных элементов изображения.

42. СИС по п.41, в которой электронные схемы дополнительно содержат функцию упорядочивания направлений локальных текстовых строк в текстовых строках, исходя из второго особого интервала, разделяющего слова.

43. СИС по п.42, в которой электронные схемы дополнительно содержат функцию идентификации длинных слов с помощью упорядочивания соотношения высоты-ширины между сгруппированными связанными элементами изображения, и функцию использования длинных слов как основы для упорядочивания направлений локальных текстовых строк.

44. СИС по п.34, в которой электронные схемы l) дополнительно содержат функцию оповещения пользователей, если в результате начального анализа делается вывод, что изображение содержит недостаточную информацию.

Описание изобретения к патенту

ОПИСАНИЕ

Настоящее изобретение относится к системам Оптического Распознавания Символов (OCR - Optical Character Recognition), и, в частности, к способу, системе или цифровой фотокамере, содержащей упомянутый способ для геометрического преобразования изображения деформированных изображений текста на основании поиска текстовых строк.

На предшествующем уровне техники планшетное сканирующее устройство стало стандартным оборудованием почти в каждом офисе, обеспечивающим ввод данных в компьютеры путем сканирования печатного текста, книжных страниц и других видов документов, таких как, например, рукописных заявлений или частично рукописных схем и т.д., для дальнейшей обработки текстов, электронного хранения, электронного распространения и т.д. Однако, всякий раз, когда документ или страница не выровнены должным образом на планшетном сканирующем устройстве, или толщина книги приводит к искривлению последних страниц книги над поверхностью планшетного сканирующего устройства, отсканированные изображения, передаваемые на компьютер, предоставляют деформированное изображение текста, которое является сложным для распознавания в OCR-программе, что общеизвестно для предшествующего уровня техники.

В последние годы цифровые фотокамеры стали альтернативой планшетным сканирующим устройствам, благодаря эксплуатационной гибкости при использовании фотокамеры. Однако проблема с деформированным изображением текста для OCR-обработки в цифровых фотокамерах дополнительно усиливается, так как может происходить смещение от заданного положения в трех измерениях (искажение перспективы) изображения, полученного с помощью фотокамеры, даже для снимков плоских страниц. Дефекты линзы, наподобие аберрации линзы и искажения, также могут влиять на эффективность OCR.

Геометрическое преобразование деформированного изображения документа, обеспечивающее скорректированные изображения, пригодные для OCR-обработки, может решить проблему. Патент США 6.304.313 раскрывает цифровую фотокамеру с функцией OCR, основываясь на разбиении страницы документа на блоки, причем каждый блок фотографируется перед тем, как каждый блок будет обработан OCR-функцией. Когда все блоки обработаны OCR-функцией, распознанные блоки с текстом, соответствующие множеству изображений, объединяются вместе для образования одного набора текстовых данных, соответствующего целому документу. Однако геометрическое преобразование согласно этому раскрытию всего лишь разбивает страницу на такие малые блоки, что деформирование в каждом малом блоке является незначительным. Следовательно, это решение может потребовать серьезной обработки для выполнения задачи в тех случаях, когда деформирование превышает определенный уровень. Дополнительно, разбиение текста может привести к тому, что текст в каждом блоке нельзя будет распознать, поскольку блоки становятся слишком маленькими, чтобы содержать распознаваемый текст.

Заявка на патент США US 2003/0026482 от 6 февраля 2003 года раскрывает способ для корректировки искажения перспективы в цифровом изображении документа, например, полученном с цифровой фотокамеры, в котором для нахождения перспективы изображения используется математическая модель, описывающая как параллельные линии проходят через общую точку при рассмотрении в некотором виде с перспективой. Согласно предпочтительному варианту осуществления этого изобретения, для нахождения перспективы изображения используются горизонтальные и вертикальные границы изображения, содержащего текст. Основываясь на этой математической модели искажения, вызванного перспективой, корректируются текстовые строки. Как легко понять, этот основанный на перспективе способ не справляется с другими часто встречающимися типами искажений, например, когда страница в книге фотографируется, а затем пропускается через OCR-функцию. Помимо искажений перспективы, проблему корректировки таких изображений, полученных с фотокамеры, значительно увеличивают структурные искажения, например, вследствие сгибания или искривления книжных страниц. Кроме того, из практического опыта ясно, что, при использовании фотокамеры для захвата изображения текста, фотокамера обычно располагается прямо над страницей, которая будет сфотографирована. Следовательно, искажение перспективы обычно будет вносить меньший вклад в общие искажения, которые встречаются в изображении, по сравнению, например, со структурными искажениями самого объекта (текстовая страница, сгиб книжных страниц, искривление страниц и т.д.).

Доклад "Корректировка деформации документа на основании регрессии искривленных текстовых строк", авторы Жанг (Zhang) и Тан (Tan), на Международной Конференции по Анализу и Распознаванию Документов, ICDAR-2003, раскрывает способ, основанный на моделях деформаций текстовых строк как квадратичных полиномиальных искривлений вместо того, чтобы использовать более общую цилиндрическую модель для деформации книги в конце книги, что описано выше. Строки отслеживаются, используя алгоритм выделения групп связанных элементов внутри ограничивающих прямоугольников, задаваемых расположением уже найденного сегмента текстовых строк.

Доклад "Восстановление изображения документа для распознавания текста/графики", авторы Ву (Wu) и Агам (Agam), на Международном Симпозиуме по Статистическому Распознаванию образов, SSPR-2002, раскрывает способ, основанный на строках, которые отслеживаются, используя локальное адаптивное кумулятивное проецирование под различными углами. Отслеживаемые строки могут пересекаться друг с другом вследствие локальной сущности алгоритма, когда две начальные точки приводят к двум различным направлениям поиска. В способ включается второй этап, на котором удаляют пересекающиеся строки, исходя из усредненного расположения строк, что ограничивает применение способа изображениями с достаточно качественными строками и малым искажением перспективы. Для восстановления прямоугольная сетка накладывается на остальные строки.

Доклад "Выпрямление изображения подшитого документа, захваченного фотокамерой: Модельный метод", авторы Као (Cao) и другие, на Международной Конференции по Анализу и Распознаванию Документов, ICDAR-2003, раскрывает способ, основанный на применении цилиндрической модели для деформации книги в конце книги, и перспективной модели для компенсирования разности глубины. Для выпрямления изображений используется наилучшее сочетание цилиндрической модели и набора пороговых каркасов строк.

Во всех этих вышеупомянутых докладах раскрываются способы, имеющие очевидные ограничения на типы геометрических деформаций, которые могут быть восстановлены этими способами. Цилиндрическая модель и квадратные многочлены подходят только для такого типа геометрических деформаций, который встречается в книгах с твердым переплетом. Фильтрация усредненной ориентации требует, чтобы текстовые строки были достаточно регулярными, что встречается в случае открытой книги, и что также ограничивает применение способов только небольшими перспективными деформациями.

Следовательно, существует потребность в способе и системе, обеспечивающих лучшее геометрическое преобразование искаженных изображений, содержащих текст, перед обработкой изображений с помощью OCR-функции, для достижения более достоверного и более полного распознавания текста документов в компьютерной системе или в системе с цифровой фотокамерой.

Согласно аспекту настоящего изобретения, похожая на текст информация на изображении может быть идентифицирована и количественно оценена на основе связанных элементов изображения («пикселов»), которые вероятно содержат текст, и на основе направления связанных элементов изображения, составляющих текст, направление текстовой строки может быть идентифицировано без какого-либо использования предварительного допущения или модели деформаций данного документа. Исходя из того обстоятельства, что большинство текстовых строк в реальных документах являются параллельными и сравнительно однородными по размеру, текстовые строки могут быть подвергнуты геометрическому преобразованию, обеспечивающему выровненные и параллельные текстовые строки, которые намного легче обрабатываются OCR-программами, тем самым обеспечивая более достоверное и более полное распознавание изображений, содержащих текст, с помощью упомянутой OCR-программы.

Согласно примеру варианта осуществления настоящего изобретения, изображение просматривается для идентификации похожих на текст структур, и для проведения оценки, является ли общая похожая на текст структура, содержащаяся на изображении, достаточной для выделения текстовых строк в качестве исходного компонента для геометрического преобразования всего документа, причем потенциально связанные элементы изображения, которые могут формировать символы, идентифицируются и отслеживаются для формирования текстовых строк, обеспечивающих точки для определения точек преобразования на упомянутых текстовых строках, при этом упомянутые точки преобразования используются для геометрического преобразования упомянутых текстовых строк или частей упомянутых текстовых строк, обеспечивающего изображения, содержащие параллельные и однородные текстовые строки, в качестве входных данных для OCR-программы.

Фиг. 1 изображает пример связанных элементов изображения, формирующих вероятное слово.

Фиг. 2 изображает примеры связанных элементов изображения, формирующих вероятные символы, которые формируют слова.

Фиг. 3 иллюстрирует изображение страницы документа, содержащее незначительную деформацию.

Фиг. 4 иллюстрирует отслеживание текстовой строки согласно примеру варианта осуществления настоящего изобретения.

Фиг. 5 иллюстрирует пример сеток для прямого и обратного геометрического плавного преобразования изображения согласно примеру варианта осуществления настоящего изобретения.

Фиг. 6 изображает блок-схему алгоритма примера варианта осуществления настоящего изобретения.

Согласно аспекту настоящего изобретения, вместо построения априорной математической модели искажений в содержащем текст изображении, основным вопросом является то, какие элементы изображения («пикселы»), представляющие символы, фрагменты символов (которые могут быть естественными, обусловленными типографскими особенностями текста, или искусственными, вследствие деформаций), слова или части слов, составляют связанные элементы изображения, причем связанные элементы изображения, относящиеся к символам, разнесены на интервал, задаваемый используемым шрифтом (Times New Roman и т.д.), и причем группы связанных элементов изображения, формирующих слова, разделяются другим интервалом, задаваемым интервалом между словами в текстовой строке, при этом есть возможность поиска по изображению для идентификации даже деформированных текстовых строк на основании упомянутого поиска, используя, например, упомянутые интервалы.

Согласно аспекту настоящего изобретения, задача настоящего изобретения может быть решена во время процесса, содержащего три основных этапа, на которых:

a) выполняют начальную проверку, чтобы оценить, достаточно ли на изображении похожих на текст структур для выполнения преобразования согласно настоящему изобретению,

b) идентифицируют связанные элементы изображения, вероятно формирующие символы, слова, и осуществляют поиск упомянутых вероятных символов, слов, чтобы идентифицировать точки преобразования,

c) основываясь на упомянутых точках преобразования, преобразуют изображение или часть изображения, содержащего текст, в изображение, в котором текстовые строки являются ровными и параллельными, и однородными по размеру.

Согласно аспекту настоящего изобретения, система отсчета, обеспечивающая систему координат для определения местоположения графических элементов, объектов, символов и т.д. на изображении, может задаваться плоскостью, обусловленной рабочей поверхностью планшетного сканирующего устройства или поверхностью устройства захвата изображения, такого как цифровая фотокамера, например. Однако, согласно настоящему изобретению, может использоваться любое определение системы координат.

Следовательно, любой элемент изображения на изображении соотносится с упорядоченным набором значений координат. Элементы изображения, относящиеся к изображению символов, составляющих текст, предоставляют несколько атрибутов, которые могут использоваться в OCR-функциях, что понятно специалисту в данной области техники. Например, может идентифицироваться форма символов, обеспечивая средство для распознавания символов, а затем и целых слов, например. Всякий раз, когда имеет место деформация изображения, распознавание затрудняется, как описано выше.

Согласно примеру варианта осуществления настоящего изобретения, геометрическое преобразование изображения может выполняться всякий раз, когда на изображении имеется достаточно информации для обеспечения сетки преобразования. Согласно представленному примеру, выполняется начальная проверка текста с анализом связанных элементов изображения, чтобы удостовериться, что они согласованы по размеру, форма и взаимное расположение согласуется с текстом. Например, если изображения имеют недостаточную разрешающую способность (высота символа меньше пяти-десяти элементов изображения, например), недостаточную структуру текстовой строки (единственная строка или разреженные слова не могут использоваться для определения сетки преобразования), изображение признается непригодным. В некоторых случаях текстовые строки могут выходить за край изображения.

Всякий раз, когда возникают такие ситуации, об этом может сообщаться пользователям по каналу обратной связи, предоставляя возможность устранить причину, по которой изображение не обеспечивает достаточной информации для геометрического преобразования согласно настоящему изобретению. Сигнализация может представлять собой отображение сообщения для пользователя на устройстве отображения компьютера. Согласно примеру варианта осуществления настоящего изобретения, содержащему цифровую фотокамеру, начальная проверка предоставляет сигнал обратной связи в виде зеленой световой индикации всякий раз, когда в результате начального анализа делается вывод о достаточной информации. Если зеленая световая индикация отсутствует, пользователь может выполнить регулировку, например, изменяя положение фотокамеры относительно документа, который пользователь в настоящее время исследует, меняя масштаб изображения или перемещая фотокамеру ближе к бумаге, книге и т.д., или же изменяя направление угла обзора фотокамеры. Когда зеленый световой индикатор включен, изображение может быть захвачено для обработки OCR-программой, запущенной непосредственно на фотокамере, или на присоединенном компьютере, принимающем изображение от фотокамеры.

Согласно данному примеру варианта осуществления, также измеряются связанные элементы изображения, чтобы предоставить соотношение между площадью/высотой/шириной, которое должно быть больше нижнего порогового значения и меньше верхнего порогового значения. Если упомянутое соотношение меньше упомянутого нижнего порога, элементы изображения рассматриваются как шум или помехи изображения. Если упомянутое соотношение больше упомянутого верхнего порогового значения, элементы изображения рассматриваются как являющиеся нетекстовыми элементами или помехами изображения. Любое множество связанных элементов изображения, не укладывающихся между упомянутыми нижним и верхним пороговыми значениями, признается непригодным для того, чтобы быть частью геометрического преобразования. Согласно примеру варианта осуществления настоящего изобретения, создается таблица по результатам идентификации позиций таких признанных непригодными множеств связанных элементов изображения.

Фиг. 1 иллюстрирует пример изображения, содержащего наклоненное слово "city". Элементы изображения, составляющие символ, являются связным множеством элементов изображения, как обрисовано выше, причем связность предусматривается, например, в четырехстороннем направлении, как север-юг-запад-восток связное множество элементов изображения (или вверх, вниз, влево, вправо), или в восьмистороннем виде, который в дополнение к направлениям север-юг-запад-восток также содержит диагонали. Наименования направлений представляют собой просто удобный способ задать различные направления, а не являются действительными направлениями. При этом направления, связанные с системой отсчета, располагающейся над рабочей поверхностью планшетного сканирующего устройства, например, обусловливают ориентацию в виде север, юг и т.д. или вверх, вниз и т.д., которая легка для понимания и проста для реализации в форме процедуры компьютерной программы. Исходя из этих правил связности, процедура анализа может быть запрограммирована, что понятно специалисту в данной области техники, для обеспечения идентификации связанных элементов изображения. На Фиг. 1 буква 'c' является связным множеством элементов изображения, использующих некоторое правило связности. Буква 'i' содержит два множества связанных элементов изображения, основы и точки, использующих некоторые из правил связности. Буквы 't' и 'y' содержат два множества связанных элементов изображения при использовании четырехстороннего правила, в то время как они являются одним множеством связанных элементов изображения при применении восьмистороннего правила. На Фиг. 2 проиллюстрирован другой пример связанных элементов изображения, формирующих слова. Кроме того, Фиг. 2 иллюстрирует проблему, с которой иногда сталкиваются при оптическом распознавании символов, когда деформации изменяют размер символов. Согласно аспекту настоящего изобретения, такие символы с измененной высотой могут быть признаны непригодными при упомянутой проверке упомянутого соотношения площади/высоты/ширины, что описано выше. Фиг. 3 изображает пример изображения текста с фоном, мешающим различить элементы изображения на фоне. Всякий раз, когда возникают такие ситуации, об этом может сообщаться по каналу обратной связи пользователям, обеспечивающим регулировки, например, параметров сканирующего устройства и т.д., которые могут повысить качество изображения, которое будет обрабатываться.

Если в результате начального анализа делается вывод, что изображение предоставляет достаточную информацию для использования при геометрическом преобразовании согласно настоящему изобретению, анализируемое изображение исследуется для идентификации вероятных текстовых строк. Согласно примеру варианта осуществления сначала изображение исследуется для измерения интервалов между связанными элементами изображения. Интервал измеряется путем подсчета количества элементов изображения или пробелов между связанными элементами изображения. Исследование выполняется по множеству направлений. В настоящем примере варианта осуществления измеренные интервалы сводятся в гистограмму, где ось X отображает интервал, измеренный в элементах изображения, а ось Y является счетчиком каждого измеренного интервала. Поскольку любой документ, содержащий текст, обусловливает первый особый интервал между символами, и иной второй особый интервал между словами, гистограмма предоставляет особые столбцы, отображающие подсчет каждого из упомянутых особых интервалов. Таким образом, идентифицированные связанные элементы изображения могут увязываться или группироваться по каждому направлению поиска на изображении для идентификации каждой идентифицируемой совокупности или выделенной группы связанных элементов изображения, как являющихся вероятными словами, исходя из упомянутых особых интервалов. В примере варианта осуществления настоящего изобретения позиции связанных элементов изображения, являющихся вероятными словами, вносятся в таблицу, одна запись таблицы для каждого вероятного слова. Позиции, внесенные в упомянутую таблицу, могут сравниваться со списком признанных негодными элементов изображения, идентифицированных при начальном анализе, что описано выше. Любые элементы изображения, внесенные в список признанных непригодными, удаляются из упомянутой таблицы. Таким образом, взаиморасположение позиций символов, внесенных в записи упомянутой таблицы, отображающей вероятное слово, обеспечивает направление текстовой строки относительно позиции, в которой расположено данное вероятное слово в текстовой строке, причем упомянутое направление связано с используемой системой координат. Как понятно специалисту в данной области техники, позиции, внесенные в упомянутую таблицу, могут быть относительными координатами.

В еще одном примере варианта осуществления настоящего изобретения в дополнение к интервалу, характеризующему символы и слова, используются другие параметры. Например, размер связанных элементов изображения при этом будет отражением того, что одинаковые символы в одном и том наборе шрифтов действительно имеют равный размер. Таким образом, размер и/или направления (т.е. взаиморасположение символов) могут использоваться для формирования критериев однородности, обеспечивающих средства для дополнительного повышения вероятности обнаружения слов. В примере варианта осуществления настоящего изобретения может использоваться любой известный способ геометрического упорядочивания для выделения групп связанных элементов изображения, например алгоритмы ранжированного поиска. В еще одном примере варианта осуществления соотношение между высотой-шириной сгруппированных связанных элементов изображения используется для идентификации направления локальной текстовой строки для вероятного слова.

Согласно аспекту настоящего изобретения, за словом в текстовой строке, вероятно, следует другое вероятное слово, отделенное упомянутым вторым особым интервалом. С помощью поиска на изображении по множеству направлений последующих слов, кроме выбранного слова, с упомянутым вторым особым интервалом, пример варианта осуществления настоящего изобретения обеспечивает список кандидатов, которые могут быть скомпонованы для идентификации текстовой строки.

В еще одном варианте осуществления настоящего изобретения в дополнение к интервалу, характеризующему слова, для идентификации упомянутых кандидатов используются другие параметры. Например, соотношение высоты-ширины между сгруппированными связанными элементами изображения может быть упорядочено для идентификации вероятных длинных слов, обеспечивая более вероятную идентификацию направления упомянутых текстовых строк.

Согласно примеру варианта осуществления настоящего изобретения, кандидаты, скомпонованные в вероятные текстовые строки, упорядочиваются и группируются для формирования текстовых блоков, на основании общности их интервала и размещения на изображении. Согласно данному примеру варианта осуществления, после этого рассматривается согласованность идентифицированных текстовых строк, например, исследуя, не пересекаются ли текстовые строки, или не прерываются ли они.

Фиг. 4 иллюстрирует отслеживание текстовой строки согласно примеру варианта осуществления настоящего изобретения. Согласно тому требованию, что набор шрифтов обусловливает равную высоту для связанных элементов изображения, составляющих символы, можно ввести направляющие линии, увязывающие символы в текстовой строке. Пересечения между направляющими линиями и связанными элементами изображения могут обусловливать точки на изображении, которые могут использоваться для геометрического преобразования. Такие отобранные точки отмечены перекрестиями на Фиг. 4.

Фиг. 5 иллюстрирует пример сеток для прямого и обратного геометрического плавного преобразования изображения согласно примеру варианта осуществления настоящего изобретения. Может быть выполнено плавное преобразование, как известно специалисту в данной области техники. Согласно аспекту настоящего изобретения, может использоваться преобразование любого типа.

Фиг. 6 изображает блок-схему алгоритма, иллюстрирующую предпочтительный пример варианта осуществления настоящего изобретения в виде компьютерной программы, исполняющейся в компьютерной системе или в процессорном компоненте, содержащемся в цифровой фотокамере. Изображение 10 передается на модуль 14 измерения качества. Назначением модуля измерения качества является обеспечить начальный анализ изображения, чтобы оценить, присутствует ли на изображении 10 достаточная информация для выполнения геометрического преобразования согласно настоящему изобретению, как описано выше. Параметры сохраняются в ячейке 15 памяти, предоставляя возможность корректировать параметры, чтобы улучшить качество изображения 10 при необходимости. Пороговый модуль 11 принимает параметры от ячейки 15 памяти, обеспечивая битовое отображение 12 изображения 10 с пониженным шумом, как понятно специалисту в данной области техники. Битовое отображение 12 передается на модуль 13, обеспечивющий идентификацию связанных элементов изображения, как описано выше. Идентифицированные связанные элементы изображения анализируются и упорядочиваются в модуле 17. Модуль 19 идентифицирует отдельные связанные элементы изображения как слова, в то время как модуль 16 группирует связанные элементы изображения в вероятные слова, как описано выше. Выходные данные от модулей 16 и 19 передаются на модуль 18, обеспечивающий проверку на согласованность слов. Результаты проверки на согласованность передаются обратно на модуль 14 измерения качества, приводя к возможной корректировке параметров, сохраненных в ячейке 15 памяти. Слова передаются от модуля 18 на модуль 21, обеспечивающий компоновку слов в кандидаты на текстовые строки, как описано выше. Проверка на согласованность может выполняться в модуле 20, который передает кандидатов на текстовую строку на модуль 23 анализа документа. На основании изображения 10 модуль 23 анализа документа обеспечивает, например, направляющие линии, которые описаны выше, на изображении 10. Пример альтернативного варианта осуществления предусматривает модуль 24, содержащий эталонное описание текста, например, исходя из сведений о шрифтах, которые используются на данном изображении. Анализ 23 документа обеспечивает текстовые блоки 26, которые объединяются с макетом 22 документа, а модуль 25 выделяет геометрические формы на изображении 10, которые используются для идентификации точек 27 преобразования, как описано выше. Фактическое преобразование выполняется в модуле 28, дающем на выходе преобразованное изображение 29, которое передается OCR-программе, что понятно специалисту в данной области техники.

Согласно настоящему изобретению, деформированные текстовые строки могут быть поправлены для обеспечения ровных и параллельных текстовых строк, обеспечивающих более достоверное распознавание текста в OCR-программах без предварительных сведений об изображении, или посредством априорного геометрического моделирования деформаций. Компьютерная программа, выполняющая этапы способа согласно настоящему изобретению, может быть встроена в стандартную OCR-программу, исполняющуюся в компьютерной системе или на программируемом устройстве, принимающем изображения документов от подсоединенного сканирующего устройства, или от цифровой фотокамеры, передающей упомянутые изображения на упомянутую компьютерную систему, например, посредством беспроводной связи, такой как технология Bluetooth, например. Согласно другому варианту осуществления настоящего изобретения, упомянутый способ может исполняться в программе или на программируемом устройстве, работающем в таком обрабатывающем компоненте, содержащемся в упомянутой фотокамере. Согласно еще одному варианту осуществления настоящего изобретения, упомянутый способ может быть реализован в виде ASIC (СИС, Специализированная Интегральная Схема), как понятно специалисту в данной области техники, в цифровой фотокамере или в любом другом типе оборудования. Упомянутая цифровая фотокамера может быть реализована в мобильном телефоне, или любом другом типе мобильного беспроводного пользовательского оборудования.

Наверх