способ и система анализа распечатанного документа на наличие в нем конфиденциальной информации

Классы МПК:G06F17/20 манипулирование данными, представленными на естественном языке
G06F12/00 Выборка, адресация или распределение данных в системах или архитектурах памяти
Автор(ы):, ,
Патентообладатель(и):Общество с ограниченной ответственностью "Фирма "АРТИ" (RU)
Приоритеты:
подача заявки:
2008-07-23
публикация патента:

Изобретение относится к области сетей передачи данных, а более конкретно - к системе и способу управления документооборотом и процессами печати. Технический результат заключается в обеспечении информационной безопасности, определении документопотоков, содержащих конфиденциальную информацию и требующих повышенной степени контроля. В изобретении обеспечивают определение в автоматическом режиме к какой из категорий относится распечатываемый документ и предотвращение несанкционированной печати. В способе осуществляют анализ распечатанного документа на наличие в нем конфиденциальной информации, система включает пользовательское устройство, печатающее устройство, сервер службы контроля печати, блок конвертора, сервер баз данных, файловое хранилище, блок распознавания, сервер контекстного анализа и службу сигнализации. 2 н.п. ф-лы.

Формула изобретения

1. Способ анализа распечатанного документа на наличие в нем конфиденциальной информации, заключающийся в том, что:

отправляют с пользовательского устройства печатающему устройству команду на выполнение печати документа;

создают файл образа документа;

получают печатающим устройством команду на выполнение печати документа;

производят печать документа печатающим устройством, отличающийся тем, что дополнительно содержит этапы на которых:

после создания файла образа документа полученный образ документа отправляют посредством сервера службы контроля печати в блок конвертора;

с помощью блока конвертора конвертируют образ документа, получая содержащийся в образе текст;

записывают информацию о файле в базу данных;

сохраняют полученный текст в файле как текстовый образ документа;

текстовый образ документа сохраняют в файловом хранилище;

направляют текстовый образ документа на сервер контекстного анализа;

производят загрузку ключевых фраз и их последовательный поиск в текстовом образе документа без учета регистра и морфологии;

производят последовательный поиск содержимого текста документа среди всех документов, входящих в шаблоны;

определяют морфологические группы и определяют на их основании вероятности содержания в тексте конфиденциальной информации;

в случае обнаружения конфиденциальной информации в упомянутом текстовом образе документа, направляют соответствующее сообщение на службу сигнализации.

2. Система анализа распечатанного документа на наличие в нем конфиденциальной информации, содержащая пользовательское устройство, печатающее устройство, сервер службы контроля печати, блок конвертора, сервер баз данных, файловое хранилище, блок распознавания, сервер контекстного анализа и службу сигнализации, причем пользовательское устройство соединено с печатающим устройством и сервером службы контроля печати, соединенным с сервером баз данных и блоком конвертора, соединенным с сервером баз данных, файловым хранилищем и блоком распознавания, соединенным с сервером контекстного анализа, соединенным с файловым хранилищем и службой сигнализации.

Описание изобретения к патенту

Изобретение относится к области сетей передачи данных, а более конкретно - к системе и способу управления документооборотом и процессами печати.

Известна система учета предоставления почтово-банковских услуг, обеспечивающая автоматическое зачисление пенсий на текущие пенсионные счета, позволяющая ввести электронный документооборот, автоматизацию взаиморасчетов, отчетности и контроля (патент RU 2100841 G06F 17/60, 1997 г.).

Также известно устройство для подсчета документов, содержащее направляющую планку, определяющую направляющую поверхность транспортировки документов, правый, центральный и левый датчики, генерирующие соответствующие сигналы в ответ на наличие части документа в соответствующей части направляющей поверхности, цифровые устройства для взятия выборок сигнала левого или правого, или центрального датчиков с получением их соответствующих репрезентативных значений и программируемый контроллер, соединенный с цифровым устройством взятия выборок и запрограммированный на получение результата подсчета документов, управляющих сигналов для управления работой устройства и сигналов состояния для контроля работы устройства в ответ на соответствующие репрезентативные значения (патент RU 2144697 G07D7/04, 2000 г.).

Описанные аналоги сложны и не адаптированы к решению задачи определения среднестатистических объемов печати и копирования при наличии нескольких пользователей.

Наиболее близким аналогом предлагаемого изобретения является система управления документооборотом, содержащая, по меньшей мере, один сервер, подключенный к сети передачи данных, причем к упомянутой сети передачи данных подключено, по меньшей мере, одно пользовательское устройство, при этом упомянутый сервер соединен, по меньшей мере, с двумя периферийными устройствами, причем упомянутый сервер соединен, по меньшей мере, с одним устройством вычисления объемов печати и копирования, по меньшей мере, с одним устройством вычисления объемов печати и копирования по каждому периферийному устройству, по меньшей мере, с одним датчиком технического износа периферийного устройства, причем на накопителе данных сервера содержится информация о себестоимости одного отпечатанного или откопированного листа по каждому из, по меньшей мере, двух периферийных устройств (см патент RU 59857 U1, G06F 12/00, 2006 г.).

К недостаткам наиболее близкого аналога данного изобретения следует отнести невозможность определения наличия несанкционированной печати.

Обеспечение оповещения и предотвращения несанкционированной печати - одна из целей предлагаемого изобретения. Таким образом, целью предлагаемого изобретения является повышение информационной безопасности.

Утечка данных через печатно-копировальное оборудование с каждым годом становится все более опасной угрозой информационной безопасности компании.

Как показывает статистика, расходы на организацию бумажного документооборота достигают 10% от общих затрат предприятия: это не только прямые (стоимость расходных материалов, запчастей, обслуживания техники), но и косвенные затраты (время сотрудников на производство документов, время простоя оборудования, неликвидные остатки этих материалов на складах и т.д.).

Вышеперечисленные проблемы особенно актуальны для крупных предприятий с большими объемами печати.

Наиболее эффективным средством по защите от утечек является использование в системах, обеспечивающих документооборот, комплексных информационных продуктов, одно из таких - предлагаемое изобретение -АСУПиМ (Автоматизированная система управления печатью и мониторинга), являющаяся ядром КСУППиК (комплексная система управления процессами печати и копирования.

Назначением системы является контроль содержимого отпечатанного документа на предмет наличия в нем конфиденциальной информации непосредственно сразу после факта печати, определение прав пользователей на печать данной информации и оповещение сотрудников отдела безопасности в случае обнаружения несанкционированного сеанса печати.

Таким образом, задачами предлагаемого изобретения являются:

1. повышение информационной безопасности предприятия;

2. создание централизованной системы мониторинга процессов печати в организации.

Поставленные задачи решаются при помощи предлагаемой комплексной системы управления процессами печати (КСОПП), которая позволяет осуществлять:

1. контроль процессов печати документов;

2. управление процессами печати;

3. управление парком копировально-принтерного оборудования,

4. полное техническое обслуживание копировально-принтерного

оборудования.

Техническими результатами предлагаемого управления процессами печати являются:

1. обеспечение информационной безопасности;

2. определение документопотоков, содержащих конфиденциальную информацию и требующих повышенной степени контроля;

3. оповещение системой службы безопасности о наличии факта несанкционированной печати;

4. определение в автоматическом режиме, к какой из категорий относится распечатываемый документ;

5. предотвращение несанкционированной печати. Комплексная система управления процессами печати осуществляет автоматический контроль и оптимизированное управление документооборотом.

Указанные технические результаты достигаются за счет реализации способа анализа распечатанного документа на наличие в нем конфиденциальной информации, включающего этапы:

отправки от пользовательского устройства печатающему устройству команды на выполнение печати документа;

создания файла образа документа;

получения печатающим устройством команды на выполнение печати документа;

печати документа печатающим устройством, при этом после создания файла образа документа, полученный образ документа:

отправляют посредством сервера службы контроля печати в блок конвертора;

сохраняют информацию о нем в базу данных;

с помощью блока конвертора конвертируют образ документа, получая содержащийся в образе текст;

сохраняют полученный текст в файл как текстовый образ документа;

текстовый образ документа сохраняют в файловом хранилище;

направляют текстовый образ документа на сервер контекстного анализа;

производят загрузку ключевых фраз и их последовательный поиск в текстовом образе документа без учета регистра и морфологии;

производят последовательный поиск содержимого текста документа среди всех документов, входящих в шаблоны;

определяют морфологические группы и определяют на их основании вероятности содержания в тексте конфиденциальной информации;

в случае обнаружения конфиденциальной информации в упомянутом текстовом образе документа, направляют соответствующее сообщение на службу сигнализации на рабочем месте сотрудника отдела безопасности и фиксируют факт в базе данных.

Способ анализа распечатанного документа на наличие в нем конфиденциальной информации реализуется системой контекстного анализа на наличие в распечатанном документе конфиденциальной информации, причем система содержит пользовательское устройство, печатающее устройство, сервер службы контроля печати, блок конвертора, сервер баз данных, файловое хранилище, блок распознавания, сервер контекстного анализа и службу сигнализации, причем пользовательское устройство соединено с печатающим устройством и сервером службы контроля печати, соединенным с сервером баз данных и блоком конвертора, соединенным с сервером баз данных, файловым хранилищем и блоком распознавания, соединенным с сервером контекстного анализа, соединенным с файловым хранилищем и службой сигнализации.

Система работает под управлением специального программного обеспечения.

Функциональность серверов, блоков и устройств, входящих в состав предлагаемой системы, обеспечивается за счет разработанного программного обеспечения по свидетельствам № 2008611915, № 2008611916 и № 2008611917.

Программа по свидетельству № 2008611915 «Система мониторинга печатного документооборота» предназначена для мониторинга печатного документооборота; организации и анализа статистики произведенной печати за указанные пользователем периоды; вывода результатов анализа в табличном и графическом видах с возможностью проведения дополнительных операций по агрегированию данных; вывода результатов анализа на печать; подготовки сводного отчета о печати в организации за указанный период.

Программа по свидетельству № 2008611916 «Служба мониторинга очередей печати» позволяет осуществлять организацию сбора информации о печатающих устройствах, процессах печати в системе, а также образов распечатанных документов и запись информации в базу данных; осуществлять сбор информации от клиентских служб при организации мониторинга печати.

Программа по свидетельству № 2008611917 «Сервер службы контекстного анализа» предназначена для полнотекстового поиска и контекстного анализа данных в соответствии с заданными параметрами искомой информации и пользовательскими правами на печать с использованием функций поиска файлов на платформе Searchlnform, а также организации связи клиентских приложений системы на основе протоколов TCP и UDP.

Система построена на основе архитектуры клиент-сервер. Разграничение прав доступа к печати осуществляется с использованием категорий документов. Каждая категория представляет собой набор шаблонов документов, объединенных общей тематической направленностью. Для каждого пользователя определяется набор категорий, разрешенных к печати.

Работа серверной части основана на функционале SDK Searchlnform. Основной функцией серверной части является оценка в процентном выражении степени схожести (релевантности) содержимого данного распечатанного документа с содержимым шаблонных документов каждой из категорий.

Сервер Searchlnform обеспечивает структуризацию разрозненной информации в рамках предприятия и создание системы поиска и дальнейшей обработки документов.

Обмен информацией между клиентской и серверной частью осуществляется по стандартному протоколу UDP.

Клиентской частью является служба оповещения (пользовательское устройство), устанавливаемая на рабочем месте работника отдела безопасности и представляющая собой резидентный модуль, который при получении сообщения от серверной части выводит на экран окно сообщения.

Выявление принадлежности распечатанного документа к одной из существующих категорий является ключевым моментам данного этапа анализа. При отсутствии у пользователя прав на печать документов той категории, к которой по результатам анализа принадлежит распечатанный документ, блоком анализа выдается сообщение для отдела безопасности, информирующее о факте несанкционированной печати.

При реализации системы использовались: возможности языка С# на платформе Framework.NET 2.0 с использованием ADO.NET для написания рабочего кода программ; возможности языка C++с использованием MFC для написания рабочего кода программы; Microsoft SQL Server 2005 для создания и управления базами данных, используемыми системой; SDK Searchlnform Server (сервер Searchlnform) для непосредственного доступа к функциям, осуществляющим определение степени сходства содержимого печатаемого документа с содержимым заранее созданных текстовых шаблонов.

Взаимодействие клиентских и серверных приложений реализовано на основе сетевых протоколов TCP и UDP.

Данная система анализа распечатанного документа на наличие в нем конфиденциальной информации реализует способ анализа распечатанного документа на наличие в нем конфиденциальной информации, осуществляемый следующим образом.

На пользовательском устройстве подается команда на печать документа, при этом образ документа в формате принтера (в случае использования на пользовательском устройстве операционной системы Windows, файл данного образ будет иметь расширение *.spl), на котором будет производиться печать, поступает как на сам принтер, так и на сервер службы контроля печати (блок SpMS). При этом в имени файла содержится дата и время создания образа документа, его размер, идентификатор и формат.

Сервер службы контроля печати направляет упомянутый образ документа в формате драйвера принтера на блок преобразования образов документов, одновременно отправляя на сервер баз данных информацию о том, с какого пользовательского устройства был произведен запрос на печать, имя пользователя, отправившего запрос, и его права доступа, имя распечатываемого документа, время создания образа документа в формате драйвера принтера. При этом на сервере баз данных сохраняется вся полученная информация.

В блоке преобразования образов документов (блок конвертора) упомянутый образ распечатываемого документа в формате драйвера принтера преобразуется в кроссплатформенный формат электронных документов (предпочтительно в Portable Document Format (PDF), созданный компанией Adobe Systems).

Далее, документ, преобразованный в формат PDF, получает новое имя и поступает в файловое хранилище, где сохраняется.

Также документ поступает на блок распознавания, в котором упомянутый документ в формате PDF с содержимым исходного документа в графическом виде преобразуется в файл в формате PDF с содержимым исходного документа в текстовом виде и отправляется на сервер контекстного анализа.

Сервер контекстного анализа производит сравнение текста, содержащегося в файле, полученном от блока распознавания, с каждым из файлов, входящих в N шаблонов, получая величину совпадения (релевантности), выраженного в процентном отношении. Категория шаблона, документы которого имеют наибольшую релевантность и превышают допустимый уровень, присваивается анализируемому файлу, полученному от блока распознавания.

Контекстный анализ содержимого текстового образа документа на факт наличия конфиденциальной информации состоит из трех этапов:

предварительного этапа, этапа категоризации и этапа кластеризации. Данные этапы реализуются сервером контекстного анализа.

Предварительный этап:

На данном этапе производится загрузка ключевых фраз и их последовательный поиск в тексте документа без учета регистра. Поиск на данном этапе не учитывает морфологию. Наличие в тексте хотя бы одной фразы из списка говорит об однозначной принадлежности документа к ДСП.

Этап категоризации.

На данном этапе производится последовательный поиск содержимого текста документа среди всех документов, входящих в шаблоны, и определяется степень сходства (релевантность) с каждым из них. Затем определяется значение максимальной релевантности среди выборки, из которого вычисляется пороговое значение. Далее вычисляется среднее значение релевантности внутри каждого шаблона. Превышение среднего значения релевантности над пороговым значением говорит о принадлежности документа к категории данного шаблона. Решение об однозначной принадлежности к определенной категории выносится лишь в случае, когда пороговое значение превышено средним значением релевантности одного шаблона. В остальных случаях необходимо проводить этап кластеризации.

Этап кластеризации.

На данном этапе производится разбиение текста документа на слова с определением морфологических групп и определение на их основании вероятности содержания в тексте конфиденциальной информации (например, списка фамилий, телефонов, идентификаторов и пр.).

Сервер контекстного анализа определяет, имеет ли пользователь право печати документов присвоенной категории и, в случае отсутствия прав, отправляет команду на сервер баз данных для регистрации события несанкционированной печати, а также выдает соответствующее сообщение службе сигнализации, которая является рабочим местом работника отдела безопасности.

Данный способ анализа распечатанного документа на наличие в нем конфиденциальной информации может быть реализован с помощью машиночитаемого носителя информации, содержащего программный продукт, который при исполнении на электронно-вычислительной машине осуществляет управление системой управления документооборотом.

Класс G06F17/20 манипулирование данными, представленными на естественном языке

способ обнаружения текстовых объектов -  патент 2498401 (10.11.2013)
обработка электронных чернил -  патент 2485579 (20.06.2013)
разрешение кореференции в чувствительной к неоднозначности системе обработки естественного языка -  патент 2480822 (27.04.2013)
способ изучения системы письма китайскими иероглифами и основанных на китайских иероглифах систем письма других языков -  патент 2470354 (20.12.2012)
системы и способы манипулирования данными в системе хранения данных -  патент 2413984 (10.03.2011)
способ и система для создания, хранения, управления и потребления специфичных культуре данных -  патент 2412474 (20.02.2011)
устройство кросс-кластерной управляемой перестановки информации, хранимой в персональной эвм -  патент 2409842 (20.01.2011)
способ и система форматирования по условию, активируемая одним щелчком мыши, для программ -  патент 2398271 (27.08.2010)
отображение таблиц с помощью команд на естественном языке -  патент 2380747 (27.01.2010)
способ верификации программного обеспечения распределительных вычислительных комплексов и система для его реализации -  патент 2373570 (20.11.2009)

Класс G06F12/00 Выборка, адресация или распределение данных в системах или архитектурах памяти

способ скрытного хранения конфиденциальных данных в защищенной энергонезависимой памяти и устройство для его реализации -  патент 2527758 (10.09.2014)
способ, сервер, компьютерная программа и компьютерный программный продукт для кэширования -  патент 2527736 (10.09.2014)
способ разрушения интегральных схем памяти носителей информации -  патент 2527241 (27.08.2014)
способ восстановления данных в системе управления базами данных -  патент 2526753 (27.08.2014)
система контроля доступа к файлам на основе их автоматической разметки -  патент 2524566 (27.07.2014)
носитель записи, устройство воспроизведения и интегральная схема -  патент 2523178 (20.07.2014)
устройство формирования файлов изображения, устройство обработки изображения, способ формирования файлов изображения, способ обработки изображения и структура данных файлов изображения -  патент 2519058 (10.06.2014)
обработка транзакций для действий с побочным эффектом в транзакционной памяти -  патент 2510977 (10.04.2014)
устройство для внедрения водяного знака в информационное представление, детектор для обнаружения водяного знака в информационном представлении, способ и компьютерная программа и информационный сигнал -  патент 2510937 (10.04.2014)
способ репликации информации в распределенных базах данных с конкурентным распределением потоков -  патент 2510623 (10.04.2014)
Наверх