способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов
Классы МПК: | G06Q99/00 Тематика, не отнесенная к другим группам данного подкласса G06F17/21 обработка текста |
Автор(ы): | Насыпный Владимир Владимирович (RU) |
Патентообладатель(и): | Насыпная Галина Анатольевна (RU) |
Приоритеты: |
подача заявки:
2007-05-31 публикация патента:
27.01.2009 |
Изобретение относится к области информационно-поисковых, аналитических, интеллектуальных систем и может быть использовано для создания новых компьютерных комплексов, применяющих стохастическую технологию в ходе интеллектуальной обработки текстов в электронном виде. Техническим результатом является автоматическое формирование аналитических функций обработки текста для увеличения точности и полноты поиска за счет получения знаний, не содержащихся в тексте в явном виде. В заявленном способе реализуют технологию поиска, основанную на эквивалентных преобразованиях предложений в совокупность предикатов и словосочетаний. Сформированные стохастически индексированные предикаты и словосочетания являются интегрирующим звеном в процессе обработки текста и знаний, а также используются в качестве дополнительных запросов. Из полученных частных ответов с помощью аналитических функций производят логическую сборку ответа, релевантного запросу пользователя. Обеспечение самообучения системы достигается путем преобразования их описаний в стохастически индексированные правила продукций и занесения в базы знаний. Формируют в процессе самообучения систему классификации, базы знаний предметной области текста и метазнаний для повышения эффективности семантического анализа как основы поиска. 22 з.п. ф-лы, 3 ил.
Формула изобретения
1. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, при котором:
производят самообучение системы путем выделения из текста в электронном виде правил продукций и их стохастического преобразования для реализации аналитических функций в процессе индексации и формирования таблиц индексов текста после выполнения морфологического, синтаксического и семантического анализа предложения,
генерируют стохастически индексированные словосочетания в электронном виде, из которых с помощью логического вывода образуют семантически независимые стохастические структуры предикатов, входящих в данное предложение,
преобразуют предикаты к виду логической последовательности стохастически индексированных комбинаций сигналов, которые затем применяют для формирования стохастически индексированных правил продукций аналитических функций и семантической сети предметной области текста,
классифицируют объекты и отношения предикатов по родовидовому критерию и критерию часть-целое, производя прямой и обратный логический вывод по стохастическим структурам индексированных толковых словарей,
создают из полученных путем логического вывода цепочек объектов и отношений классификатор, который используют при выделении из стохастически индексированного текста стохастических структур сложноподчиненных предложений с придаточными условиями, цели, причины и следствия, описывающих порядок реализации аналитических функций,
преобразуют сформированные стохастические структуры к виду стохастически индексированных правил продукций, которые записывают в базу знаний первого уровня,
применяют классификатор для создания базы знаний предметной области текста путем классификации стохастически индексированных предикатов предложения и формирования из них семантических структур в электронном виде,
используют полученные стохастические базы знаний правил продукций и предметной области текста для реализации логического вывода посредством произвольного доступа к семантически связанным структурам текста при обработке запроса пользователя,
производят перевод запроса пользователя в повествовательное предложение и преобразуют его в совокупность стохастически индексированных предложений-предикатов,
производят на основе стохастически индексированных предложений-предикатов правила продукций, заключение которого содержит синтаксические и семантические характеристики искомого краткого или полного ответа,
применяют условие правила продукций в виде стохастических предикатов для формирования дополнительных запросов к стохастически индексированным структурам текста с целью получения частного ответа, релевантного соответствующему предикату,
используют для поиска частного ответа доступ к базе знаний предметной области текста и правилам продукций с целью реализации необходимых аналитических функций,
производят на основе предикатов баз знаний предметной области текста и правил продукций логический вывод путем построения семантических сетей и древовидных стохастических структур правил продукций,
логически преобразуют правила продукций и предикаты для формирования частных ответов, релевантных дополнительным запросам,
используют логическую сборку для формирования из частных ответов краткого и полного ответов на запрос пользователя,
заносят стохастические структуры новых правил продукций, образованных в процессе логического вывода, в базы знаний второго уровня, тем самым продолжая процесс самообучения системы,
обращаются при отсутствии отдельных элементов знаний в базе исходных текстов к базе метазнаний, представленных в виде стохастически индексированных структур энциклопедических, научных, научно-технических текстов,
извлекают из этих текстов недостающие предикаты и дефиниции в виде стохастически индексированных правил продукций и предикатов, которые применяют для получения ответа, релевантного запросу пользователя, и затем заносят в стохастическую структуру базы метазнаний, продолжая процесс самообучения системы.
2. Способ по п.1, отличающийся тем, что
автоматически создают для классификации объектов и отношений между ними, содержащихся в стохастически индексированных текстах, классификатор общий или по данной предметной области путем логической обработки общего или тематических толковых словарей,
используют морфологический, синтаксический, семантический анализ дефиниций толковых словарей для построения родо-видовых семантических связей между понятиями толковых словарей,
извлекают для семантических связей между понятиями по критерию часть-целое те составляющие дефиниций, в которых такие связи описаны,
создают классификаторы типа род-вид и часть-целое, в которых содержатся слова, входящие в общие и тематические толковые словари, связанные цепочками логического вывода с классификационными базовыми понятиями род-вид, часть-целое,
при этом в каждой цепочке содержатся понятия более высокого ранга по системе классификации, нежели исходные понятия, стоящие на входе в данный классификатор,
используют для классификации слов, обладающих многозначностью, дефиниции толкового словаря, определяющие каждое значение этого слова,
производят классификацию многозначных слов с использованием стохастически индексированных словосочетаний, на основе которых осуществляют определение, к какой дефиниции относится данное значение слова,
производят специальный запрос в Интернет, ответ на который должен содержать соответствующее слово, семантически связанное с исходным и относящееся к данному классу, если дефиниции словаря в процессе логического вывода не позволяют определить следующее по рангу слово в цепочке классификации.
3. Способ по п.1, отличающийся тем, что для определения типа придаточного предложения сначала находят, содержится ли в предложении уникальный союз, связывающий главную и придаточную части предложения, который позволяет однозначно определить тип придаточной части, в положительном случае считают, что тип придаточной части определен, если рассматриваемое предложение содержит союз, который является общим для нескольких типов придаточных частей, то производят эквивалентное преобразование предложения, включая в него уникальный союз для определяемого типа придаточной части, затем полученное предложение пословно классифицируют и все его слова заменяют базовыми словами класса, к которому относят каждое из этих слов.
4. Способ по п.1 или 3, отличающийся тем, что по введенному уникальному союзу производят обращение к базе текстов или Интернет, при этом выбирают набор предложений, содержащих уникальный союз перед придаточной частью предполагаемого типа, далее производят классификацию слов выбранных предложений, при этом из полученных классифицированных предложений выбирают одно или более предложений, имеющих идентичную классификацию с предложением текста, в котором определяют тип придаточной части, после этого каждое предложение эквивалентно преобразуют с использованием стохастически индексированных цепочек классификатора путем перехода к слову, определяющему подкласс данного класса, который имеет более низкий ранг, чем базовое слово.
5. Способ по п.4, отличающийся тем, что получают эквивалентное предложение, где базовые слова классов заменяют на соответствующие им слова подклассов, полученные по таблице классификатора, при этом преобразования выполняют по шагам с использованием соответствующих цепочек классификатора, если на очередном шаге такого преобразования все слова или большинство слов исходного предложения текста совпадут со словами одного из предложений, полученных в Интернет, то это значит, что получено эквивалентное описание содержания двух предложений на уровне соответствующих подклассов, при этом считают, что тип придаточной части исходного сложноподчиненного предложения текста, соответствующий уникальному союзу, определен точно, в противоположном случае полагают, что анализируемое предложение текста содержит другой тип придаточной части, при этом выбирают другой уникальный союз и описанные действия повторяют до тех пор, пока не будет определен тип придаточной части.
6. Способ по п.1, отличающийся тем, что при отнесении типа придаточной части рассматриваемого предложения текста к типу условия, цели, причины, следствия, это предложение переводят посредством эквивалентного преобразования в формат правила продукций, затем полученное описание правила стохастически индексируют и заносят в стохастическую структуру базы знаний первого уровня, при этом на основе полученных правил реализуют основные логические функции определения, обобщения, сравнения, аналогии, выбора, а также функции, содержащие отношения причины, следствия, цели, при этом предикаты правил могут содержать процедуры доступа к базам данных, включая сайты Интернет, а также к прикладным программам, реализующим необходимые информационно-вычислительные функции.
7. Способ по п.1, отличающийся тем, что аналитическую функцию определения, в соответствии с полученными выше правилами продукций, реализуют на основе дефиниций стохастически индексированных структур толкового словаря или энциклопедий, при этом предложение конкретной дефиниции разделяют на совокупность предложений-предикатов, связанных по схеме тема-рема и применяемых в качестве предикатов условия правила по конкретной дефиниции, заключением которого является определяемое понятие.
8. Способ по п.1, отличающийся тем, что логическую функцию обобщения формируют на основе логического вывода и преобразования функции определения для перехода от видового к родовому признакам, при этом в правиле продукций с помощью стохастической структуры классификатора выделяют определение понятия, которое является родовым для данного определения, и принимают его как родовое понятие для обобщения, при этом правила продукций определений могут быть представлены с помощью логического вывода в виде древовидной стохастической структуры связанных по родо-видовому признаку подмножеств правил продукций, а обобщающее родовое понятие будет содержаться в заключении правила, являющегося корневым для образованной древовидной стохастической структуры.
9. Способ по п.1, отличающийся тем, что аналитическую функцию сравнения производят на основании функции определения объектов или понятий, представленных стохастически индексированными правилами продукций, при этом учитывая, что свойства каждого объекта описывают совокупностью предикатов условия правил, для определения сходства или различия объектов используют процедуры логического преобразования правил продукций с применением функций их логического умножения и объединения как элементов некоторого множества.
10. Способ по п.1, отличающийся тем, что для реализации функции аналогии сначала определения первого и второго объектов преобразуют в стохастически индексированные правила продукций, затем, используя функцию сравнения, выявляют сходства данных объектов в виде идентичных индексов предикатов правил продукций, при этом выделяют предикат, который содержится в определении первого объекта и, возможно, по аналогии должен содержаться в определении второго объекта.
11. Способ по п.1, отличающийся тем, что функция выбора основана на реализации функций точного поиска, определения и сравнения, при этом используют формализованное описание объектов, преобразованных к виду стохастически индексированных правил продукций, затем в зависимости от запроса пользователя в текстовой базе или Интернет находят объекты, которые соответствуют определенному набору предикатов, содержащихся в запросе, после этого для каждого из найденных объектов реализуют функцию сравнения правил, описывающих эти объекты, с совокупностью предикатов запроса, в результате будут выбраны объекты, определения которых в виде стохастически индексированных правил продукций содержат совокупность предикатов запроса пользователя.
12. Способ по п.1, отличающийся тем, что для создания базы знаний предметной области текста каждое из стохастически индексированных предложений после разделения на простые предложения преобразуют к виду совокупности словосочетаний, из которых с помощью логического вывода формируют стохастические структуры предложений-предикатов, затем получают стохастически индексированные структуры для базы знаний предметной области текста, включая входную таблицу, таблицу классов предикатов и основную таблицу индексов, при этом каждая строка входной таблицы содержит неповторяющийся индекс типа объекта предметной области индексированной базы знаний, а также индекс словосочетания, в которое входит данный тип объекта, затем следует список классов предикатов предметной области текста второй таблицы, при этом индекс класса предиката является входом в основную таблицу индексов, содержащую совокупность предикатов, которые относятся к данному классу с указанием адресной части каждого предиката в базе индексированных текстов.
13. Способ по п.1 или 12, отличающийся тем, что входом в базу знаний предметной области текста является строка, которая включает индекс основ слов, определяющих классы объектов предметной области текста, основная таблица индексов содержит описание предметной области текста на уровне типов объектов и отношений между ними, преобразованных к виду таблицы предикатов предметной области текста, в результате база знаний предметной области текста содержит все типы объектов и отношений между ними, входящие в предметную область текста, при наличии в текстах элементов классификации по родовидовому критерию или критерию часть-целое в состав базы знаний предметной области текста могут входить наименования классов, определяющих отношения данного типа объекта к тому или иному классу, входная таблица обеспечивает возможность произвольного доступа к индексам и содержанию предикатов сначала таблицы классов предикатов, а затем основной таблицы индексов, что обеспечивает возможность нахождения по предикату дополнительного запроса релевантного частного ответа в базе стохастически индексированных текстов.
14. Способ по п.1, отличающийся тем, что для реализации функций логического вывода с помощью правил продукций каждое правило продукций преобразуют в стохастически индексированную структуру, по предикатам условий правил продукций формируют дополнительные запросы и производят поиск соответствующих частных ответов, при этом правила продукций проверяют по всем предикатам условия, и в случае истинности всех предикатов условия заключение считают истинным, если заключение содержит предварительный результат в виде предиката, по которому необходимо найти логически связанные правила, то их поиск производят по индексам основ слов словосочетания в таблице индексов базы знаний правил продукций, при этом за счет произвольного доступа к таблицам на основе стохастических индексов формируют сетевые фреймы, с использованием которых образуют древовидную стохастическую структуру логического вывода для получения ответа пользователя.
15. Способ по п.1, отличающийся тем, что, если при обработке запроса не находят соответствующего релевантного ответа или правила в базе первого уровня для реализации необходимых аналитических функций с целью поиска ответа, то переходят к аналитической обработке самого запроса путем преобразования его к виду логической структуры, состоящей из предложений-предикатов, при этом запрос, преобразованный описанным выше порядком, с использованием логической связи переводят в правило продукций, приведенный порядок формирования правил продукций осуществляют и в случае, когда словосочетание полученного предполагаемого краткого ответа не соответствует требуемым синтаксическим и семантическим характеристикам, тогда переходят к формированию следующего дополнительного запроса в базу текстов или Интернет для поиска нового краткого ответа, с этой целью используют предикаты базы знаний предметной области текста, исходя из класса найденного краткого ответа, определяют тип отношения для нового запроса в Интернет.
16. Способ по п.1 или 15, отличающийся тем, что запрос в Интернет содержит предикат, включающий первый найденный краткий ответ и тип отношения, при этом формирование следующего запроса производят автоматически, целью поиска по второму запросу является нахождение объекта, относящегося к тому же классу, что и первый краткий ответ, но имеющему более высокий ранг, который соответствует вопросительному словосочетанию, при этом, также как и для первого запроса, по второму запросу в базу текстов или Интернет находят поисковый образ, релевантный второму запросу.
17. Способ по п.16, отличающийся тем, что проверяют соответствие класса предполагаемого краткого ответа требуемому классу краткого ответа, при этом предложение, которое должно быть найдено, содержит предикат, релевантный предикату очередного запроса, если после нескольких подобных автоматически формируемых, логически связанных дополнительных запросов в очередном поисковом образе находят краткий ответ, который соответствует перечисленным выше условиям, то считают, что найдена последовательность предполагаемых кратких ответов, последний из которых является релевантным и отвечает требуемым характеристикам краткого ответа.
18. Способ по п.17, отличающийся тем, что логическим следствием процесса поиска является автоматическое формирование нового правила продукций, в котором предикаты могут быть связаны отношением часть-целое, являющимся транзитивным, что позволяет реализовывать логический вывод с использованием предикатов условия и получать краткий ответ, входящий в заключение правила, которое после стохастической индексации заносят в базу знаний второго уровня.
19. Способ по п.1, отличающийся тем, что если запрос представлен в виде сложноподчиненного предложения, то для получения ответа могут быть использованы аналитические функции разборки и сборки предложений, определения, сравнения и выбора, а также функции формирования дополнительных запросов для получения частных ответов из базы текстов или Интернет, при этом после преобразования предложения в повествовательную форму и разделения его на предложения-предикаты получают правило продукций, которое содержит в условии набор предикатов, являющихся дополнительными запросами к системе, а в заключении включает характеристики краткого ответа.
20. Способ по п.1 или 19, отличающийся тем, что после стохастического индексирования правила производят доступ к базе знаний предметной области текста для нахождения по предикатам условия правила релевантных частных ответов, при этом если на уровне описания предметной области текста найдется семантическая структура, эквивалентная структуре, образованной из предикатов правила, то по соответствующим индексам текстов, абзацев и предложений производят обращение к индексированной текстовой базе с целью нахождения краткого ответа, при этом могут использоваться логические функции анализа и синтеза, определения, сравнения, выбора, после получения краткого ответа и записи его в заключение правила исходное правило запроса пользователя записывают в базу знаний второго уровня.
21. Способ по п.1, отличающийся тем, что если в процессе поиска ответа базы знаний предметной области текста оказывается недостаточно, чтобы сформировать семантическую сеть и правила продукций, определяющие ответ, релевантный запросу, то подключают уровень метазнаний, при этом метазнания извлекают по запросам, формируемым системой из стохастически индексированных энциклопедий, справочников, научно-технических текстов по различным предметным областям, а также из Интернет, метазнания привлекают дополнительно, чтобы обеспечить самообучение системы новым знаниям, непосредственно участвующим в формировании ответа, в зависимости от запросов, получаемых в системе автоматически, метазнания могут содержать дефиниции объектов предметной области текста, предикаты, определяющие отношения между этими объектами, которые отсутствуют в описании предметной области текста, а также аналитические функции, образованные на их основе, выборку метазнаний производят избирательно с тем, чтобы дополнить семантическую сеть, сформированную на уровне описания предметной области текста, или доказать эквивалентность отдельных ее предикатов предикатам запроса, это делают с целью получения релевантного ответа.
22. Способ по п.1 или 21, отличающийся тем, что метазнания и аналитические функции применяют для оценки релевантности предикатов, включающих конверсивы, в том числе для доказательства релевантности предикатов, когда в них используют глаголы-конверсивы, а субъект и объект меняются ролями, при этом после поступления запроса и его обработки формируют правило продукций и обращаются по предикатам условия к базе знаний предметной области текста с целью построения семантической структуры, которая образована из стохастически индексированных идентичных или эквивалентных предикатов, если при этом для одного из предикатов запроса находят предикат предметной области текста, то после неудачной попытки доказать эквивалентность предикатов формируют запрос к базе метазнаний, с этой целью предикат предполагаемого ответа представляют в виде совокупности словосочетаний, по индексам каждого словосочетания делают обращение к стохастически индексированным энциклопедиям, толковым словарям и другим источникам для получения дефиниций словосочетаний, не содержащихся в исходном тексте и базе знаний предметной области текста, после получения дефиниций субъекта и объекта применяют аналитические функции определения и преобразуют их к виду стохастически индексированных правил продукций, далее проверяют, содержатся ли в логическом объединении предикатов указанных правил конверсивные предикаты, в случае подтверждения считают, что данные предикаты являются конверсивами и имеют одинаковую семантику.
23. Способ по п.1 или 21, отличающийся тем, что если не удается доказать, что предикаты являются конверсивами, то к уровню метазнаний подключают новые источники путем автоматического формирования запроса к общей базе текстов или Интернет, при этом автоматический запрос содержит предполагаемые предикаты-конверсивы, если в процессе получения ответа, содержащего хотя бы одно сложное стохастически индексированное предложение, в которое в качестве простых предложений входят предполагаемые предикаты-конверсивы, то это означает, что указанные предикаты являются конверсивами, в результате правило запроса с найденным кратким ответом считают истинным, а краткий ответ является релевантным запросу, после этого полученную логическую цепочку, включающую определение метазнаний в виде правил продукций, результат логического преобразования, индекса предложений, содержащих конверсивы, записывают в базу метазнаний.
Описание изобретения к патенту
Класс G06Q99/00 Тематика, не отнесенная к другим группам данного подкласса
Класс G06F17/21 обработка текста