система и способ для интернет-поиска мультимедийного контента реального времени
Классы МПК: | G06F17/30 информационный поиск; структуры баз данных для этой цели |
Автор(ы): | Пономарев Дмитрий Максимович (RU), Крылов Владимир Владимирович (RU), Орел Денис Олегович (RU) |
Патентообладатель(и): | Общество с ограниченной ответственностью "МераЛабс" (RU) |
Приоритеты: |
подача заявки:
2008-12-03 публикация патента:
10.09.2010 |
Изобретение относится к средствам поиска мультимедийного (AV) контента реального времени. Техническим результатом является расширение области применения поиска мультимедиа контента в реальном времени. Поисковая система включает в себя: модуль поиска признаков, выполняющий анализ текущей загруженной Web-страницы на предмет присутствия признаков, свидетельствующих о наличии на ней вещания AV контента реального времени, из заранее заданного набора признаков; базу данных, в которой сохраняются адреса Web-страниц, где установлено наличие вещания AV контента реального времени; пользовательский интерфейс для обеспечения пользователю возможности поиска по базе данных; при этом при анализе модуль поиска признаков выполняет разбор текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем признаков, указывающих на средство воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем признаков, указывающих на то, что воспроизводимый AV контент является именно AV контентом реального времени. 6 н. и 25 з.п. ф-лы, 4 ил.
Формула изобретения
1. Способ обеспечения пользователю возможности поиска в компьютерно-реализуемой поисковой системе, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, содержащий этапы, на которых:
A. заранее задают в поисковой системе расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени;
B. осуществляют анализ загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора;
C. если такие признаки выявлены в Web-странице при анализе, сохраняют адрес данной Web-страницы в базе данных из состава поисковой системы, в противном случае переходят на этап D;
D. загружают новую Web-страницу и повторяют в отношении нее этапы В и С;
E. обеспечивают в поисковой системе пользователю возможность осуществлять поиск по базе данных,
при этом анализ по этапу В осуществляют посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени.
2. Способ по п.1, в котором признак представляет собой символ или набор символов.
3. Способ по п.2, в котором признак представляет собой элемент разметки Web-страницы.
4. Способ по п.3, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.
5. Способ по п.1, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.
6. Компьютерно-реализуемая поисковая система, предназначенная для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, причем в поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, при этом система включает в себя:
модуль поиска признаков, выполненный с возможностью анализа загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора;
базу данных, приспособленную для сохранения адресов Web-страниц, в которых модулем поиска признаков по результатам анализа установлено наличие вещания AV контента реального времени;
пользовательский интерфейс для обеспечения пользователю возможности осуществлять поиск по базе данных;
при этом что модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени.
7. Система по п.6, дополнительно содержащая модуль загрузки Web-страниц, выполненный с возможностью загрузки в поисковую систему Web-страниц из Интернета.
8. Система по п.6, в которой признак представляет собой символ или набор символов.
9. Система по п.8, в котором признак представляет собой элемент разметки Web-страницы.
10. Система по п.9, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.
11. Система по п.6, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.
12. Модуль поиска признаков из состава компьютерно-реализуемой поисковой системы, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, причем в поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, при этом модуль поиска признаков выполнен с возможностью анализа загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора, причем модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени.
13. Способ обеспечения пользователю возможности поиска в компьютерно-реализуемой поисковой системе, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, содержащий этапы, на которых:
А. заранее задают в поисковой системе расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени;
C. осуществляют анализ текущей загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на текущей Web-странице вещания AV контента реального времени, из упомянутого их набора и, если такие признаки выявлены в текущей Web-странице, переходят на этап D, в противном случае переходят на этап G;
D. формируют описание AV контента реального времени из текста текущей Web-страницы и, если описание не удовлетворяет заранее заданному критерию, переходят на этап Е, в противном случае переходят на этап F;
E. в формируемое описание AV контента реального времени включают по меньшей мере частично текст из Web-страниц, которые обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу;
F. сохраняют сформированное описание совместно с по меньшей мере адресом текущей Web-страницы в базе данных из состава поисковой системы;
G. загружают новую или обновленную Web-страницу и повторяют в отношении нее этапы C-F;
I. обеспечивают в поисковой системе пользователю возможность осуществлять поиск по базе данных с использованием сохраненных в ней описаний,
при этом анализ по этапу С осуществляют посредством разбора текстового содержимого файлов текущей Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени;
при этом, если описание AV контента реального времени, сформированное на этапах D и Е, не удовлетворяет заранее заданному критерию, на этапе G дополнительно в описание AV контента реального времени включают по меньшей мере частично текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
14. Способ по п.13, в котором признак представляет собой символ или набор символов.
15. Способ по п.14, в котором признак представляет собой элемент разметки Web-страницы.
16. Способ по п.15, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.
17. Способ по п.13, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст текущей Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.
18. Способ по п.13, в котором заранее заданный критерий соответствует минимально приемлемому объему описания.
19. Способ по п.13, дополнительно содержащий этап В, на котором заранее задают в поисковой системе расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, при этом при формировании описания по этапу D выполняют анализ текста текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из упомянутого их набора, и при их обнаружении включают по меньшей мере частично текст текущей Web-страницы в формируемое описание AV контента реального времени.
20. Способ по п.13, в котором на этапе Е пошагово просматривают Web-страницы, обработанные поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницы, включают по меньшей мере частично ее текст в формируемое описание AV контента реального времени, при этом количество обратных шагов по упомянутому пути ограничено заранее заданным максимальным количеством.
21. Компьютерно-реализуемая поисковая система, предназначенная для поиска в Интернете Web-страниц, на которых имеет место вещание аудио и/или видео (AV) контента реального времени, причем в поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, при этом поисковая система включает в себя:
модуль поиска признаков, выполненный с возможностью анализа текущей загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на текущей Web-странице вещания AV контента реального времени, из упомянутого их набора;
модуль формирования описания, выполненный с возможностью формирования описания AV контента реального времени из текста текущей Web-страницы;
модуль анализа ссылок, выполненный с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из Web-страниц, которые обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу;
базу данных, приспособленную для сохранения адресов Web-страниц, в которых модулем поиска признаков по результатам анализа установлено наличие вещания AV контента реального времени, и описаний AV контента реального времени;
пользовательский интерфейс для обеспечения пользователю возможности осуществлять поиск по базе данных с использованием сохраненных в ней описаний;
при этом модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов текущей Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем при успешном обнаружении на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является AV контентом реального времени; и
при этом поисковая система выполнена с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
22. Система по п.21, дополнительно содержащая модуль загрузки Web-страниц, выполненный с возможностью загрузки в поисковую систему Web-страниц из Интернета.
23. Система по п.21, в которой признак представляет собой символ или набор символов.
24. Система по п.23, в котором признак представляет собой элемент разметки Web-страницы.
25. Система по п.24, в котором элемент разметки Web-страницы представляет собой тег, параметр или атрибут.
26. Система по п.25, в котором файлы Web-страницы, в отношении текстового содержимого которых выполняется разбор, представляют собой файлы, непосредственно содержащие текст Web-страницы, и/или и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.
27. Система по п.21, в которой дополнительно содержится заранее заданный расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, при этом при формировании описания модуль формирования описания выполняет анализ текста текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из упомянутого их набора, и при их обнаружении включает по меньшей мере частично текст текущей Web-страницы в формируемое описание AV контента реального времени.
28. Система по п.21, в котором модуль анализа ссылок пошагово просматривает Web-страницы, обработанные поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницы, включает по меньшей мере частично ее текст в формируемое описание AV контента реального времени, при этом количество обратных шагов по упомянутому пути ограничено заранее заданным максимальным количеством.
29. Система по п.21, в которой возможность по по меньшей мере частичному включению в описание AV контента реального времени текста из загружаемой новой или обновленной Web-страницы реализуется модулем анализа ссылок.
30. Модуль анализа ссылок, предназначенный для поиска описания для аудио и/или видео (AV) контента реального времени, из состава компьютерно-реализуемой поисковой системы, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени, и выполненный с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из Web-страниц, которые обработаны поисковой системой до текущей загруженной в поисковую систему Web-страницы и в которых содержится ссылка на текущую Web-страницу, причем модуль анализа ссылок дополнительно выполнен с возможностью включать в описание AV контента реального времени по меньшей мере частично текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
31. Модуль анализа ссылок по п.30, в который сконфигурирован пошагово просматривать Web-страницы, обработанные поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницу, включать по меньшей мере частично ее текст в описание AV контента реального времени, при этом количество обратных шагов по упомянутому пути ограничено заранее заданным максимальным количеством.
Описание изобретения к патенту
Область техники, к которой относится изобретение
Настоящее изобретение относится, в общем, к компьютерным и сетевым технологиям, и более конкретно к системе и способу для поиска во Всемирной паутине (Web) аудио и/или видео (AV) контента реального времени.
Предшествующий уровень техники
В настоящее время в мире широко известны и массово используются поисковые машины, которые обеспечивают пользователям возможность осуществлять в Интернете поиск Web-страниц, содержащих нужную для них информацию, по вводимым ими поисковым запросам. Популярными поисковыми машинами являются, в частности, Yahoo!, Google, Yandex, Rambler.
Общий принцип работы известных поисковых машин основан на сборе информации по Web-страницам в Интернете, ее обработке и индексировании для дальнейшего предоставления пользователю возможности поиска необходимой информации в том объеме, который был обработан поисковой машиной. В состав каждой поисковой машины входят поисковые роботы, целью которых является сканирование Web-страниц Интернета и их загрузка. После обращения поискового робота по указанному адресу Web-страницы он просматривает, например, http-заголовки, проверяя, когда в последний раз была модифицирована эта страница. Если поисковый робот уже просматривал данную Web-страницу, а дата последней модификации страницы изменилась, тогда он загрузит ее для обработки вновь, если же просматриваемая им Web-страница вообще не просматривалась, тогда она сразу будет загружена для обработки.
Web-страницы, загруженные поисковым роботом(ами), обрабатываются соответствующими программно-аппаратными компонентами поисковой машины. Целью такой обработки является анализ страницы: как правило, вначале из Web-страницы извлекается заголовок (Title), поскольку он несет в себе общую информацию о Web-странице. Далее извлекается и обрабатывается весь текст, который так или иначе выделен, например, курсивом, подчеркиванием или размером (в частности, размер его шрифта больше размера шрифта основного текста), поскольку поисковая машина предполагает, что это ключевые места в тексте и на них сделан акцент.
Некоторые поисковые машины просматривают метатеги Web-страниц, предполагая, что в них имеются ключевые слова или словосочетания страницы. В то же время, поскольку в содержимом метатегов зачастую дается недостоверная информация, некоторые поисковые машины не используют их для определения ключевых слов страницы.
Также весь текст Web-страницы подвергается полной обработке. Например, те поисковые машины, которые не используют метатеги для определения ключевых слов Web-страницы, ищут ключевые слова путем выполнения проверки на предмет того, как часто встречается то или иное слово в тексте, и для этого из текста удаляются все стоп-слова , такие как <а>, <он>, <ты>, <в>, а также все символы и цифры, поскольку они создают шум при поиске ключевых слов.
Наконец, обработанный текст Web-страницы индексируется поисковой системой надлежащим образом так, чтобы предоставить пользователю посредством Web-интерфейса (например, браузера) возможность удобного поиска по базе данных поисковой машины на основе ввода поисковых запросов.
Более подробно структура и базовые принципы функционирования поисковых машин изложены, в частности, в The anatomy of a large-scale hypertextual Web search engine , Brin, S., Page, L., Computer Networks and ISDN Systems, 30(1-7):107-117, 1998; Effective Web Crawling , Castillo, C., PhD thesis, University of Chile, 2004; Crawling the Web . Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004.
Однако построенные таким образом поисковые машины перестают отвечать требованиям сегодняшнего дня в силу все увеличивающегося объема и разнообразия информации, представляемой в Интернете. В частности, при проведении такого основывающегося на тексте поиска Web-страниц, где содержались бы интересующие пользователя картинки или видео, выдается обширный результирующий список Web-страниц, в котором доля страниц, действительно отвечающих требованиям и запросам пользователя, оказывается невелика, поскольку в данный список, в силу специфики описываемых поисковых машин, также попадут те Web-страницы, которые содержат упоминания, обсуждения, рекламу, отзывы и т.п., касающиеся требующихся картинок или видео, но непосредственно не содержат самих требующихся картинок или видео. По мере же роста совокупного объема и разнообразия Web-контента в Интернете доля релевантных Web-страниц при такого рода специфических поисках будет лишь снижаться, и, как следствие, пользователи вынуждены строить хитроумные, скорее всего неоднократные поисковые запросы и тратить время на просеивание больших массивов результатов поиска.
Этой проблемой обуславливается актуальность создания специализированных (так называемых вертикальных) поисковых систем, строго ориентированных на поиск по тематическим ресурсам Интернета.
Сущность изобретения
Задачей настоящего изобретения является создание вертикальной поисковой системы и способа, конкретно ориентированных на поиск в Интернете Web-страниц, на которых имеет место вещание AV контента в масштабе реального времени или, иными словами, так называемое живое вещание . Характерной чертой такого контента является невозможность выполнения в отношении него перемотки вперед с помощью средств клиентского воспроизводящего приложения. Типичными примерами живого AV контента в Интернете являются телевизионное (ТВ) и радиовещание эфирных студий, специальное Интернет-вещание профессиональных и любительских студий, потоковое вещание с Web-камер.
Актуальность решения поставленной задачи обуславливается все возрастающим количеством Интернет-ресурсов, где осуществляется такого рода живое вещание, и соответственно желательностью для пользователей быстрым и надежным образом находить в Интернете такие ресурсы, не затрачивая при этом значительного времени на перекапывание больших объемов не относящейся к делу информации.
Известны примеры решения данной задачи путем ручного построения поисковых баз Web-страниц с, например, ТВ вещанием (см. такие Интернет-порталы, как Search TV и Find Internet TV (http://www.findinternettv.com)). Однако ручное построение приводит, во-первых, к крайне сильно выраженной инерции по отношению к изменениям в Интернете (появлению новых Web-страниц, обновлению или удалению имеющихся Web-страниц и т.п.), а, во-вторых, к относительно невысокой достоверности построенного индекса, поскольку вследствие человеческого фактора могут быть проиндексированы Web-страницы, где на самом деле нет никакого живого AV контента, а есть лишь записанные аудио/видео клипы.
Для решения вышепоставленной задачи в настоящем описании предоставляется способ обеспечения пользователю возможности поиска в компьютерно-реализуемой поисковой системе, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени. Способ содержит этапы, на которых: А) заранее задают в поисковой системе расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени; В) осуществляют анализ загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора; С) если такие признаки выявлены в Web-странице при анализе, сохраняют адрес данной Web-страницы в базе данных из состава поисковой системы. Если же на этапе С) такие признаки не выявлены, то переходят на этап D), на котором загружают новую Web-страницу и повторяют в отношении нее этапы B) и C). Наконец, обеспечивают в поисковой системе пользователю возможность осуществлять поиск по базе данных.
Предлагаемый способ характеризуется тем, что анализ по этапу B) осуществляют посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является именно AV контентом реального времени.
Признак может представлять собой некоторой символ или набор символов. В частности, признак может представлять собой элемент разметки Web-страницы, такой как тег, параметр или атрибут.
Под файлами Web-страницы, в отношении текстового содержимого которых выполняется разбор, понимаются как файлы, непосредственно содержащие текст Web-страницы, так и скрипт-файлы, ассоциированные с данной Web-страницей и предназначенные для ее обработки.
Для решения поставленной задачи в настоящем изобретении также предоставляется компьютерно-реализуемая поисковая система, предназначенная для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени. В предлагаемой поисковой системе содержится заранее заданный расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени. Данная система включает в себя: модуль поиска признаков, выполненный с возможностью анализа загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на данной Web-странице вещания AV контента реального времени, из упомянутого их набора; базу данных, приспособленную для сохранения адресов Web-страниц, в которых модулем поиска признаков по результатам анализа установлено наличие вещания AV контента реального времени; пользовательский интерфейс для обеспечения пользователю возможности осуществлять поиск по базе данных.
Предлагаемая поисковая система характеризуется тем, что модуль поиска признаков выполняет упомянутый анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является именно AV контентом реального времени.
Настоящим изобретением, таким образом, обеспечивается возможность эффективного поиска, по обширной автоматически пополняемой и обновляемой базе Web-страниц, живого AV контента в Интернете с высокой степенью релевантности.
Дополнительного повышения эффективности, в частности снижения времязатрат, можно добиться путем формирования, в параллель вышеизложенному построению и поддержанию базы данных, описаний для Web-страниц, хранимых в этой базе данных. Описания могут использоваться как при поиске по базе данных поисковой системы, так и при предоставлении пользователю результатов поиска, вследствие чего пользователь может в общих чертах узнать тематическую направленность найденной Web-страницы без непосредственного обращения к ней.
Для реализации данного аспекта предлагаемые система и способ модернизируются следующим образом.
В заявляемый способ добавляется этап, на котором формируют описание AV контента реального времени из текста текущей загруженной в поисковую систему Web-страницы. Для этого предпочтительно в поисковой системе заранее задают расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, анализируют текст текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из этого набора, и при их обнаружении включают, по меньшей мере частично, текст текущей Web-страницы в формируемое описание AV контента реального времени.
Если описание не удовлетворяет заранее заданному критерию, который может соответствовать минимально приемлемому объему описания, в формируемое описание AV контента реального времени включают, по меньшей мере частично, текст из Web-страниц, которые были обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу. Для этого предпочтительно выполняют пошаговый просмотр Web-страниц, обработанных поисковой системой до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой была достигнута текущая Web-страница, на предмет наличия в них ссылки на текущую Web-страницу, и если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницу, включают, по меньшей мере частично, ее текст в формируемое описание AV контента реального времени. При этом количество обратных шагов по упомянутому пути предпочтительно ограничено заранее заданным максимальным количеством.
Сформированное описание сохраняют совместно с адресом текущей Web-страницы в базе данных из состава поисковой системы.
Если же сформированное описание AV контента реального времени не удовлетворяет заранее заданному критерию, в описание AV контента реального времени включают, по меньшей мере частично, текст из загружаемой в поисковую систему новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
Предлагаемая же компьютерно-реализуемая поисковая система модернизируется включением в ее состав модуля формирования описания, выполненного с возможностью формирования описания AV контента реального времени из текста текущей Web-страницы, и модуля анализа ссылок, выполненного с возможностью включать в описание AV контента реального времени, по меньшей мере частично, текст из Web-страниц, которые были обработаны поисковой системой до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу. Поисковая система дополнительно выполнена с возможностью включать в описание AV контента реального времени, по меньшей мере частично, текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
Перечень чертежей
Вышеуказанные и иные аспекты и преимущества настоящего изобретения раскрыты в нижеследующем описании предпочтительных вариантов его осуществления, приводимого со ссылками на чертежи, на которых
Фиг.1 - схематическая иллюстрация структуры и работы поисковой системы согласно настоящему изобретению;
Фиг.2а, 2б - иллюстрации работы механизма обратных ссылок согласно настоящему изобретению;
Фиг.3 - блок-схема последовательности операций предпочтительного варианта осуществления способа, реализуемого поисковой системой связи по Фиг.1, согласно настоящему изобретению.
Описание предпочтительных вариантов осуществления изобретения
Вначале со ссылкой на Фиг.1 дается общее схематичное описание структуры и работы предлагаемой поисковой системы 100, предназначенной для поиска в Интернете Web-страниц, на которых имеет место вещание AV контента реального времени.
Построение индекса Интернет-источников живого AV контента реального времени начинается с того, что модуль 101 загрузки Web-страниц обращается по Интернет-адресу (например, URL) к Web-странице и загружает ее. По сути функции модуля 101 загрузки аналогичны функциям вышеупомянутых поисковых роботов известных поисковых машин.
Загруженная Web-страница передается в модуль 102 поиска признаков, функцией которого является анализ всего текстового содержимого файлов Web-страницы, включая ассоциированные с ней скрипт-файлы, с целью выявления в нем признаков, свидетельствующих о том, что в данной Web-странице имеется источник AV контента, трансляция которого происходит в масштабе реального времени (то есть постоянно, независимо от того, просматривается он пользователем в данный момент или нет).
Перед тем как начать поиск, модуль 102 поиска признаков загружает из хранилища 103 известных признаков набор признаков, которые известны на данный момент. Данный набор признаков в хранилище 103 известных признаков может быть расширен в любое время новыми признаками, подтверждающими наличие на Web-странице источника AV контента реального времени, по мере их появления. Также из данного набора могут по необходимости исключаться признаки, утратившие актуальность.
То, каким образом согласно настоящему изобретению модуль 102 поиска признаков осуществляет поиск признаков AV контента реального времени в загруженной Web-странице с использованием набора известных признаков, описано более подробно ниже.
Если модуль 102 поиска признаков обнаружит по меньшей мере один признак, подтверждающий наличие на Web-странице источника(ов) живого AV контента, адрес этой Web-страницы сохраняется в базе 104 данных, а выявленные признаки могут быть сохранены в служебных целях (например, для статистического анализа) в необязательно присутствующем хранилище 105 найденных признаков, после чего исследуемая Web-страница передается в модуль 106 формирования описания для полного анализа ее текста.
Модуль 106 формирования описания извлекает из Web-страницы весь текст, предназначенный для просмотра пользователем, анализирует его любым известным образом на предмет наличия значимых слов и/или словосочетаний из заранее заданного их набора, загруженного из хранилища 107 известных слов и словосочетаний, и при их обнаружении включает, по меньшей мере частично, данный текст в формируемое описание AV контента реального времени. Упомянутый набор, аналогичным образом, может быть расширен новыми словами и словосочетаниями, являющимися описательными по отношению к AV контенту реального времени, в любой момент времени. Все обнаруженные значимые слова и/или словосочетания в просматриваемой Web-странице могут быть сохранены в служебных целях в необязательно присутствующем хранилище 108 обработанного текста.
Если сформированное описание не удовлетворяет заранее заданному критерию (например, Web-страница, в которой были обнаружены признаки AV контента реального времени, не содержит в себе текст, либо, в общем, объем текста не удовлетворителен), то для формирования описания найденного живого AV контента дополнительно задействуется механизм обратных ссылок , отвечающий настоящему изобретению.
Далее описывается суть механизма Обратных ссылок , а конкретные его примеры приведены ниже.
Поисковая система 100 посредством своего модуля 101 загрузки Web-страниц возвращается на заранее заданное количество шагов по постраничному пути, которым поисковой системой была достигнута рассматриваемая в текущий момент Web-страница, в которой был обнаружен источник(и) AV контента реального времени. На каждом обратном шаге (шагами являются адреса прежде обработанных Web-страниц) загруженная Web-страница передается в модуль 109 анализа ссылок, который ищет в ней ссылку на упомянутую рассматриваемую Web-страницу. Если такая ссылка найдена и текст на загруженной Web-странице удовлетворяет предопределенному критерию, то данная загруженная Web-страница будет передана в модуль 110 формирования описания по обратным ссылкам. Текст страницы, обработанный модулем 110 формирования описания по обратным ссылкам, будет использоваться, по меньшей мере частично, в описании AV контента реального времени, вещание которого осуществляется на вышеуказанной рассматриваемой Web-странице.
Следует отметить, что, согласно варианту осуществления, функциональные возможности модуля 110 формирования описания по обратным ссылкам могут быть осуществлены модулем 109 анализа ссылок, т.е. модули 109 и 110 могут быть реализованы в виде единого модуля.
Если и в результате применения механизма Обратных ссылок сформированное описание AV контента реального времени не будет удовлетворять заранее заданному критерию, то при осуществляемом вышеуказанным образом сканировании Интернета поисковая система акцентирует свое внимание не только на поиске новых (еще не найденных) источников AV контента реального времени, но также и на поиске ссылки на уже выявленный ею источник, для которого описание все еще не отвечает заранее заданному критерию. В случае, если будет обнаружена Web-страница со ссылкой на уже найденный источник живого AV контента, но для которого еще нет надлежащего описания, тогда, возможно, переработанный текст данной страницы будет использоваться, по меньшей мере частично, для построения описания этого живого AV контента.
Данная функция по мониторингу ссылки может быть, например, делегирована модулю 109 анализа ссылок из состава поисковой системы 100.
Как следует из вышесказанного, описание, в общем, может строиться не единовременно, разными модулями поисковой системы 100 и из текстов разных Web-страниц. При этом то, как именно им выбирается текст из Web-страниц для формирования описания и как конкретно формируется описание, не является принципиальным для настоящего изобретения и, в основном, известно из уровня техники. Например, выбранные для формирования описания порции текста Web-страниц могут комбинироваться известным образом (например, простым слиянием, либо с по меньшей мере частичным замещением), а определяющим фактором, по которому прекращается формирование описания, является то, удовлетворяет ли оно некоему заранее заданному критерию (например, достаточен ли его объем). При этом на различных стадиях формирования описания может известным образом применяться различного рода буферизация его сформированных фрагментов.
Описание живого AV контента, вне зависимости от того, как оно было сформировано, переносится в базу 104 данных поисковой системы 100, где оно сохраняется в ассоциативной связи с адресом Web-страницы, на которой был выявлен источник этого живого AV контента. Кроме того, в базе данных могут быть сохранены признаки живого AV контента и другая служебная (например, статистическая) информация.
Модуль 111 формирования страницы поиска формирует поисковую Web-страницу, которая, по сути, является интерфейсом к поисковой системе 100 и к которой любой пользователь может обратиться посредством браузера, работающего на его (клиентском) компьютере/терминале, для поиска требующихся источников AV контента реального времени. Пользователь стандартным образом задает на этой поисковой Web-странице поисковый запрос, который передается на модуль 112 обработки пользовательского запроса и обрабатывается им. На основе представленного поискового запроса модуль 112 обработки пользовательского запроса опрашивает базу 104 данных с целью нахождения в ней Web-страниц, соответствующих этому запросу, предпочтительно с учетом сохраненных в базе 104 данных описаний. В результате модуль 111 формирования страницы поиска отобразит пользователю Web-страницу с результатами поиска, на которой будут перечислены в той или иной форме Web-страницы с AV контентом реального времени, отвечающим запросу. На данной странице пользователю будет предоставлена возможность быстрого доступа к описаниям AV контента реального времени.
Далее приводится изложение того, как конкретно поисковой системой 100 (а именно модулем 102 поиска признаков из ее состава) осуществляется поиск признаков, свидетельствующих о наличии на Web-странице вещания AV контента реального времени.
Данный поиск является двухстадийным. Сначала поисковой системой осуществляется, путем разбора текстового содержимого файлов анализируемой Web-страницы, поиск по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента подобного рода, из набора известных системе признаков. Иными словами, на первой стадии поисковая система ориентирована на поиск мультимедийного плейера или иных средств/технологий, обеспечивающих возможность воспроизводить мультимедийный контент. Например, подобными средствами могут служить такие плейеры как Windows Media Player, Real Player, Quick Time, а также такие технологии как Java Applet, потоковое воспроизведение картинок средствами технологии CGI и т.д. Также существует множество средств воспроизведения контента реального времени без участия вышеперечисленных механизмов воспроизведения, но которые также являются приоритетными для работы поисковой системы.
После того как поисковой системой в Web-странице будут выявлены признаки, служащие показателем средства/технологии воспроизведения AV контента, на второй стадии поисковая система анализирует выявленное средство/технологию с тем, чтобы выяснить, AV контент какого характера воспроизводится данным средством/технологией, а именно AV контент реального времени или нет (т.е. предварительно записанный). Для этого поисковой системой используются заранее известные ей признаки, подтверждающие или указывающие на то, что воспроизводимые данные являются именно AV контентом реального времени. Под признаками в данном случае понимается символ или набор символов в любом месте тела Web-страницы и/или ассоциированных с ней файлах (например, в файлах JavaScript).
Вышеприведенным изложением определяется одно из отличий настоящего изобретения от известных поисковых машин, в которых анализируется все или определенные места текста Web-страницы, предназначенного для просмотра конечным пользователем.
Ниже приведен ряд конкретных примеров, иллюстрирующих поиск признаков согласно изобретению.
Пример 1.
<object width="384" height="288" classid="clsid:22d6f312-b0f6-11d0-94ab-0080c74c7e95" standby="loading windows media player components..." type="application/x-oleobject"
codebase="http://activex.microsoft.com/activex/controls/mplayer/en/
nsmp2inf.cab#version=6,4,7,1112">
<param name="autostart" value="true">
<param name="filename" value="http://www.sundiegolive.com/asx/pl1-cnssdtx-h559fseeqgiio.asx">
</object>
Поисковой системой при разборе Web-страницы обнаружен объект (object), встроенный в ее тело. Первым делом определяется, относится ли встроенный объект к средствам или технологиям воспроизведения мультимедийного контента. Поисковая система определяет, что встроенный объект является приложением Windows Media Player (WMP). Она делает данное заключение на основании трех обнаруженных известных ей признаков (данные признаки выделены выше курсивом):
1. Атрибут standby явно говорит, что загружается WMP;
2. Атрибут type указывает нам на то, что проходящие через этот объект данные являются мультимедийными;
3. Атрибут codebase указывает на загрузку программы WMP, в случае если она отсутствует.
Учитывая совокупность трех обнаруженных признаков, поисковая система делает заключение о том, что объект, обнаруженный в теле Web-страницы, является WMP и предназначен для воспроизведения мультимедийного контента.
Дальнейшим действием поисковой системы является определение того, воспроизводятся ли данные в реальном времени или нет. Она находит параметр объекта, в котором присутствует ссылка на данные - в приведенном примере это ссылка на ASX-файл (выделена полужирным шрифтом). Поскольку ASX-формат определяет метафайл, ASX-файл открывается для анализа.
<ASX version="3">
<Entry>
<TITLE>Live from San Diego, California!</TITLE>
<AUTHOR>SunDiegoLive.com</AUTHOR>
<COPYRIGHT>(C)2006 CommercialNetworkServices.com</COPYRIGHT>
<MoreInfo href = "http://www.SunDiegoLive.com/"></MoreInfo>
<PARAM name="HTMLView" value="http://www.sundiegolive.com/WM9Default.asp"/>
<ref HREF="mms://wms.commercialnetworkservices.net/pl1-sundiegolive-AFJpdW" />
<Abstract>A live view of down town San Diego and the bay from Point Loma. Presented in stereo by Commercial Network Services of San Diego, California.</Abstract>
<Duration value = "01:00:00" />
<Logo href = "http://banners.commercial-illusions.com/cnsmswatermark.gif" Style = "MARK" />
</Entry>
</ASX>
В анализируемом ASX-файле обнаружен поток данных, воспроизводимый по mms-протоколу (выделено выше полужирным шрифтом), и этот признак явно указывает на то, что данные воспроизводятся в реальном времени.
На основании проведенного анализа поисковая система пометит данный ресурс как источник AV контента реального времени.
В Примере показано, что существуют признаки, достаточно явно указывающие на то, что воспроизводимые данные являются AV контентом реального времени. К таким признакам, например, можно отнести вещательный протокол mms, протокол реального времени rtsp и т.п.
Поскольку воспроизведение мультимедийного контента реального времени в Интернете осуществляется не только посредством объектов, встроенных в тело Web-страницы, целесообразно будет рассмотреть и другие примеры.
Пример 2.
Предположим, что поисковой системой в Интернете обнаружена ссылка на ресурс
http://ots.bne.jp/ViewerFrame?Mode=Motion&Resolution=640x480&Quality=Standard&Interval=30&Size=STD&PresetOperation=Move&Language=2" "_blank
или
http://60.45.63.26/ViewerFrame?Mode=Refresh&Language=1
Поскольку поисковой системе известно, что если в теле ссылки присутствует набор символов (признак) ViewerFrame (выделено курсивом выше), то это свидетельствует о том, что данная ссылка указывает на Web-камеру. При переходе по ссылке с таким признаком в заголовке Web-страницы обнаруживается наличие набора символов (признака) Network Camera , что свидетельствует о том, что на данной странице Web-камерой транслируются данные в режиме реального времени.
Пример 3.
В теле JavaScript скрипт-файла Web-страницы поисковая система находит блок текста
document.write("<OBJECT ID="AxisCamControl" CLASSID="CLSID:917623D1-D8E5-11D2-BE8B-00104B06BDE3" WIDTH="640" HEIGHT="480" CODEBASE="/activex/AxisCamControl.cab#Version=1,0,2,15">");
document.write("<PARAM NAME=DisplaySoundPanel VALUE=0>");
document.write("<PARAM NAME=URL VALUE="/axis-cgi/mjpg/video.cgi?camera=&resolution=640x480">");
document.write("</OBJECT>");
в котором есть следующие признаки, подтверждающие, в совокупности, что на данной Web-странице осуществляется вещание AV контента реального времени:
1. Упоминание о AxisCamControl (выше выделено курсивом);
2. Прямая ссылка на загрузку компонента AxisCamControl (выше выделено курсивом).
3. Набор символов axis-cgi/mjpg в ссылке воспроизводимых данных (выше выделено полужирным шрифтом).
Далее со ссылкой на Фиг. 2а, 2б приводятся рабочие примеры механизма обратных ссылок согласно настоящему изобретению, реализуемого вышеуказанными модулями из состава поисковой системой 100 по Фиг.1.
Пример 1. Пусть поисковая система двигалась путем, указанным на Фиг.2а, где последовательность переходов указана номером ссылки, и обнаружила при этом, что по адресу http://Reference_9.com осуществляется вещание живого AV контента, но на данной странице нет текста, предназначенного для просмотра пользователем, или он не удовлетворяет предопределенному критерию, что не позволяет построить на основе этого текста надлежащее описание для найденного живого AV контента.
В таком случае поисковая система возвращается на шаг назад, то есть переходит на страницу с адресом http://Reference_8.com. На этой странице ищется ссылка на http://Reference_9.com, и если такая ссылка будет обнаружена (пусть в данном случае она обнаружена), тогда переработанный текст Web-страницы с адресом http://Reference_8.com будет использоваться, по меньшей мере частично, в описании живого AV контента, обнаруженного по адресу http://Reference_9.com.
Возможна ситуация, что описание, сформированное тем или иным образом после обработки Web-страницы с адресом http://Reference_8.com, станет более адекватным, но по-прежнему не будет удовлетворять заранее заданному критерию - например, его объем все равно остается недостаточным, чтобы данное описание могло быть сочтено надлежащим полноценным описанием. Тогда, согласно вышесказанному, поисковая система продолжит работать в обычном режиме, осуществляя сканирование Интернета на предмет новых источников AV контента реального времени, но при этом еще и просматривая новые Web-страницы (то есть еще не просмотренные поисковой системой или модифицированные владельцами с момента последнего просмотра поисковой системой) на предмет обнаружения ссылки со на http://Reference_9.com. При обнаружении таковой ссылки в новой Web-странице переработанный текст данной страницы будет использоваться, по меньшей мере частично, в описании AV контента реального времени, выявленного по адресу http://Reference_9.com. Данный текст предпочтительно не будет заменять описание, уже имеющееся для http://Reference_9.com, а будет его расширять или дополнять.
Такой процесс постепенного формирования описания будет осуществляться до тех пор, пока оно не будет удовлетворять заранее заданному критерию - в частности, пока не будет достаточен его объем.
Пример 2. Пусть поисковая система двигалась путем, указанным на Фиг.2б. Поисковая система начала пусть с адреса http://Reference_1.com, и на восьмом шаге http://Reference_8.com она обнаружила AV контент реального времени. Хотя на страницу http://Reference_8.com была ссылка с первой страницы (http://Reference_1.com), поисковая система по ней не прошла и вышла на источник через http://Reference_7.com. В таком случае по раннее описанному принципу переработанный текст Web-страницы с адресом http://Reference_7.com будет использоваться, по меньшей мере частично, в описании для источника живого AV контента по адресу http://Reference_1.com.
В дополнение поисковая система вернется до первой страницы в обратной последовательности (то есть сначала на страницу 7 потом 6 и т.д., пока не дойдет до первой). Обнаружив на первой странице ссылку на http://Reference_1.com, текст этой первой Web-страницы будет переработан и добавлен, по меньшей мере частично, к уже имеющемуся описанию живого AV контента, выявленного по адресу http://Reference_1.com.
Глубина обратного возвращения (движение по ссылкам пройденного пути, то есть в последовательности 7, 6, 5, 4, 3, 2 и, наконец, 1), определяется предустановленным критерием, предположим для данного примера максимальное количество обратных шагов было установлено равным десяти. Соответственно поисковая система дойдет до http://Reference_1.com и, переработав текст данной Web-страницы, добавит его, полностью или частично, к уже имеющемуся описанию.
Дальше функционирование осуществляется аналогично Примеру 1, то есть формирование описания будет продолжаться до тех пор, пока не будет удовлетворен заранее заданный критерий.
Следует отметить, что конкретная реализация как самой поисковой системы согласно настоящему изобретению, так и отдельных ее компонентов, должна быть очевидна специалисту из уровня техники. В частности, предлагаемая система может быть воплощена на одном или более серверных компьютерах, объединенных для совместной реализации предписанной функциональности, при этом вышеуказанные ее модули могут быть известным образом реализованы программными и аппаратными составляющими этих серверных компьютеров, известными специалистам и широко применяемыми в технике. В частности, вышеуказанные хранилища и базы данных могут быть реализованы на одном или более широкоизвестных машиночитаемых носителях, таких как накопители на жестких дисках, RAID-массивы, твердотельная память и т.п. Поисковая система может быть подключена и может взаимодействовать с Интернетом и пользовательским оборудованием на основе широкоизвестных проводных и/или беспроводных сетевых технологий и оборудования, в частности на основе стека протоколов http/tcp/ip. Для взаимодействия с поисковой системой пользователь может использовать любое известное терминальное оборудование, поддерживающее возможность обращения к Web-страницам через Интернет (например, через исполняющийся на этом оборудовании Web-браузер). Таковым оборудованием может быть, например, соответствующим образом сконфигурированный персональный/переносной/наладонный компьютер, мобильный терминал и т.п.
Далее, со ссылкой на Фиг.3, приводится блок-схема последовательности операций предпочтительного варианта осуществления способа 300, реализуемого поисковой системой связи 100, согласно настоящему изобретению.
На предварительном этапе 301 в поисковой системе 100 задают расширяемый и модифицируемый набор признаков наличия на Web-страницах вещания AV контента реального времени, расширяемый и модифицируемый набор слов и/или словосочетаний, являющихся описательными по отношению к AV контенту реального времени, а также максимальное количество обратных шагов для механизма обратных ссылок . Указанные наборы сохраняются в соответствующих хранилищах 103, 107.
На этапе 302 модуль 101 загрузки Web-страниц загружает в поисковую систему 100 Web-страницу, которая ранее не была исследована поисковой системой или претерпела изменения с момента ее исследования поисковой системой.
На этапе 303 модуль 102 поиска признаков осуществляет анализ текущей загруженной Web-страницы на предмет присутствия в ней признаков, свидетельствующих о наличии на ней вещания AV контента реального времени, из упомянутого их набора. При этом, как отмечено ранее, модуль 102 поиска признаков осуществляет данный анализ посредством разбора текстового содержимого файлов Web-страницы сначала на предмет обнаружения в нем по меньшей мере одного признака, указывающего на средство или технологию воспроизведения AV контента, и затем, при успешном обнаружении, на предмет присутствия в нем по меньшей мере одного признака, указывающего на то, что воспроизводимый AV контент является именно AV контентом реального времени.
Если на этапе 303 модуль 102 поиска признаков выявил такие признаки в текущей Web-странице, то поисковая система 100 переходит на этап 304, в противном случае - возвращается на этап 302.
Далее, на этапе 304 модуль 106 формирования описания формирует описание выявленного AV контента реального времени из текста текущей Web-страницы. Для этого модуль 106 формирования описания выполняет анализ текста текущей Web-страницы на предмет обнаружения в нем слов и/или словосочетаний из упомянутого их набора, и при их обнаружении включает, по меньшей мере частично, текст текущей Web-страницы в формируемое описание.
Если описание, сформированное на этапе 304, не удовлетворяет заранее заданному критерию, например его объем не соответствует минимально приемлемому объему, поисковая система 100 переходит на этап 305, в противном случае - на этап 306.
На этапе 305 в формируемое описание AV контента реального времени модуль 109 анализа ссылок включает, по меньшей мере частично, текст из Web-страниц, которые обработаны поисковой системой 100 до текущей Web-страницы и в которых содержится ссылка на текущую Web-страницу. Для этого, как отмечено ранее, модуль 109 анализа ссылок пошагово, с учетом предустановленного ограничения, просматривает Web-страницы, обработанные поисковой системой 100 до текущей Web-страницы, в обратном порядке относительно постраничного пути, которым поисковой системой 100 была достигнута текущая страница, на предмет наличия в них ссылки на текущую Web-страницу. Если в просматриваемой Web-странице выявлено наличие ссылки на текущую Web-страницу, модуль 109 анализа ссылок (или, как вариант, модуль 110 формирования описания по обратным ссылкам) включает, по меньшей мере частично, ее текст в формируемое описание AV контента реального времени.
На этапе 306 поисковая система 100 сохраняет сформированное описание совместно с, по меньшей мере, адресом текущей Web-страницы в базе 104 данных.
Если описание, сформированное на этапах 304, 305, вновь не удовлетворяет заранее заданному критерию, поисковая система 100 возвращается на этап 302 (на Фиг.3 показано пунктирной стрелкой), на котором модуль 109 анализа ссылок включает в описание выявленного AV контента реального времени, по меньшей мере частично, текст из загружаемой новой или обновленной Web-страницы, если в ней содержится ссылка на текущую Web-страницу.
На этапе 307 пользователь посредством браузера на своем компьютере обращается к поисковой системе 100 и осуществляет поиск требующегося живого AV контента по базе 104 данных с использованием сохраненных в ней описаний.
Для специалиста должно быть очевидно, что вышеприведенная последовательность операций не является строго детерминированной, в частности, некоторые из этапов (например, 307) могут выполняться параллельно с другими.
Следует также отметить, что раскрытый выше аспект, связанный с формированием и сохранением описаний AV контента, является в высокой степени предпочтительным и выгодным в контексте настоящего изобретения, однако оно может быть реализовано и без задействования этого аспекта, по-прежнему обеспечивая вышеуказанные преимущества.
Изобретение было раскрыто выше со ссылкой на конкретные варианты его осуществления. Для специалистов могут быть очевидны и иные варианты осуществления изобретения, не меняющие его сущности, как она раскрыта в настоящем описании. Соответственно изобретение следует считать ограниченным по объему только нижеследующей формулой изобретения.
Класс G06F17/30 информационный поиск; структуры баз данных для этой цели