способ и устройство подписки на информацию с веб-страницы
Классы МПК: | G06F17/30 информационный поиск; структуры баз данных для этой цели |
Автор(ы): | ФАН Гаолинь (CN) |
Патентообладатель(и): | ТЕНСЕНТ ТЕКНОЛОДЖИ (ШЭНЬЧЖЭНЬ) КОМПАНИ ЛИМИТЕД (CN) |
Приоритеты: |
подача заявки:
2010-12-24 публикация патента:
10.04.2014 |
Изобретение относится к устройствам обработки информации. Технический результат заключается в обеспечении возможности подписки на любой блок контента веб-страницы и сокращении количества необходимых служебных ресурсов, предоставляемых провайдером. Устройство содержит модуль идентификации для идентификации блока веб-страницы, на который подписывается пользователь, с помощью первого дерева Объектной Модели Документов ОМД (DOM) веб-страницы для получения идентификационной информации, модуль отслеживания в реальном масштабе времени для извлечения и сохранения URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживания URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах, модуль отображения для отображения веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение. 2 н. и 21 з.п. ф-лы, 3 табл., 8 ил.
Формула изобретения
1. Способ подписки на информацию с веб-страницы, в котором предусмотрены следующие действия:
идентификация блока веб-страницы, на который подписывается пользователь, с помощью первого дерева Объектной Модели Документов ОМД (DOM) веб-страницы для получения идентификационной информации;
извлечение и сохранение URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживание в реальном масштабе времени URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в сохраненных URL-адресах;
отображение веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.
2. Способ по п.1, отличающийся тем, что при отображении веб-страницы, соответствующей измененному URL-адресу, выполняют следующие действия:
обновление сохраненных URL-адресов согласно измененному URL-адресу;
отображение текстовой информации блока веб-страницы, на который подписывается пользователь.
3. Способ по п.1, в котором также предусмотрено следующее действие:
перед идентификацией блока веб-страницы, на который подписывается пользователь, с помощью первого дерева ОМД (DOM) веб-страницы для получения идентификационной информации создают первое дерево ОМД (DOM) веб-страницы.
4. Способ по п.1, отличающийся тем, что при идентификации блока веб-страницы, на который подписывается пользователь, с помощью первого дерева ОМД (DOM) веб-страницы для получения идентификационной информации выполняют следующие действия:
получение из первого дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, и числа базовых единичных блоков, включенных в этот блок веб-страницы;
получение префикса URL-адреса блока веб-страницы, на который подписывается пользователь;
поиск по префиксу URL-адреса в первом дереве ОМД (DOM) веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечение заголовка и URL-адреса заголовка этого узла;
причем идентификационная информация содержит порядковый номер первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, число базовых единичных блоков, включенных в этот блок веб-страницы, а также заголовок и URL-адрес заголовка узла заголовка.
5. Способ по п.4, отличающийся тем, что узел, соответствующий базовому единичному блоку, не содержит никакого другого узла, и число символов в базовом единичном блоке превышает заранее определенное пороговое значение.
6. Способ по п.5, отличающийся тем, что пороговое значение равно 20.
7. Способ по п.4, отличающийся тем, что при получении из первого дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, выполняют следующие действия:
обход в прямом порядке первого дерева ОМД (DOM) веб-страницы и, после прохождения узла, соответствующего базовому единичному блоку в блоке веб-страницы, на который подписывается пользователь, чтение порядкового номера этого узла в качестве порядкового номера базового единичного блока;
выбор порядкового номера базового единичного блока, имеющего минимальный порядковый номер в блоке веб-страницы, на который подписывается пользователь, в качестве порядкового номера первого базового единичного блока на веб-странице, на которую подписывается пользователь.
8. Способ по п.4, отличающийся тем, что при получении числа базовых единичных блоков, включенных в блок веб-страницы, на который подписывается пользователь, выполняют следующие действия:
обход в прямом порядке первого дерева ОМД (DOM) веб-страницы и определение числа базовых единичных блоков, включенных в блок веб-страницы, на который подписывается пользователь.
9. Способ по п.4, отличающийся тем, что при получении префикса URL-адреса блока веб-страницы, на который подписывается пользователь, выполняются следующие действия:
извлечение префиксов URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, определение числа префиксов URL-адресов каждого типа и выбор в качестве префикса URL-адреса блока веб-страницы, на который подписывается пользователь, префикса того типа, которому соответствует максимальное число префиксов.
10. Способ по п.4, отличающийся тем, что при поиске в дереве ОМД (DOM) веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, выполняют следующие действия:
поиск подходящих узлов заголовков в первом дереве ОМД (DOM) веб-страницы в направлении вперед от узла, соответствующего первому базовому единичному блоку в блоке веб-страницы, на который подписывается пользователь;
поиск среди подходящих узлов заголовков подходящего узла заголовка, URL-адрес которого идентичен или аналогичен префиксу URL-адреса, и определение найденного подходящего узла в качестве узла заголовка блока веб-страницы, на который подписывается пользователь.
11. Способ по п.4, отличающийся тем, что при отслеживании URL-адресов в блоке веб-страницы, на который подписывается пользователь, согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах, выполняют следующие действия:
чтение идентификационной информации и сохраненных URL-адресов;
создание второго дерева ОМД (DOM) веб-страницы;
определение начального узла второго дерева ОМД (DOM) согласно порядковому номеру первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь;
поиск во втором дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь;
сравнение URL-адресов в узлах, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с сохраненными URL-адресами.
12. Способ по п.11, отличающийся тем, что при поиске во втором дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь, выполняют следующие действия:
поиск узла заголовка по его заголовку и URL-адресу заголовка во втором дереве ОМД (DOM) одновременно в направлении вперед и назад от начального узла;
поиск во втором дереве ОМД (DOM) в обратном направлении от узла заголовка узлов, число которых совпадает с числом базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь, причем искомыми являются узлы, соответствующие базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь.
13. Способ по п.1, в котором также предусмотрены следующие действия:
перед идентификацией блока веб-страницы, на который подписывается пользователь, с помощью ее первого дерева ОМД (DOM) для получения идентификационной информации определяют, существует ли на этой веб-странице такой блок; если такой блок существует, он отображается на веб-странице с выделением особым фоновым цветом.
14. Устройство подписки на информацию с веб-страницы, содержащее следующие модули:
модуль идентификации для идентификации блока веб-страницы, на который подписывается пользователь, с помощью первого дерева Объектной Модели Документов ОМД (DOM) веб-страницы для получения идентификационной информации;
модуль отслеживания в реальном масштабе времени для извлечения и сохранения URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживания URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах;
модуль отображения для отображения веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.
15. Устройство по п.14, отличающееся тем, что модуль отображения содержит следующие компоненты:
модуль обновления для обновления сохраненных URL-адресов согласно измененному URL-адресу;
подмодуль отображения для отображения текстовой информации блока веб-страницы, на который подписывается пользователь.
16. Устройство по п.14, содержащее также:
модуль предварительного создания для создания первого дерева ОМД (DOM) веб-страницы.
17. Устройство по п.14, отличающееся тем, что модуль идентификации содержит следующие компоненты:
первый модуль получения для получения из первого дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, и числа базовых единичных блоков в этом блоке веб-страницы;
второй модуль получения для получения префикса URL-адреса блока веб-страницы, на который подписывается пользователь;
первый модуль поиска для поиска по префиксу URL-адреса в первом дереве ОМД (DOM) веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечения заголовка и URL-адреса заголовка этого узла;
причем идентификационная информация содержит порядковый номер первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, число базовых единичных блоков в этом блоке веб-страницы, а также заголовок и URL-адрес заголовка узла заголовка.
18. Устройство по п.17, отличающееся тем, что первый модуль получения содержит следующие компоненты:
подблок обхода для обхода в прямом порядке первого дерева ОМД (DOM) веб-страницы и, после прохождения узла, соответствующего базовому единичному блоку блока веб-страницы, чтения порядкового номера этого узла в качестве порядкового номера базового единичного блока;
подблок выбора для выбора порядкового номера базового единичного блока, имеющего минимальный порядковый номер в блоке веб-страницы, на который подписывается пользователь, в качестве порядкового номера первого базового единичного блока на веб-странице, на которую подписывается пользователь;
первый подблок определения для определения числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь.
19. Устройство по п.17, отличающееся тем, что второй блок получения содержит:
второй подблок определения для извлечения префиксов URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, определения числа префиксов URL-адресов каждого типа и выбора в качестве префикса URL-адреса блока веб-страницы, на который подписывается пользователь, префикса того типа, которому соответствует максимальное число префиксов.
20. Устройство по п.17, отличающееся тем, что первый блок поиска содержит следующие компоненты:
первый подблок поиска для поиска подходящих узлов заголовков в первом дереве ОМД (DOM) веб-страницы в направлении вперед от узла, соответствующего первому базовому единичному блоку в блоке веб-страницы, на который подписывается пользователь;
второй подблок поиска для поиска среди подходящих узлов заголовков подходящего узла с такими же или аналогичными URL-адресом заголовка и префиксом URL-адреса, как у узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечения заголовка и URL-адреса заголовка этого узла.
21. Устройство по п.14, отличающееся тем, что модуль отслеживания в реальном масштабе времени содержит следующие компоненты:
блок чтения для чтения идентификационной информации и сохраненных URL-адресов;
блок создания для создания второго дерева ОМД (DOM) веб-страницы;
блок определения для определения начального узла во втором дереве ОМД (DOM) согласно порядковому номеру первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь;
второй блок поиска для поиска во втором дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь;
блок сравнения для сравнения URL-адресов в узлах, соответствующих базовым единичным блокам, с сохраненными URL-адресами.
22. Устройство по п.21, отличающееся тем, что второй блок поиска содержит следующие компоненты:
третий подблок поиска для поиска узла заголовка по его заголовку и URL-адресу заголовка во втором дереве ОМД (DOM) одновременно в направлении вперед и назад от начального узла;
четвертый подблок поиска для поиска во втором дереве ОМД (DOM) в обратном направлении от узла заголовка узлов, число которых совпадает с числом базовых единичных блоков в блоке веб-страницы, на который подписывается пользователь, причем искомыми являются узлы, соответствующие базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь.
23. Устройство по п.14, содержащее также:
модуль определения для определения, имеется ли на веб-странице блок, на который подписался пользователь, и отображения этого блока на веб-странице с выделением особым фоновым цветом.
Описание изобретения к патенту
ОБЛАСТЬ ИЗОБРЕТЕНИЯ
[0001] Настоящее изобретение относится к области обработки информации в Интернете, в частности к способу и устройству подписки на информацию с веб-страницы.
ПРЕДПОСЫЛКИ К СОЗДАНИЮ ИЗОБРЕТЕНИЯ
[0002] С развитием Интернета большинство пользователей стали получать новости из Интернета. При использовании первоначального способа получения информации пользователю для получения необходимых сведений требуется открывать веб-страницы одну за другой. Чтобы упростить свои действия, пользователь может подписаться на информацию с веб-сайта. При просмотре веб-страницы пользователь может интересоваться только некоторым ее контентом. Веб-фрагменты, предусмотренные в IE 8.0, могут обеспечивать подписку на некоторый контент веб-страницы.
[0003] Для обеспечения возможности подписки на информацию с использованием веб-фрагментов в HTML-код веб-страницы добавляются специальные идентификаторы для идентификации блока контента на веб-странице. Благодаря этим идентификаторам веб-фрагменты позволяют осуществлять подписку на соответствующий блок веб-страницы.
[0004] Автором настоящего изобретения обнаружены следующие недостатки веб-фрагментов.
[0005] Во-первых, веб-фрагменты позволяют подписываться только на контент со специальными идентификаторами, а не на любой блок веб-страницы.
[0006] Во-вторых, поскольку в HTML-код веб-страницы необходимо заранее вставлять идентификаторы, поставщик контента веб-сайта должен выделять дополнительные служебные ресурсы.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
[0007] В реализациях настоящего изобретения предлагаются способ и устройство подписки на информацию с веб-страницы, чтобы обеспечить возможность подписки на любой блок контента веб-страницы и сократить количество служебных ресурсов, предоставляемых поставщиком контента, или освободить поставщика контента от необходимости предоставления служебных ресурсов, связанных с подпиской.
[0008] В соответствии с реализацией настоящего изобретения предлагается способ подписки на информацию с веб-страницы. В этом способе предусмотрены следующие действия:
идентификация блока веб-страницы, на который подписывается пользователь, с помощью ее первого дерева Объектной Модели Документов ОМД (DOM) для получения идентификационной информации;
извлечение и сохранение URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживание в реальном масштабе времени URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в сохраненных URL-адресах;
отображение веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.
[0009] В соответствии с другой реализацией настоящего изобретения предлагается устройство подписки на информацию с веб-страницы. Это устройство содержит следующие модули:
модуль идентификации для идентификации блока веб-страницы, на который подписывается пользователь, с помощью ее первого дерева Объектной Модели Документов ОМД (DOM) для получения идентификационной информации;
модуль отслеживания в реальном масштабе времени для извлечения и сохранения URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживания URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах;
модуль отображения для отображения веб-страницы, соответствующей измененному URL-адресу, если в URL-адресах блока веб-страницы, на который подписывается пользователь, есть какое-либо изменение.
[0010] В реализациях настоящего изобретения блок веб-страницы, на который подписывается пользователь, идентифицируется с помощью ее дерева ОМД (DOM) для получения идентификационной информации. URL-адреса в этом блоке извлекаются и сохраняются. URL-адреса в блоке веб-страницы, на который подписывается пользователь, отслеживаются в реальном масштабе времени согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах. Веб-страница, соответствующая измененному URL-адресу, отображается. Поскольку в блоке веб-страницы может быть автоматически идентифицирован любой блок контента, поставщику контента не требуется заранее идентифицировать контент веб-страницы. Таким образом, обеспечивается возможность подписки на любой блок контента веб-страницы, и количество служебных ресурсов, предоставляемых поставщиком контента, уменьшается. Кроме того, блок веб-страницы, на который подписывается пользователь, может быть определен и отображен на веб-странице с выделением особым фоновым цветом. В результате впечатление пользователей улучшается.
КРАТКОЕ ОПИСАНИЕ ИЗОБРАЖЕНИЙ
[0011] На фиг.1 показана блок-схема способа подписки на информацию с веб-страницы согласно первой реализации настоящего изобретения.
[0012] На фиг.2 показана блок-схема способа подписки на информацию с веб-страницы согласно второй реализации настоящего изобретения.
[0013] На фиг.3 приведено схематическое представление блока веб-страницы согласно второй реализации настоящего изобретения.
[0014] На фиг.4 приведено схематическое представление первого дерева ОМД (DOM) согласно второй реализации настоящего изобретения.
[0015] На фиг.5 приведено схематическое представление второго дерева ОМД (DOM) согласно второй реализации настоящего изобретения.
[0016] На фиг.6 показана блок-схема способа подписки на информацию с веб-страницы согласно третьей реализации настоящего изобретения.
[0017] На фиг.7 показана блок-схема первого устройства подписки на информацию с веб-страницы согласно четвертой реализации настоящего изобретения.
[0018] На фиг.8 показана блок-схема второго устройства подписки на информацию с веб-страницы согласно четвертой реализации настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
[0019] Ниже приведено подробное описание настоящего изобретения с использованием прилагаемых схем и возможных реализаций, чтобы техническое решение и преимущества данного изобретения стали понятнее.
[0020] Первая реализация.
[0021] В реализации настоящего изобретения предлагается способ подписки на информацию с веб-страницы. Как видно из фиг.1, в этом способе предусмотрено выполнение следующих действий.
[0022] На шаге 101 при подписке пользователя на информацию веб-страницы веб-сайта блок веб-страницы, на который подписывается пользователь, идентифицируется по ее дереву Объектной Модели Документов ОМД (DOM) для получения идентификационной информации.
[0023] На шаге 102 извлекают и сохраняют URL-адреса всех ссылок в блоке веб-страницы, на который подписывается пользователь. URL-адреса в этом блоке отслеживаются в реальном масштабе времени согласно идентификационной информации и сохраненным URL-адресам. Если в URL-адресах блока веб-страницы имеется какое-либо изменение, выполняют шаг 103.
[0024] На шаге 103 отображается веб-страница, соответствующая измененному URL-адресу.
[0025] На этом шаге при отображении веб-страницы, соответствующей измененному URL-адресу, выполняются следующие действия: сохраненные URL-адреса обновляются согласно измененному URL-адресу, т.е. ранее сохраненные URL-адреса заменяются новыми URL-адресами всех ссылок в блоке веб-страницы, на который подписывается пользователь. При отображении веб-страницы, соответствующей измененному URL-адресу, выполняются также следующие действия: пользователю отображается текстовая информация блока веб-страницы, на который он подписывается, причем ненужная информация, например реклама, баннер, навигационная информация и сведения об авторском праве, исключается из текстовой информации. Кроме того, перед отображением пользователю текстовой информации блока веб-страницы может быть загружена соответствующая веб-страница списка URL-адресов, чтобы проанализировать, в каком контенте больше заинтересован пользователь. Затем контент, представляющий интерес, обрабатывается, и пользователю отображается текстовая информация блока веб-страницы.
[0026] Поскольку на веб-странице может быть автоматически идентифицирован любой ее блок, поставщику контента не требуется заранее идентифицировать контент веб-страницы. Обеспечивается возможность подписки на контент любого блока веб-страницы, и количество служебных ресурсов, предоставляемых поставщиком контента, уменьшается.
[0027] Вторая реализация.
[0028] В реализации настоящего изобретения также предлагается способ подписки на информацию с веб-страницы. Как видно из фиг.2, в этом способе предусмотрено выполнение следующих действий.
[0029] На шаге 201 принимаются идентификатор пользователя и URL-адрес веб-страницы.
[0030] Пользователю требуется подписаться на информацию с веб-страницы. На веб-странице имеется, по крайней мере, один блок и в каждом ее блоке содержится, по крайней мере, один базовый единичный блок. В каждом блоке веб-страницы есть заголовок и URL-адрес заголовка. В каждом блоке веб-страницы имеется несколько ссылок, каждая из которых представляет контент, содержащийся на веб-странице.
[0031] Например, на фиг.3 показан блок веб-страницы под названием "automobile", взятый с домашней страницы веб-сайта . Заголовок блока веб-страницы - "automobile", а URL-адрес заголовка - . Блок веб-страницы содержит базовый единичный блок 1, базовый единичный блок 2 и тринадцать ссылок. Ссылки представляют контент домашней страницы . В данной реализации в качестве базовой единицы подписки на информацию с веб-страницы используется блок веб-страницы.
[0032] В коде веб-страницы ее блоком является узел Div. В этот узел Div вложено несколько узлов Div. Базовым единичным блоком также является узел Div. Узел Div, соответствующий базовому единичному блоку, вложен в узел Div, соответствующий блоку веб-страницы. Узел Div, соответствующий базовому единичному блоку, не имеет вложенных узлов Div. Число символов в базовом единичном блоке превышает заранее определенное пороговое значение. Как правило, пороговое значение устанавливается равным 20.
[0033] На шаге 202 с веб-сайта загружается соответствующая веб-страница по ее URL-адресу.
[0034] Чтобы загрузить веб-страницу, необходимо загрузить ее код. Возможный код - HTML или XML. Загруженный код сохраняется в текстовом файле. После загрузки кода веб-страницы абсолютный путь в нем изменяется на относительный. В то же время веб-страница заполняется информацией об относительном пути Каскадных Таблиц Стилей КТС (CSS) и IMG. Таким образом, веб-страница может нормально отображаться пользователю (что соответствует известному уровню техники и в данной реализации ограничиваться не будет).
[0035] На шаге 203 в соответствии с кодом веб-страницы создается соответствующее ей дерево ОМД (DOM) согласно существующему методу анализа документов.
[0036] Код, сохраненный в текстовом файле, сканируется согласно методу анализа документов для создания дерева ОМД (DOM), соответствующего веб-странице. В методе анализа документов блок веб-страницы используется в качестве узла дерева ОМД (DOM), заголовок и URL-адрес заголовка блока веб-страницы используются в качестве подузлов узла, соответствующего блоку веб-страницы, и каждый базовый единичный блок веб-страницы используется в качестве подузла узла, соответствующего блоку веб-страницы. Для упрощения описания узел, используемый для хранения заголовка и URL-адреса заголовка блока веб-страницы в дереве ОМД (DOM), называется узлом заголовка.
[0037] На шаге 204 принимается блок веб-страницы, на который подписывается пользователь.
[0038] Когда веб-страница отображается пользователю, он может выбрать информацию, на которую хочет подписаться. Поскольку в данной реализации базовой единицей подписки на информацию с веб-страницы является блок веб-страницы, он сопоставляется согласно позиции на веб-странице информации, на которую подписывается пользователь, а также определяются все его базовые единичные блоки. Пользователь может подписаться на один или несколько блоков веб-страницы. В данной реализации в качестве примера рассматривается случай подписки пользователя на один блок веб-страницы. Например, пользователь хочет подписаться на информацию в блоке веб-страницы, показанном на фиг.3 (с домашней страницы сайта ). Блок веб-страницы сопоставляется согласно позиции информации, на которую подписывается пользователь. Также определяются базовые единичные блоки 1 и 2 этого блока веб-страницы. Идентификатор пользователя - ID1, а URL-адрес домашней страницы сайта - . com.
[0039] В данной реализации предусмотрена также возможность подписки на информацию с веб-страницы рекомендуемым способом. В частности, каждый раз регистрируется заголовок блока веб-страницы, на который подписывается пользователь. Когда веб-страница отображается пользователю, с нее выбирается соответствующий блок согласно зарегистрированному заголовку. Пользователю рекомендуется подтвердить выбранный блок веб-страницы. Если пользователь принимает решение подписаться на выбранный блок, выполняется шаг 205. Если пользователь не хочет подписываться на выбранный блок веб-страницы, он повторяет операцию подписки на требуемую информацию. Например, предположим, что пользователь подписался на блок веб-страницы "automobile". Регистрируется заголовок "automobile" этого блока. Когда пользователь снова подписывается на информацию с домашней страницы сайта , с этой страницы автоматически выбирается блок "automobile" и пользователю рекомендуется подтвердить его. Если пользователь принимает решение подписаться на блок веб-страницы "automobile", выполняется шаг 205; в противном случае пользователь повторяет операцию подписки на информацию с домашней страницы сайта .
[0040] На шаге 205 производится получение идентификационной информации блока веб-страницы посредством его идентификации. Идентификационная информация содержит, по крайней мере, порядковый номер первого базового единичного блока в блоке веб-страницы, заголовок и URL-адрес заголовка узла заголовка блока веб-страницы, а также число базовых единичных блоков в блоке веб-страницы.
[0041] Выполняются описанные ниже шаги (1)-(4).
[0042] (1) Определяются порядковый номер первого базового единичного блока в блоке веб-страницы и число базовых единичных блоков в блоке веб-страницы.
[0043] Начальное значение переменной устанавливается равным 0. Выполняется обход дерева ОМД (DOM) блока веб-страницы согласно существующему алгоритму обхода в прямом порядке. После прохождения узла, соответствующего базовому единичному блоку, к значению переменной добавляется 1. В то же время значение переменной используется в качестве порядкового номера базового единичного блока. Обход дерева ОМД (DOM) продолжается. По окончании прохождения дерева ОМД (DOM) определяются порядковые номера узлов, соответствующих каждому базовому единичному блоку. Следует отметить, что для одного и того же блока веб-страницы узел заголовка и узлы, соответствующие каждому базовому единичному блоку, расположены непрерывно. Поэтому при обходе в прямом порядке первым узлом обхода является узел заголовка. Затем производится обход узлов, соответствующих каждому базовому единичному блоку.
[0044] Например, как видно из фиг.4, в качестве узла А используется блок веб-страницы, показанный на фиг.3. В качестве трех подузлов узла А используются заголовок и URL-адрес заголовка, базовый единичный блок 1 и базовый единичный блок 2 блока веб-страницы. Тремя подузлами являются узел В, узел 12 и узел 13, причем узел В является узлом заголовка. Кроме того, начальное значение переменной устанавливается равным 0. Обход дерева ОМД (DOM) выполняется согласно существующему алгоритму обхода в прямом порядке. Предположим, что после прохождения базовых единичных блоков 1 и 2 в дереве ОМД (DOM) значение переменной увеличилось до 11. В этот момент значение еще увеличивается на 1 и достигает 12. Значение 12 используется в качестве порядкового номера узла 12, соответствующего базовому единичному блоку 1. После прохождения узла 13, соответствующего базовому единичному блоку 2, к значению переменной добавляется 1, и оно становится равным 13. Значение 13 используется в качестве порядкового номера узла 13, соответствующего базовому единичному блоку 2. Обход продолжается, пока не будет пройдено все дерево ОМД (DOM).
[0045] То есть для каждого базового единичного блока в блоке веб-страницы сначала выполняется обход дерева ОМД (DOM). После прохождения узла, соответствующего базовому единичному блоку, номер этого узла используется в качестве порядкового номера базового единичного блока. В качестве первого базового единичного блока используется базовый единичный блок с минимальным порядковым номером. В качестве порядкового номера первого базового единичного блока в блоке веб-страницы используется минимальный порядковый номер. Определяется число базовых единичных блоков в блоке веб-страницы.
[0046] Например, для базовых единичных блоков 1 и 2 блока веб-страницы, показанного на фиг.3, сначала выполняется обход дерева ОМД (DOM), представленного на фиг.4. После прохождения узла 12, соответствующего базовому единичному блоку 1, в качестве порядкового номера этого блока используется номер 12. После прохождения узла 13, соответствующего базовому единичному блоку 2, в качестве порядкового номера этого блока используется номер 13. В качестве первого базового единичного блока в блоке веб-страницы выбирается базовый единичный блок с минимальным порядковым номером. В качестве порядкового номера первого базового единичного блока в блоке веб-страницы используется порядковый номер 12. Число базовых единичных блоков в блоке веб-страницы - 2.
[0047] (2) Считываются префиксы URL-адресов всех ссылок в блоке веб-страницы. Вычисляется число префиксов URL-адресов каждого типа. Префикс URL-адреса того типа, которому соответствует максимальное число префиксов, выбирается в качестве префикса URL-адреса блока веб-страницы.
[0048] URL-адреса нескольких ссылок в блоке веб-страницы классифицируются по их структурам. В начальной части URL-адресов каждой категории имеется общая строка, представляющая собой префикс URL-адреса категории.
[0049] URL-адреса большинства или всех ссылок блока веб-страницы имеют следующую структуру: "URL-адрес блока веб-страницы + подтаблица содержимого". URL-адреса некоторых ссылок в блоке веб-страницы могут иметь другие структуры. В блоке веб-страницы, показанном на фиг.3, структура URL-адресов большинства ссылок следующая: " + подтаблица содержимого". Например, URL-адрес ссылки "luxury cars enclose land in second and third tier cities" - 1119/000082.htm. Следовательно, для всех URL-адресов, ссылки которых имеют структуру типа "URL-адрес блока веб-страницы + подтаблица содержимого", префикс URL-адреса, извлеченный из каждого URL-адреса, совпадает с URL-адресом блока веб-страницы или аналогичен ему. Префикс URL-адреса аналогичен URL-адресу блока веб-страницы в следующих случаях: URL-адресом блока веб-страницы является подстрока префикса URL-адреса, или префиксом URL-адреса является подстрока URL-адреса блока веб-страницы. Например, префиксом URL-адреса ссылки "luxury cars enclose land in second and third tier cities" может быть следующая строка: . Этот префикс URL-адреса совпадает с URL-адресом блока веб-страницы. Другой пример: URL-адресом ссылки "luxury cars enclose land in second and third tier cities" может также быть адрес http://auto.qq.eom/a. URL-адрес блока веб-страницы представляет собой подстроку префикса URL-адреса, т.е. они аналогичны.
[0050] Поскольку URL-адреса большинства или всех ссылок в блоке веб-страницы имеют структуру типа "URL-адрес блока веб-страницы + подтаблица содержимого", префиксы URL-адресов большинства или всех ссылок совпадают с URL-адресом блока веб-страницы или аналогичны ему. Поэтому в качестве префикса URL-адреса блока веб-страницы выбирается префикс того типа, которому соответствует наибольшее число префиксов.
[0051] (3) В дереве ОМД (DOM) выполняется поиск узла заголовка блока веб-страницы в соответствии с выбранным префиксом URL-адреса.
[0052] В частности, в дереве ОМД (DOM) выполняется поиск вперед, начиная от узла, соответствующего первому базовому единичному блоку блока веб-страницы. После обнаружения узла заголовка определяется, идентичен или аналогичен ли URL-адрес в нем префиксу URL-адреса. Если да, узел заголовка является узлом заголовка блока веб-страницы; в противном случае обход дерева ОМД (DOM) продолжается.
[0053] Поиск вперед выполняется в направлении, противоположном направлению обхода дерева ОМД (DOM) в прямом порядке. Направление обратного поиска совпадает с направлением обхода в прямом порядке.
[0054] Например, предположим, что на шаге (2) получен следующий префикс URL-адреса блока веб-страницы, показанного на фиг.3: . Поиск вперед в дереве ОМД (DOM) выполняется от первого базового единичного блока, т.е. узла 12, соответствующего базовому единичному блоку 1. После обнаружения узла В заголовка из него считывается URL-адрес . Таким образом, определяется, что URL-адрес аналогичен префиксу URL-адреса. Следовательно, узел В заголовка является узлом заголовка блока веб-страницы, показанного на фиг.3.
[0055] (4) Выполняется чтение URL-адреса и заголовка, хранящихся в узле заголовка, для получения заголовка и URL-адреса заголовка этого узла.
[0056] Например, из узла В заголовка считываются заголовок "automobile" и URL-адрес заголовка "".
[0057] Таким образом, идентификатор пользователя, URL-адрес веб-страницы и идентификационную информацию блока веб-страницы можно сохранить в виде записи согласно взаимосвязи между этими компонентами.
[0058] например, предположим, что идентификатор пользователя - ID1, URL-адрес веб-страницы - , порядковый номер первого базового единичного блока в блоке веб-страницы - 12, заголовок и URL-адрес заголовка узла заголовка блока веб-страницы - "automobile" и , соответственно, число базовых единичных блоков - 2. В этом случае информация может быть сохранена в виде записи, как показано в таблице 1.
ID пользователя | URL-адрес веб-страницы | Идентификационная информация | |||
Порядковый номер первого базового единичного блока | узел заголовка | URL-адрес узла | Количество базовых единичных блоков | ||
ID1 | http://www.qq.com | 13 | automobile | http://auto.qq.com | 2 |
Таблица 1 |
[0059] На шаге 206 считываются и сохраняются URL-адреса, соответствующие всем ссылкам в блоке веб-страницы, на который произведена подписка, причем URL-адреса могут быть сохранены в ранее созданной записи согласно идентификатору пользователя и URL-адресу веб-страницы.
[0060] Кроме того, при чтении URL-адресов может быть настроен таймер для отслеживания изменений URL-адресов в блоке веб-страницы. Время таймера может быть задано пользователем в соответствии с требованием или установлено по умолчанию. Время таймера обычно задается небольшим, например полчаса или один час.
[0061] Предположим, что из блока веб-страницы, показанного на фиг.3, считано 13 URL-адресов: S1, S2, S3, S4, S4, S6, S7, S8, S9, S10, S11, S12 и S13. В соответствии с идентификатором пользователя (ID1) и URL-адресом веб-страницы () 13 URL-адресов сохраняются в записи, как показано в таблице 2. Затем для этой записи задается таймер.
ID пользователя | URL-адрес веб-страницы | URL-адрес блока веб-страницы, на который произведена подписка |
ID1 | http://www.qq.com | S1, S2, S3, S4, S5, S6, S7, S8, S9, S10, S11, S12 и S13 |
Таблица 2 |
[0062] На шаге 207 выполняется отслеживание URL-адресов блока веб-страницы согласно полученной идентификационной информации и всем сохраненным URL-адресам. При наличии в URL-адресах какого-либо изменения выполняется шаг 208.
[0063] Выполняются описанные ниже шаги 1-4.
[0064] На шаге 1 по истечении времени таймера, настроенного на шаге 206, из сохраненной записи считывается идентификационная информация согласно идентификатору пользователя и URL-адресу веб-страницы. Идентификационная информация содержит, по крайней мере, порядковый номер первого базового единичного блока в блоке веб-страницы, заголовок и URL-адрес заголовка узла заголовка блока веб-страницы, а также число базовых единичных блоков в блоке веб-страницы.
[0065] Например, предположим, что на шаге 206 для записи задан таймер. По истечении времени этого таймера из таблицы 1, содержащей сведения о взаимосвязи между идентификатором пользователя, URL-адресом веб-страницы и идентификационной информацией, считывается идентификационная информация, соответствующая идентификатору ID1 и адресу , хранящимся в записи. Эта информация содержит порядковый номер 12 первого базового единичного блока в блоке веб-страницы, заголовок "automobile" и URL-адрес узла заголовка, а также число 2 базовых единичных блоков в блоке веб-страницы.
[0066] На шаге 2 загружается соответствующая веб-страница по ее URL-адресу. По коду веб-страницы повторно создается ее дерево ОМД (DOM) согласно существующему методу анализа документов. Выполняется обход вновь созданного дерева ОМД (DOM) в прямом порядке для получения порядковых номеров узлов, соответствующих каждому базовому единичному блоку в этом дереве.
[0067] Структура загруженной веб-страницы, возможно, изменена, в результате чего структура вновь созданного дерева ОМД (DOM) отличается от структуры дерева ОМД (DOM), созданного на шаге 203. Поскольку для таймера задано небольшое время, структура веб-страницы сильно не изменяется. Поэтому порядковые номера узлов, соответствующих большинству базовых единичных блоков в дереве ОМД (DOM), не изменяются. Даже в случае изменения порядковых номеров некоторых узлов разница между старым и новым порядковыми номерами обычно не превышает 3. Например, предположим, что на этом шаге дерево ОМД (DOM) блока веб-страницы с заголовком "automobile" имеет вид, показанный на фиг.5. Узлом заголовка блока веб-страницы является узел В. Блок веб-страницы содержит базовые единичные блоки 1 и 2, соответствующие узлам 11 и 12. Порядковые номера узлов 11 и 12 - 11 и 12 соответственно.
[0068] На шаге 3 по идентификационной информации, считанной на шаге 1, выполняется поиск в дереве ОМД (DOM) узлов, соответствующих всем базовым единичным блокам блока веб-страницы, и извлекаются URL-адреса всех ссылок в каждом узле. В ходе этих действий выполняются описанные ниже шаги (1)-(5).
[0069] (1) В соответствии со считанным на шаге 1 порядковым номером первого базового единичного блока в блоке веб-страницы узел, соответствующий этому порядковому номеру во вновь созданном дереве ОМД (DOM), определяется в качестве начального узла.
[0070] По сравнению с шагом 203, структура загруженной веб-страницы на шаге 207, возможно, изменилась. Таким образом, структура дерева ОМД (DOM), созданного на шаге 207, также, возможно, изменилась. Следовательно, определенный начальный узел может быть или не быть узлом, соответствующим первому базовому единичному блоку блока веб-страницы.
[0071] Например, согласно порядковому номеру 12 первого базового единичного блока веб-страницы с заголовком "automobile", в дереве ОМД (DOM), показанном на фиг.5, определяется начальный узел с порядковым номером 12.
[0072] (2) Во вновь созданном дереве ОМД (DOM) выполняется поиск узла заголовка одновременно в направлениях вперед и назад, начиная от начального узла. После обнаружения узла заголовка из него считываются заголовок и URL-адрес заголовка.
[0073] Например, в дереве ОМД (DOM), показанном на фиг.5, выполняется поиск узла заголовка одновременно в направлениях вперед и назад, начиная от начального узла с порядковым номером 12. После обнаружения узла В заголовка из него считываются заголовок "automobile" и URL-адрес заголовка .
[0074] (3) Определяется, совпадают ли считанные заголовок и URL-адрес заголовка с заголовком и URL-адресом заголовка, считанными в идентификационной информации на шаге 1. Если да, узел заголовка является узлом заголовка блока веб-страницы, и выполняется шаг (4). В противном случае выполняется шаг (2).
[0075] Например, определяется, что считанные заголовок "automobile" и URL-адрес совпадают с заголовком "automobile" и URL-адресом , сохраненными в записи на шаге 1. Выполняется шаг (4).
[0076] (4) Во вновь созданном дереве ОМД (DOM) выполняется непрерывный поиск узлов в обратном направлении, начиная от узла заголовка. Число искомых узлов совпадает со считанным на шаге 1 числом базовых единичных блоков в блоке веб-страницы.
[0077] В дереве ОМД (DOM) узлы, соответствующие базовым единичным блокам одного блока веб-страницы, и узел заголовка этого блока расположены непрерывно. Следовательно, при обнаружении узла заголовка блока веб-страницы узлы, число которых, начиная от узла заголовка, совпадает с числом базовых единичных блоков в блоке веб-страницы, соответствуют базовым единичным блокам блока веб-страницы.
[0078] Например, предположим, что число базовых единичных блоков в блоке веб-страницы с заголовком "automobile" равно 2. Тогда в дереве ОМД (DOM), показанном на фиг.5, выполняется непрерывный поиск в обратном направлении двух узлов, начиная от узла В заголовка. Обнаруживаются узлы 11 и 12 и они используются в качестве узлов, соответствующих базовым единичным блокам 1 и 2 блока веб-страницы.
[0079] (5) Из узлов, соответствующих всем базовым единичным блокам блока веб-страницы, считываются URL-адреса всех ссылок всех узлов, причем считанные URL-адреса являются адресами всех ссылок, включенных в блок веб-страницы.
[0080] Например, предположим, что из узлов 11 и 12 извлечены URL-адреса S1, S2, S3, S4, S5, S6, S7, U1, U2, U3, U4, U5 и U6 всех ссылок.
[0081] На шаге 4 URL-адреса всех ссылок, включенных в блок веб-страницы, сравниваются с URL-адресами всех ссылок, сохраненных в записи. При наличии какого-либо изменения выполняется шаг 208.
[0082] На шаге 208 отображается веб-страница, соответствующая измененному URL-адресу.
[0083] В частности, при наличии какого-либо изменения в URL-адресах всех ссылок, включенных в блок веб-страницы, сохраненные в записи URL-адреса блока веб-страницы, на который произведена подписка, обновляются. Для записи может быть повторно настроен таймер. Конфигурация такая же, как на шаге 206. По истечении времени таймера снова определяется (в соответствии с описанными выше шагами), есть ли изменение в URL-адресах блока веб-страницы, на который произведена подписка.
[0084] Например, считанные ссылки S1, S2, S3, S4, S5, S6, S7, U1, U2, U3, U4, U5 и U6 сравниваются со ссылками S1, S2, S3, S4, S5, S6, S7, S8, S9, S10, S11, S12 и S13, сохраненными в записи. Ссылки S1, S2, S3, S4, S5, S6, S7, S8, S9, S10, S11, S12 и S13, сохраненные в записи, заменяются считанными ссылками S1, S2, S3, S4, S5, S6, S7, U1, U2, U3, U4, U5 и U6, как показано в таблице 3. Для записи может быть повторно настроен таймер.
ID пользователя | URL-адрес веб-страницы | URL-адрес блока веб-страницы, на который произведена подписка |
ID1 | http://www.qq.com | S1, S2, S3, S4, S5, S6, S7, U1, U2, U3, U4, U5 и U6 |
Таблица 3 |
[0085] Ниже в данной реализации текстовая информация блока веб-страницы, на который произведена подписка, отображается пользователю с использованием технологии RSS (Really Simple Syndication). Технология RSS позволяет извлекать текст из веб-документа веб-страницы и непосредственно отображать его.
[0086] В данной реализации пользователь может подписываться сразу на несколько блоков веб-страниц и получать идентификационную информацию каждого блока. Идентификационная информация содержит, по крайней мере, порядковый номер первого базового единичного блока в блоке веб-страницы, заголовок и URL-адрес заголовка узла заголовка блока веб-страницы, а также число базовых единичных блоков в блоке веб-страницы. Идентификационная информация каждого блока веб-страницы сохраняется.
[0087] Поскольку на веб-странице может быть автоматически идентифицирован любой ее блок, поставщику контента не требуется заранее идентифицировать контент веб-страницы. Таким образом, обеспечивается возможность подписки на любой блок контента веб-страницы, и количество служебных ресурсов, предоставляемых поставщиком контента, уменьшается.
[0088] Третья реализация
[0089] Как видно из фиг.6, в другой реализации настоящего изобретения предлагается способ подписки на информацию с веб-сайта. В этом способе предусмотрено выполнение следующих действий.
[0090] На шаге 301 принимаются идентификатор пользователя и URL-адрес веб-страницы, причем пользователь подписывается на требуемую информацию с веб-страницы.
[0091] В данной реализации в качестве единицы подписки на информацию с веб-страницы может быть также использован блок веб-страницы.
[0092] На шаге 302 с веб-сайта загружается соответствующая веб-страница согласно ее URL-адресу и с помощью метода анализа документов создается дерево ОМД (DOM) этой веб-страницы по ее коду.
[0093] Затем выполняется обход дерева ОМД (DOM) в прямом порядке для получения порядковых номеров всех его узлов.
[0094] На шаге 303 выполняется поиск соответствующей взаимосвязи между идентификатором пользователя, URL-адресом веб-страницы и идентификационной информацией по идентификатору пользователя и URL-адресу веб-страницы. Если соответствующая идентификационная информация обнаруживается, выполняется шаг 304. В противном случае выполняется шаг 305.
[0095] Если по взаимосвязи между идентификатором пользователя, URL-адресом веб-страницы и идентификационной информацией обнаруживается запись, содержащая идентификатор пользователя и URL-адрес веб-страницы, это означает, что пользователь подписался на блок веб-страницы. В данной реализации предусмотрена возможность отображения блока веб-страницы, на который подписался пользователь. Пользователь может изменить блок веб-страницы, на который произведена подписка.
[0096] На шаге 304 блок веб-страницы, на который произведена подписка, идентифицируется на веб-странице с помощью особого фонового цвета согласно идентификационной информации и отображается пользователю. Затем выполняется шаг 306.
[0097] Идентификационная информация содержит порядковый номер первого базового единичного блока в блоке веб-страницы, на который произведена подписка, заголовок и URL-адрес заголовка узла заголовка этого блока веб-страницы, а также число базовых единичных блоков в этом блоке веб-страницы.
[0098] В частности, на шаге 1 согласно идентификационной информации выполняется поиск в дереве ОМД (DOM) узлов, соответствующих каждому базовому единичному блоку в блоке веб-страницы, на который произведена подписка. При этом выполняются следующие действия.
[0099] (1) В соответствии с порядковым номером первого базового единичного блока в блоке веб-страницы, на который произведена подписка, узел в дереве ОМД (DOM) определяется в качестве начального узла.
[0100] (2) В дереве ОМД (DOM) выполняется поиск узла заголовка одновременно в направлениях вперед и назад, начиная от начального узла. После обнаружения узла заголовка из него считываются заголовок и URL-адрес заголовка.
[0101] (3) Определяется, совпадают ли считанные заголовок и URL-адрес заголовка с заголовком и URL-адресом заголовка в идентификационной информации. Если да, узел заголовка является узлом заголовка блока веб-страницы и выполняется шаг (4). В противном случае выполняют шаг (2).
[0102] (4) В дереве ОМД (DOM) выполняется поиск в обратном направлении от узла заголовка узлов, число которых совпадает с числом базовых единичных блоков в блоке веб-страницы, на который произведена подписка, т.е. узлов, соответствующих всем базовым единичным блокам в этом блоке веб-страницы.
[0103] На шаге 2 узел, соответствующий каждому базовому единичному блоку в блоке веб-страницы, на который произведена подписка, сопоставляется базовому единичному блоку на веб-странице, и фоновый цвет сопоставленных базовых единичных блоков изменяется на особый цвет. Затем веб-страница отображается пользователю.
[0104] Все сопоставленные базовые единичные блоки находятся в блоке веб-страницы, на который произведена подписка. После отображения на веб-странице с использованием особого фонового цвета всех базовых единичных блоков в блоке веб-страницы, на который произведена подписка, пользователь может изменить на веб-странице блок, на который произведена подписка, т.е. повторно подписаться на блок веб-страницы.
[0105] На шаге 305 загруженная веб-страница отображается пользователю.
[0106] Пользователь может выбрать с веб-страницы информацию, на которую требуется подписаться.
[0107] На шаге 306 принимается блок веб-страницы, на который подписывается пользователь.
[0108] На шаге 307 производится получение идентификационной информации блока веб-страницы посредством его идентификации. Идентификационная информация содержит, по крайней мере, порядковый номер первого базового единичного блока в блоке веб-страницы, заголовок и URL-адрес заголовка блока веб-страницы, а также число базовых единичных блоков в блоке веб-страницы. Идентификатор пользователя, URL-адрес веб-страницы и идентификационная информация используются в качестве записи и сохраняются в сведениях о взаимосвязи между этими компонентами.
[0109] Этот шаг идентичен шагу 205 во второй реализации и здесь повторно рассматриваться не будет.
[0110] На шаге 308 извлекаются и сохраняются URL-адреса всех ссылок, включенных в блок веб-страницы, на который произведена подписка. Сохраняется также взаимосвязь между идентификатором пользователя, URL-адресом веб-страницы и извлеченными URL-адресами.
[0111] Этот шаг идентичен шагу 206 во второй реализации и здесь повторно рассматриваться не будет.
[0112] На шаге 309 выполняется отслеживание в реальном масштабе времени URL-адресов блока веб-страницы, на который произведена подписка, согласно идентификационной информации и сохраненным URL-адресам. Если в URL-адресах имеется какое-либо изменение, выполняется шаг 310.
[0113] Этот шаг идентичен шагу 207 во второй реализации и здесь повторно рассматриваться не будет.
[0114] На шаге 310 отображается веб-страница, соответствующая измененному URL-адресу.
[0115] Этот шаг идентичен шагу 208 во второй реализации и здесь повторно рассматриваться не будет.
[0116] Поскольку на веб-странице может быть автоматически идентифицирован любой ее блок, поставщику контента не требуется заранее идентифицировать контент веб-страницы. Таким образом, обеспечивается возможность подписки на контент любого блока веб-страницы, и количество служебных ресурсов, предоставляемых поставщиком контента/уменьшается.
Поскольку блок веб-страницы, на который подписался пользователь, выделяется на веб-странице особым фоновым цветом, впечатление пользователя улучшается.
[0117] Четвертая реализация
[0118] Как видно из фиг.7, в реализации настоящего изобретения предлагается устройство подписки на информацию с веб-страницы. Это устройство содержит следующие модули:
модуль 401 идентификации для идентификации (при подписке пользователем на информацию с веб-страницы) блока веб-страницы, на который подписывается пользователь, с помощью ее дерева ОМД (DOM), чтобы получить идентификационную информацию;
модуль 402 отслеживания в реальном масштабе времени для извлечения и сохранения URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, и отслеживания URL-адресов в блоке согласно идентификационной информации и сохраненным URL-адресам для определения, существует ли какое-либо изменение в URL-адресах; модуль 403 отображения для отображения веб-страницы, соответствующей измененному URL-адресу, при наличии изменения в URL-адресах блока веб-страницы, на который подписывается пользователь.
[0119] Модуль 403 отображения содержит следующие компоненты: подмодуль обновления для обновления сохраненных URL-адресов согласно измененному URL-адресу; подмодуль отображения для отображения текстовой информации блока веб-страницы, на который подписывается пользователь.
[0120] Устройство может также содержать модуль предварительного создания для создания дерева ОМД (DOM) веб-страницы.
[0121] Модуль 401 идентификации может содержать следующие компоненты: первый блок получения для получения из дерева ОМД (DOM) веб-страницы порядкового номера первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, и числа базовых единичных блоков, включенных в этот блок веб-страницы;
второй блок получения для получения префикса URL-адреса блока веб-страницы, на который подписывается пользователь;
первый блок поиска для поиска по префиксу URL-адреса в дереве ОМД (DOM) блока веб-страницы узла заголовка блока веб-страницы, на который подписывается пользователь, и извлечение заголовка и URL-адреса заголовка этого узла.
[0122] В качестве идентификационной информации используются порядковый номер первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь, число базовых единичных блоков в этом блоке веб-страницы, а также заголовок и URL-адрес заголовка узла заголовка блока веб-страницы, на который подписывается пользователь.
[0123] Первый блок получения может содержать следующие компоненты: подблок обхода для обхода дерева ОМД (DOM) блока веб-страницы и, после прохождения узла, соответствующего базовому единичному блоку, чтения порядкового номера этого узла в качестве порядкового номера базового единичного блока;
подблок выбора для выбора порядкового номера базового единичного блока с минимальным порядковым номером в качестве порядкового номера первого базового единичного блока в блоке веб-страницы;
первый подблок определения для определения числа базовых единичных блоков, включенных в блок веб-страницы, на который подписывается пользователь.
[0124] Второй блок получения может содержать следующие компоненты:
второй подблок определения для извлечения префиксов URL-адресов всех ссылок в блоке веб-страницы, на который подписывается пользователь, определения числа префиксов URL-адресов каждого типа и выбора в качестве префикса URL-адреса блока веб-страницы, на который подписывается пользователь, префикса того типа, которому соответствует максимальное число префиксов.
[0125] Первый блок поиска может содержать следующие компоненты:
подблок поиска для поиска узлов заголовка в дереве ОМД (DOM) веб-страницы в прямом направлении, начиная от узла, соответствующего первому базовому единичному блоку;
второй подблок поиска для поиска среди узлов заголовков узла заголовка с префиксом URL-адреса, совпадающим с полученным префиксом URL-адреса или аналогичным ему, и использования найденного узла в качестве узла заголовка блока веб-страницы, а также извлечения из него заголовка и URL-адреса заголовка.
[0126] Модуль 402 отслеживания в реальном масштабе времени может содержать следующие компоненты:
блок чтения для чтения идентификационной информации и сохраненных URL-адресов;
блок создания для создания дерева ОМД (DOM) веб-страницы;
блок определения для определения начального узла в дереве ОМД (DOM)
согласно порядковому номеру первого базового единичного блока в блоке веб-страницы, на который подписывается пользователь;
второй блок поиска для поиска в дереве ОМД (DOM) узлов, соответствующих базовым единичным блокам в блоке веб-страницы, на который подписывается пользователь, с учетом определенного начального узла, заголовка и URL-адреса заголовка узла заголовка, а также числа базовых единичных блоков в блоке веб-страницы;
блок сравнения для сравнения URL-адреса в узле, соответствующем каждому базовому единичному блоку в блоке веб-страницы, с сохраненным URL-адресом.
[0127] Второй блок поиска может содержать следующие компоненты:
третий подблок поиска для поиска узла заголовка по его заголовку и URL-адресу заголовка в дереве ОМД (DOM) одновременно в направлении вперед и назад от начального узла;
четвертый подблок поиска для непрерывного поиска в дереве ОМД (DOM), начиная от узла заголовка, узлов, число которых равно числу базовых единичных блоков в блоке веб-страницы, причем искомыми являются узлы, соответствующие базовым единичным блокам в блоке веб-страницы.
[0128] Как видно из фиг.8, устройство может также содержать модуль 404 определения для определения, имеется ли на веб-странице блок, на который подписался пользователь, и отображения этого блока на веб-странице с выделением особым фоновым цветом.
[0129] В реализациях настоящего изобретения на веб-странице может быть автоматически идентифицирован любой ее блок. Поэтому поставщику контента не требуется заранее идентифицировать контент веб-страницы. Таким образом, обеспечивается возможность подписки на контент любого блока веб-страницы, и количество служебных ресурсов, предоставляемых поставщиком контента, может быть уменьшено.
[0130] Все предусмотренное в реализациях настоящего изобретения и описанное выше техническое решение (или его часть) может быть реализовано программой, хранящейся в машиночитаемой среде хранения, например на жестком диске, компакт-диске или дискете.
[0131] Все описанное и иллюстрированное здесь решение представляет пример изобретения наряду с некоторыми его вариантами. Использованные здесь термины, описания и схемы предназначены только для иллюстрации и не служат в качестве ограничений. Возможны многие изменения, не выходящие за рамки сущности и области применения настоящего изобретения, определяемого представленными ниже пунктами его формулы (и их эквивалентами), в которых все термины используются в самом широком подходящем смысле, если не указано иначе.
Класс G06F17/30 информационный поиск; структуры баз данных для этой цели