способ и устройство для обнаружения игровых эпизодов в полевых видах спорта в видеопоследовательностях
Классы МПК: | H04N5/66 преобразование электрической информации в световую информацию |
Автор(ы): | Петрова Ксения Юрьевна (RU), Седунов Сергей Михайлович (RU), Рычагов Михаил Николаевич (RU) |
Патентообладатель(и): | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." (KR) |
Приоритеты: |
подача заявки:
2012-03-12 публикация патента:
20.08.2014 |
Изобретение относится к технологиям обработки видеоизображений, а именно к автоматизации процесса классификации видеоконтента по жанру и содержанию в реальном режиме времени. Техническим результатом является автоматическая подстройка настроек изображения. Результат достигается тем, что вычисляют яркость и насыщенность каждого пикселя кадра, описываемого значениями в красном, зеленом и синем цветовых каналах; вычисляют абсолютную величину градиента яркости для каждого пикселя кадра; выполняют классификацию по цвету каждого пикселя кадра; вычисляют статистику по результатам классификации по цветам для всего кадра; вычисляют статистику по результатам классификации по цветам для зеленых областей кадра; определяют, является ли данный кадр игровым эпизодом в полевых видах спорта, на основании исключительно характеристик текущего кадра; определяют, принадлежит ли текущий кадр той же сцене, что и предыдущий кадр; используют результат детектирования, полученный для предыдущего кадра, в качестве уточненного результата детектирования в случае, если текущий кадр принадлежит той же самой сцене, что и предыдущий кадр видеопоследовательности; или используют результат детектирования, полученный для текущего кадра на основании исключительно характеристик текущего кадра, в качестве уточненного результата детектирования в случае, если текущий кадр не принадлежит той же самой сцене, что и предыдущий кадр видеопоследовательности. 3 н. и 7 з. п. ф-лы, 29 ил.
Формула изобретения
1. Способ обнаружения игровых эпизодов в полевых видах спорта в реальном времени, заключающийся в выполнении следующих операций:
- вычисляют яркость и насыщенность каждого пикселя кадра, описываемого значениями в красном, зеленом и синем цветовых каналах;
- вычисляют абсолютную величину градиента яркости для каждого пикселя кадра;
- выполняют классификацию по цвету каждого пикселя кадра;
- вычисляют статистику по результатам классификации по цветам для всего кадра;
- вычисляют статистику по результатам классификации по цветам для зеленых областей кадра;
- определяют, является ли данный кадр игровым эпизодом в полевых видах спорта на основании исключительно характеристик текущего кадра;
- определяют, принадлежит ли текущий кадр той же сцене, что и предыдущий кадр;
- используют результат детектирования, полученный для предыдущего кадра, в качестве уточненного результата детектирования в случае, если текущий кадр принадлежит той же самой сцене, что и предыдущий кадр видеопоследовательности, или
- используют результат детектирования, полученный для текущего кадра на основании исключительно характеристик текущего кадра, в качестве уточненного результата детектирования в случае, если текущий кадр не принадлежит той же самой сцене, что и предыдущий кадр видеопоследовательности.
2. Способ по п.1, отличающийся тем, что процедура выполнения классификации пикселей по цвету состоит из следующих операций:
- определяют, является ли пиксель белым;
- определяют, является ли пиксель ярким и насыщенным;
- определяют, является ли пиксель желтым;
- определяют, является ли пиксель зеленым;
- определяют, похож ли пиксель по цвету на человеческую кожу.
3. Способ по п.1, отличающийся тем, что процедура вычисления статистики по результатам классификации по цветам для всего кадра заключается в выполнении следующих операций:
- вычисляют пропорцию белых пикселей в кадре;
- вычисляют пропорцию ярких и насыщенных пикселей в кадре;
- вычисляют пропорцию зеленых пикселей в кадре;
- вычисляют пропорцию пикселей, похожих по цвету на человеческую кожу в кадре.
4. Способ по п.1, отличающийся тем, что процедура вычисления статистики по результатам классификации по цветам для зеленых областей кадра заключается в выполнении следующих операций:
- вычисляют среднюю яркость в зеленых областях кадра;
- вычисляют среднюю насыщенность в зеленых областях кадра;
- вычисляют среднюю величину в синем цветовом канале в зеленых областях кадра;
- вычисляют среднюю абсолютную величину градиента яркости в зеленых областях кадра;
- вычисляют гистограмму зеленого цветового канала в зеленых областях кадра.
5. Устройство для обнаружения игровых эпизодов в полевых видах спорта в реальном времени, состоящее из кадрового буфера, детектора признаков низкого уровня, детектора смены сцены, блока анализа признаков и динамического детектора типа контента, где кадровый буфер соединен с детектором признаков низкого уровня, входом линии задержки и с первым входом детектора смены сцены; выход детектора признаков низкого уровня соединен с блоком анализа признаков, выход линии задержки соединен со вторым входом детектора смены сцены; блок анализа признаков соединен с первым входом динамического детектора типа контента; выход детектора смены сцены соединен со вторым входом динамического детектора типа контента; выход динамического детектора типа контента является выходом устройства.
6. Устройство по п.5, отличающееся тем, что детектор смены сцены выполнен с возможностью определения, принадлежит ли текущий кадр той же сцене, что и предыдущий кадр.
7. Устройство по п.5, отличающееся тем, что динамический детектор типа контента выполнен с возможностью передачи в качестве уточненного результата детектирования результата, полученного при детектировании предыдущего кадра в случае, если текущий кадр относится к той же сцене, что и предыдущий кадр, и результата детектирования, полученного текущего кадра на основании исключительно характеристик текущего кадра, в случае, если текущий кадр является первым кадром видеопоследовательности или если текущий кадр не относится к той же сцене, что и предыдущий кадр.
8. Детектор признаков низкого уровня в устройстве для обнаружения игровых эпизодов в полевых видах спорта в реальном времени, состоящий из блока преобразования пикселей, выполненного с возможностью вычисления насыщенности и яркости для каждого пикселя и соединенного с классификатором цвета пикселя, который выполнен с возможностью определения цвета пикселей в соответствии с тем, как он воспринимается человеком; и блока вычисления градиента, который выполнен с возможностью вычисления градиента в канале яркости и выход которого соединен, наряду с выходом классификатора пикселей, с входом блока статистического анализа.
9. Детектор признаков низкого уровня по п.8, отличающийся тем, что он выполнен с возможностью классифицирования цвета пикселя путем вычисления вектора, состоящего из следующих логических величин:
- является ли пиксель белым;
- является ли пиксель ярким и насыщенным;
- является ли пиксель желтым;
- является ли пиксель зеленым;
- похож ли пиксель по цвету на человеческую кожу.
10. Детектор признаков низкого уровня по п.8, отличающийся тем, что содержащийся в детекторе блок статистического анализа выполнен с возможностью вычисления вектора, состоящего из следующих характеристик кадра:
- нормализованное число зеленых пикселей в кадре;
- нормализованное число ярких и насыщенных пикселей в кадре;
- нормализованное число пикселей, похожих по цвету на человеческую кожу в кадре;
- средняя яркость зеленых областей кадра;
- средняя насыщенность зеленых областей кадра;
средняя величина синего цветового канала в зеленых областях кадра;
- средняя абсолютная величина градиента яркости в зеленых областях кадра;
- компактность гистограммы зеленого цветового канала в зеленых областях кадра.
Описание изобретения к патенту
Настоящее изобретение относится к технологиям обработки видеоизображений, а именно к автоматизации процесса классификации видеоконтента по жанру и содержанию в реальном режиме времени с целью оптимального подбора параметров устройства отображения.
Из уровня техники известны различные подходы к автоматическому определению жанра видеопоследовательности. Теоретические аспекты разработок в этой области изложены в ряде публикаций, таких как N.Watcharapinchai, S.Aramvith, S.Siddhichai, S.Marukatat, S., A discriminant approach to sports video classification, proc. of the ISCIT '07. International Symposium on Communications and Information Technologies, pp.557-561, 2007 [1], J. Park, S.Han, Y. An, Heuristic Features for Color Correlogram for Image Retrieval, proc. of the ICCSA'08. International Conference on Computational Sciences and Its Applications, pp.9-13, 2008 [2], Automatic feature construction and a simple rule induction algorithm for skin detection, G. Gomez, E. Morales Proceedings of Workshop on Machine Learning in Computer Vision, 2002, pp.31-38 [3].
Практические разработки в области по автоматическому определению жанра видеопоследовательности отражены в ряде патентных документов.
Так, в патенте США 7831112 [4] предложен способ разделения видеопотока на временные сегменты в зависимости от возгласов публики, присутствующей при спортивном событии. Это изобретение относится к определению жанра мультимедийного контента и состоит из детектора признаков, вычисляющего предопределенные признаки мультимедийного контента, и блока классификации.
В патентной заявке США 20070113248 [5] описаны способ и устройство для определения жанра мультимедийного контента. Устройство включает в себя детектор признаков и детектор жанра, при этом для решения задачи используются как признаки, выделяемые на основе только аудиопотока, так и признаки, выделяемые на основе видеопотока.
Наиболее близким к заявленному изобретению является решение, известное из патентной заявки США 20080186413 [6] и описывающее конвейер обработки видеоизображений в телевизионном приемнике, настраиваемый в зависимости от жанра просматриваемой передачи. Авторы предлагают использовать различные установки контрастности, уровня усиления деталей, пространственно-временного шумоподавления, гамма-коррекции, овердрайва и задней подсветки в зависимости от жанра демонстрируемого видеоизображения. В качестве примеров в решении-прототипе рассмотрены следующие жанры: спорт, музыка, студийные передачи, кино, телефильмы, мультфильмы. Блок классификации в прототипе [6] состоит из генератора гистограмм, детектора максимальной градации серого, детектора средней градации серого, детектора минимальной градации серого, а также детектора средней яркости.
При выборе оптимального подхода к решению проблемы автоматического определения жанра видеоконтента необходимо принять во внимание следующие особенности данной проблемы.
В случае если определение жанра производится исключительно на основании признаков, извлекаемых из аудиопотока, решение задачи не может быть получено с точностью до одного кадра, что является важным требованием при использовании алгоритма детектирования жанра для управления установками устройства отображения.
В случае быстрого движения внутри видеокадра гистограмма может меняться настолько резко, что для соседних кадров одной и той же видеопоследовательности могут быть получены различные результаты классификации.
Видеоизображения обычно подвергаются различным видам предварительной обработки, таким, как улучшение контрастности, которые могут изменить гистограмму, что может повлечь получение различных результатов классификации для одних и тех же кадров видеопоследовательности, подверженных различным видам предварительной обработки. Видеоизображения могут быть обработаны алгоритмами сжатия различного типа и с различными установками качества, что также может существенно повлиять на характеристики изображения.
Методы детектирования жанра, основанные на динамических признаках (таких, как межкадровая вариация яркости) или на статистическом анализе низкоуровневых признаков внутри сцены, позволяют получить результат классификации только после получения последнего кадра этой сцены. В случае адаптивного управления установками устройства изображения такой тип алгоритма вызвал бы большую (и зависящую от конкретной сцены изображения) задержку, что неприемлемо для приложения в телевизионном приемнике.
Таким образом, методы определения жанра, использующие признаки, извлекаемые из аудиопотока, не могут быть использованы в приложениях для управления коллекциями мультимедийного контента, в которых аудио- и видеоданные хранятся отдельно.
Методы искусственного интеллекта требуют переобучения алгоритма при появлении новых ошибочно классифицированных образцов и добавлении их в обучающую выборку.
Задача, на решение которой направлено заявляемое изобретение, состоит в разработке усовершенствованного способа обнаружении эпизодов, связанных с демонстрацией игровых видов спорта в видеопоследовательности в реальном времени с целью автоматической подстройки настроек изображения в телевизионном приемнике. При этом такой способ должен быть свободен от основных недостатков, присущих известным из уровня техники решениям.
Технический результат достигается за счет разработки способа, обнаружения игровых эпизодов в полевых видах спорта в реальном времени, заключающегося в выполнении следующих операций:
- вычисляют яркость и насыщенность каждого пикселя кадра, описываемого значениями в красном, зеленом и синем цветовых каналах;
- вычисляют абсолютную величину градиента яркости для каждого пикселя кадра;
- выполняют классификацию по цвету каждого пикселя кадра;
- вычисляют статистику по результатам классификации по цветам для всего кадра;
- вычисляют статистику по результатам классификации по цветам для зеленых областей кадра;
- определяют, является ли данный кадр игровым эпизодом в полевых видах спорта на основании исключительно характеристик текущего кадра;
- определяют, принадлежит ли текущий кадр той же сцене, что и предыдущий кадр;
- используют в качестве уточненного результата детектирования результат детектирования, полученный для предыдущего кадра, в случае, если текущий кадр принадлежит той же самой сцене, что и предыдущий кадр видеопоследовательности; или
- используют в качестве уточненного результата детектирования результат детектирования, полученный для текущего кадра на основании исключительно характеристик текущего кадра, в случае, если текущий кадр не принадлежит той же самой сцене, что и предыдущий кадр видеопоследовательности.
Заявляемый способ позволяет получить результат классификации для каждого кадра видеопоследовательности, при этом результат постоянен на протяжении всей сцены. Способ работает в реальном времени (время задержки соответствует времени приема одного кадра и составляет от 40 до 67 мс). Способ устойчив как к быстрому движению в кадре, так и к предварительной обработке (например, гамма-коррекции или локальному улучшению контраста). Помимо этого, классификатор представляет собой набор простых правил, понимаемых человеком, поэтому при появлении ошибочно классифицированных образцов не требуется переобучения существующего классификатора, а достаточно добавления нового правила. Классификатор является суперпозицией одномерных и двумерных пороговых функций, линейного классификатора и логических функций, и использует очень простые статистические признаки, позволяющие аппаратную реализацию при помощи блоков сдвига, сумматоров и компараторов.
По сравнению с существующими методами заявляемое изобретение имеет шесть основных отличий:
- детектирование производится для каждого кадра видеопоследовательности в отдельности, но при этом сохраняется временная гладкость результата детектирования в пределах одной сцены;
- детектирование основано на признаках, эмпирически понимаемых человеком;
- предложены четыре новых типа детекторов цвета, определяющих цвета сходным с человеческим восприятием образом: желтый, зеленый, белый, яркий и насыщенный цвет;
- предложены четыре типа низкоуровневых статистических признака, используемых при классификации: среднее значение градиента яркости в зеленых областях, компактность гистограммы зеленого цветового канала в зеленых областях, средняя яркость в зеленых областях, среднее значение синего цветового канала в зеленых областях;
- классификатор имеет форму направленного ациклического графа, в узлах которого расположены одномерные и двумерные пороговые функции, линейные классификаторы и логические функции;
- предложен новый тип детектора смены сцены, основанный на алгоритме сегментации k-средних.
Для лучшего понимания заявленного изобретения далее приводится его подробное описание с соответствующими чертежами.
Фиг.1. Граф-схема способа обнаружения игровых эпизодов.
Фиг.2. Примеры игровых эпизодов в полевых видах спорта с различной долей зеленых пикселей.
Фиг.3. Насыщенность зеленых пикселей как признак полевой игры.
Фиг.4. Изображение с Фиг.3, вид 3.3, в котором средние значения красного, зеленого и синего цветовых каналов в зеленых областях установлены равными средним значениям этих величин в зеленых областях на Фиг.3, вид 3.4.
Фиг.5. Изображение с Фиг.3, вид 3.4, в котором средние значение синего цветового канала в зеленых областях установлено равным среднему значению этой величины в зеленых областях на Фиг.3, вид 3.3.
Фиг.6. Гистограмма зеленого цветового канала в зеленых областях изображения для изображений на Фиг.3, вид 3.3, и Фиг.3, вид 3.4; градиент яркости в зеленых областях для изображений на Фиг.3, вид 3.3 и Фиг.3, вид 3.4.
Фиг.7. Эпизод полевой игры с нулевой пропорцией зеленых пикселей.
Фиг.8. Дополнительная классификация по пропорции зеленых пикселей и насыщенности зеленых пикселей.
Фиг.9. Сцена в помещении, не являющаяся игровым эпизодом полевой игры: вид 9.1 - пример кадра, вид 9.2 - график признаков и результат классификации для сцены, состоящей из 300 последовательных кадров.
Фиг.10. Сцена на улице, не являющаяся игровым эпизодом полевой игры: вид 10.1 - пример кадра, вид 10.2 - график признаков и результат классификации для сцены, состоящей из 350 последовательных кадров
Фиг.11. Сцена, не являющаяся игровым эпизодом полевой игры, содержащая большую пропорцию зеленых пикселей: вид 11.1- пример кадра, вид 11.2 - график признаков и результат классификации для сцены, состоящей из 300 последовательных кадров.
Фиг.12. Игровой эпизод полевой игры, содержащий дальний план: вид 12.1 - пример кадра, вид 12.2 - график признаков и результат классификации для сцены, состоящей из 350 последовательных кадров.
Фиг.13. Игровой эпизод полевой игры, содержащий крупный план; вид 13.1 - пример кадра, вид 13.2 - график признаков и результат классификации для сцены, состоящей из 350 последовательных кадров.
Фиг.14. Игровые эпизоды, чередующиеся с неигровыми эпизодами: вид 14.1 пример кадра, не являющегося игровым эпизодом, вид 14.2 - график признаков и результат классификации для видеопоследовательности, состоящей из 850 последовательных кадров (3 сцены).
Фиг.15. Блок-схема детектора игровых эпизодов полевых игр.
Фиг.16. Блок-схема детектора признаков низкого уровня.
Фиг.17. Способ реализации классификатора пикселей по цвету.
Фиг.18. Область, соответствующая белому цвету в цветовом пространстве RGB.
Фиг.19. Пример результатов детектирования пикселей белого цвета.
Фиг.20. Область, соответствующая оттенкам кожи в цветовом пространстве RGB.
Фиг.21. Область, соответствующая желтому цвету в цветовом пространстве RGB.
Фиг.22. Пример результатов детектирования пикселей желтого цвета.
Фиг.23. Область, соответствующая зеленому цвету в цветовом пространстве RGB.
Фиг.24. Пример результатов детектирования пикселей зеленого цвета.
Фиг.25. Мера компактности гистограммы.
Фиг.26. Блок-схема анализатора признаков.
Фиг.27. Блок-схема детектора смены сцены.
Фиг.28. Блок-схема динамического детектора игровых эпизодов.
Фиг.29. Возможное применение в области телевидения.
Способ детектирования игровых эпизодов полевых видов спорта состоит из следующих шагов, показанных на Фиг.1:
- для каждого пикселя, описываемого значениями в красном, зеленом и синем цветовых каналов, вычисляют яркость и насыщенность (этап 101);
- вычисляют абсолютную величину градиента яркости (этап 102)
- классифицируют каждый пиксель по цвету, а именно: (этап 103)
- является ли пиксель белым?
- является ли пиксель ярким и насыщенным?
- является ли пиксель желтым?
- является ли пиксель зеленым?
- является ли цвет пикселя оттенком кожи?
- вычисляют статистику по цветам для всего кадра (этап 104);
- пропорция белых пикселей в кадре
- пропорция ярких и насыщенных пикселей в кадре
- пропорция зеленых пикселей в кадре
- пропорция пикселей оттенка кожи в кадре
- вычисляют статистику по цветам для зеленых областей (этап 105); а именно, для всех пикселей, которые на этапе 103 были классифицированы как зеленые, вычисляют следующие характеристики:
- средняя яркость
- средняя насыщенность
- среднее значение синего цветового канала
- среднее значение абсолютной величины градиента яркости
- для пикселей, классифицированных как зеленые, вычисляют гистограмму зеленого цветового канала (этап 106)
- для определения того, является ли текущий кадр игровым эпизодом полевой игры, используют следующие правила (этап 107):
- если пропорция зеленых пикселей равна нулю или очень низка, то результат детектирования является отрицательным;
- если средняя яркость зеленых пикселей очень низка, то результат детектирования является отрицательным;
- если средняя насыщенность зеленых пикселей очень низка, то результат детектирования является отрицательным;
- если средняя насыщенность зеленых пикселей низка и средняя яркость зеленых пикселей низка, то результат детектирования является отрицательным;
- если средняя насыщенность зеленых пикселей средняя и гистограмма зеленого канала в зеленых областях широка, то результат детектирования является отрицательным;
- если средняя насыщенность зеленых пикселей очень велика и гистограмма зеленого канала в зеленых областях очень узка, то результат детектирования является отрицательным;
- если средняя насыщенность зеленых пикселей низка или велика и среднее значение абсолютной величины градиента яркости в зеленых областях очень низко, то результат детектирования является отрицательным;
- если пропорция зеленых пикселей средняя или небольшая и пропорция ярких и насыщенных пикселей средняя или высокая, а количество пикселей тона человеческой кожи выше нуля и является малым или средним, то результат детектирования является положительным;
- если пропорция зеленых пикселей велика и пропорция ярких и насыщенных пикселей мала, но больше нуля, то результат детектирования является положительным;
- для определения того, принадлежит ли текущий кадр той же сцене, что и предыдущий, производят детектирование смены сцены (этап 108),
- в случае если смена сцены не произошла, то результат детектирования устанавливают равным результату детектирования для предыдущего кадра (этап 109).
Далее поясняются детали заявляемого способа.
Принцип детектирования игровых эпизодов полевых игр основан на том наблюдении, что по сравнению с другими видами сцен пропорция зеленых пикселей в этих кадрах сравнительно велика.
Предложенный на основе способа детектор позволяет отличать игровые эпизоды даже в случае, если эта пропорция сильно варьируется (Фиг.2: вид 2.1 - 15%, вид 2.2 - 24%, вид 2.3 - 46%, вид 2.4 - 67%, вид 2.5 - 82%, вид 2.6 - 97%).
Предполагается, что обычно в игровых эпизодах полевых игр насыщенность зеленого цвета SGR относительно высока (Фиг.3, вид 3.1): SGR=93%), а в других типах сцен может быть ниже (Фиг.3, вид 3.2): SGR=15%). Однако в некоторых случаях, в силу различных условий освещения сцены или особенностей использованного алгоритма сжатия, насыщенность зеленых пикселей может быть довольно низка (Фиг.3, вид 3.3);SGR=31%). Причем иногда насыщенность зеленых пикселей может быть даже ниже, чем у сцен другого типа (Фиг.3, вид 3.4): SGR=35%).
Человек легко заметит разницу между оттенками зеленого в этих двух изображениях, в чем легко можно убедиться, нормализовав эти два изображения по средним значениям синего, зеленого и красного каналов в зеленых областях (Фиг.4). При этом видно, что синий цветовой компонент играет ключевую роль и замена его средней величины на среднюю величину синего компонента в зеленых областях футбольного поля дает практически тот же цвет (Фиг.5). Таким образом, для того, чтобы отличить эти две сцены, имеет смысл использовать среднее значение синего канала в зеленых областях изображения. Среднее значение яркости имеет смысл использовать в настоящем изобретении в качестве классификационного признака с целью отличить очень темные сцены и классифицировать их как сцены, не являющиеся игровыми эпизодами, потому как спортивные соревнования обычно проводятся в хорошо освещенных местах.
Фиг.6 (виды 6.1 и 6.2) показывает гистограммы зеленого цветового канала для зеленых областей на изображениях с Фиг.3 (виды 3.3 и 3.4 соответственно). Эти рисунки показывают, что в случае, если гистограмма более компактна, то более вероятно, что кадр является игровым эпизодом, чем когда эта гистограмма размазана. В качестве меры компактности предлагается использовать пропорцию пикселей вблизи максимума гистограммы. В случае, если эта гистограмма размазана, можно считать, что кадр не является игровым эпизодом.
Фиг.6 (виды 6.3 и 6.4) показывает градиент канала яркости в зеленых областях для кадров на Фиг.3 (виды 3.3 и 3.4 соответственно). Видно, что очень низкие значения градиента могут соответствовать кадрам, не являющимся игровыми эпизодами.
Если средняя яркость зеленых пикселей очень низка, то можно сделать вывод о том, что кадр не является игровым эпизодом.
Очевидно, что в некоторых игровых эпизодах пропорция зеленых пикселей может быть нулевой (Фиг.7), но даже человек едва ли классифицирует такие кадры, не читая сопровождающего текста (который может и отсутствовать). Для кадров с нулевой пропорцией зеленых пикселей можно считать, что кадр не является игровым эпизодом.
Эффективный классификатор должен отдельно рассматривать кадры с различной пропорцией зеленых пикселей и различным их средним насыщением (Фиг.8). Кадры с очень низкой пропорцией зеленых пикселей и низкой насыщенностью зеленых пикселей классифицируются как не являющиеся игровым эпизодом.
В каждой клетке в таблице на Фиг.8 применяются дополнительные правила, в зависимости от ожидаемого вида сцены. В случае, если число зеленых пикселей очень велико, то предполагается, что представлен дальний вид. В случае, если количество ярких и насыщенных пикселей (которые могут соответствовать форме игроков) низкое или среднее, и количество белых пикселей невелико, но больше нуля, то кадр классифицируется как игровой эпизод.
В случае если количество зеленых пикселей малое или среднее, то предполагается наличие крупного плана. Если количество ярких и насыщенных пикселей среднее или большое, количество белых пикселей среднее, и количество пикселей тона человеческой кожи больше нуля и невелико или среднее, то кадр классифицируется как игровой эпизод.
В случае если не произошло смены сцены и предыдущий кадр был классифицирован как игровой эпизод, то текущий кадр также классифицируется как игровой эпизод.
Примеры кадров и графики наиболее важных признаков наряду с результатами классификации для игровых эпизодов, не игровых эпизодов и смешанных последовательностей кадров показаны на Фиг.9-14. При этом Фиг.9 показывает результаты для последовательности кадров, снятых в помещении и не являющихся игровым эпизодом. Фиг.10 показывает график признаков и результаты детектирования для последовательности кадров, снятых на улице и не являющихся игровым эпизодом. Фиг.11 показывает график признаков и результаты детектирования для последовательности кадров, не являющихся игровым эпизодом и содержащих большую пропорцию зеленых пикселей. Фиг.12 показывает график признаков и результаты детектирования для игрового эпизода, содержащего дальний план. Фиг.13 показывает график признаков и результаты детектирования для игрового эпизода, содержащего крупный план. Фиг.14 показывает график признаков и результаты детектирования для видеопоследовательности, состоящей из двух игровых эпизодов (как на Фиг.12 (вид 12.1), 13 (вид 13.1)), между которыми расположен один неигровой эпизод (как на Фиг.14 (вид 14.3)).
Блок-схема на Фиг.15 содержит структуру системы анализа видеоконтента. Входной видеопоток 1500 сохраняют в кадровом буфере 1501, из которого кадры, представленные в виде последовательностей пикселей в цветовом пространстве RGB, подаются на вычислитель 1503 низкоуровневых признаков и детектор 1505 смены сцены. Выход вычислителя 1503 низкоуровневых признаков соединен с входом анализатора 1504 признаков, который обрабатывает низкоуровневые признаки и делает предварительное заключение о том, относится ли текущий кадр к игровым эпизодам полевых видов спорта. Детектор 1505 смены сцены анализирует видеопоток и делает заключение о том, принадлежит ли текущий кадр к той же сцене, что и предыдущий. Выходы анализатора 1504 признаков и детектора 1505 смены сцены соединены со входами динамического детектора 1506 типа контента, который уточняет предварительное заключение анализатора признаков. В частности, динамический детектор типа контента распространяет решение, полученное для предыдущего кадра, в случае, если смены сцены не произошло.
Блок-схема вычислителя низкоуровневых признаков показана на Фиг.16. Последовательность 1600 пикселей в цветовом пространстве RGB подается на вход блока 1601, который вычисляет насыщенность 5 для каждого пикселя, и на вход блока 1602, который вычисляет яркость У для каждого пикселя, а также к первому входу классификатора 1603 цветов. Значение насыщенности пикселей из блока 1601 подается на второй вход классификатора 1603 цветов. Значение яркости из блока 1602 подается на третий вход классификатора 1603 цветов и на вход блока 1604 вычисления градиента. Выход классификатора 1603 цветов и выход блока 1604 вычисления градиента соединены с первым и вторым входами блока 1605 статистического анализа соответственно. Насыщенность пикселя S вычисляется в блоке 1601 для каждого пикселя в кадре на основании его величин в цветовых каналах R, G, и В по формуле
где М0 - минимальное из величин в цветовых каналах M0=MIN(R, G, B) а М1 - максимальное из величин в цветовых каналах M1=MAX(R, G, B).
Яркость пикселя Y вычисляется в блоке 1602 для каждого пикселя в кадре на основании его величин в цветовых каналах R, G, и В по формуле
Пример реализации классификатора 1603 цветов показан на Фиг.3. На три входа этого блока подаются величины в цветовых каналах R, G, и В (1701), насыщенность (1702) и яркость (1703). Детектор 1704 белых пикселей анализирует величины R, G и В для каждого пикселя и вычисляет логическую величину, означающую, что данный пиксель будет выглядеть для человека белым. Детектор 1705 ярких и насыщенных пикселей анализирует величины R, G и В для каждого пикселя и вычисляет логическую величину, означающую, что данный пиксель будет выглядеть для человека ярким и насыщенным. Детектор 1706 пикселей тона человеческой кожи анализирует величины R, G, и В для каждого пикселя и вычисляет логическую величину, означающую, что данный пиксель будет выглядеть для человека похожим по цвету на человеческую кожу. Детектор 1707 желтых пикселей анализирует величины R,G, и В для каждого пикселя наряду с его насыщенностью (1702) и яркостью (1703) и вычисляет логическую величину, означающую, что данный пиксель будет выглядеть для человека желтым. Детектор 1708 зеленых пикселей анализирует величины R, G и В для каждого пикселя наряду с его яркостью (1703) и результатом детектирования желтого пикселя, и вычисляет логическую величину, означающую, что данный пиксель будет выглядеть для человека зеленым. Мультиплексор 1709 объединяет выходы детектора 1704 белых пикселей, детектора 1705 ярких и насыщенных пикселей, детектора 1706 пикселей тона человеческой кожи и детектора 1708 зеленых пикселей для всех пикселей и представляет в виде четырех каналов.
Детектор белых пикселей вычисляет выражение W=SRGB >384^M1-M0<30, где SRGB - сумма величин в цветовых каналах SRGB=R+G+B. B. Область, описываемая этой формулой в цветовом пространстве RGB, показана на Фиг.18. Примеры применения этого детектора показаны на Фиг.19. Детектор 1705 ярких и насыщенных пикселей вычисляет выражение BS=М1>150&M1-М0 М1/2. Детектор 1706 пикселей тона человеческой кожи вычисляет выражение Sk=(G 0) .
Область, описываемая этой формулой в цветовом пространстве RGB, показана на Фиг.20.
Детектор 1707 желтых пикселей вычисляет выражение Ye =B<G В<R 9·(М1RG-М0RG)<М0RG -В S>0.2 Y>110, где максимальное значение между величиной в зеленом канале G в красном канале R, а М0RG - минимальное из этих двух чисел. Область, описываемая этой формулой в цветовом пространстве RGB, показана на Фиг.21. Примеры применения этого детектора показаны на Фиг.22.
Детектор 1708 зеленых пикселей вычисляет выражение , где M1RB - максимальное значение между величиной в красном канале R и синем канале В. Область, описываемая этой формулой в цветовом пространстве RGB, показана на Фиг.23. Сравнение результатов детектирования для простого детектора зеленых пикселей и предложенного детектора приведено на Фиг.24.
Блок 1604 вычисления градиента вычисляет производную по яркости DY, производя свертку канала яркости У с линейным ядром .
Блок 1605 статистического анализа вычисляет для каждого кадра следующие низкоуровневые признаки: нормализованное число зеленых пикселей F1, нормализованное число пикселей цвета человеческой кожи F2, среднюю яркость всех пикселей F3, среднюю величину модуля градиента для зеленых пикселей F4, нормализованное число ярких и насыщенных пикселей F5, среднюю насыщенность зеленых пикселей F6, нормализованное число белых пикселей F7 , среднюю яркость зеленых пикселей F8, среднюю величину синего канала для зеленых пикселей F9, компактность гистограммы зеленого цветового канала для зеленых пикселей F 10.
Нормализованное число зеленых пикселей вычисляется согласно выражению , где w - ширина кадра в пикселях, h - высота кадра в пикселях, i, j - координаты пикселя, а - функция, преобразующая логический тип в вещественный по формуле .
Нормализованное число пикселей цвета человеческой кожи вычисляется согласно выражению .
Средняя яркость всех пикселей вычисляется согласно выражению .
Средняя величина модуля градиента для зеленых пикселей вычисляется согласно выражению .
Нормализованное число ярких и насыщенных пикселей вычисляется согласно выражению .
Средняя насыщенность зеленых пикселей вычисляется согласно выражению .
Нормализованное число белых пикселей вычисляется согласно выражению .
Средняя яркость зеленых пикселей вычисляется согласно выражению .
Средняя величина синего канала для зеленых пикселей вычисляется согласно выражению .
Компактность гистограммы зеленого цветового канала для зеленых пикселей Е10 вычисляется за следующие три шага:
1) Строится гистограмма НYGr для величин зеленого цветового канала G для пикселей, классифицированных по цвету как зеленые (Фиг.25);
2) Ширина гистограммы Dвычисляется как разность между самым правым (MHY1) и самым левым (MHY0) ненулевыми элементами гистограммы;
3) Признак F10 вычисляется как пропорция элементов гистограммы, лежащих на расстоянии не больше восьмой части ширины гистограммы от максимума гистограммы:
.
Выходом блока 1605 статистического анализа является 10- компонентный вектор признаков (F1, F 2, F3, F4, F5, F6 , F7, F8, F9, F10 ).
Блок-схема анализатора 1504 признаков приведена на Фиг.26. Признак 2601 "средняя насыщенность зеленых пикселей" F6 и признак 2602 "нормализованное число зеленых пикселей" F1 подаются на первый и второй входы блока 2620 двумерного порогового преобразования, который вычисляет вектор логических величин
(y11, y 12, y13, y14, y21, y 22, y23, y24, y31, y 32, y33, y34, y41, y 42, y43, y44),
где каждая из этих величин yij вычисляется по формуле , где , , , , , , , , , - предопределенные пороговые величины, удовлетворяющие условию , , , ,
, .
Признак 2602 "нормализованное число зеленых пикселей" также подается на вход блока 2611 порогового преобразования, вычисляющего логическую величину N1 =F1<T3, где T3 - предопределенная пороговая величина, удовлетворяющая условию 0<T3 <1.
Признак 2603 "нормализованное число пикселей цвета человеческой кожи" подается на вход блока 2612 порогового преобразования, вычисляющего логическую величину N2=F2<Т4, где Т4 - предопределенная пороговая величина, удовлетворяющая условию 0<T4<1.
Признак 2604 "средняя величина модуля градиента для зеленых пикселей " подается на вход блока 2613 порогового преобразования, вычисляющего логическую величину N3=F4<T5, где Т 5 - предопределенная пороговая величина, удовлетворяющая условию 0<Т5<1.
Признак 2605 "нормализованное число белых пикселей " подается на вход блока 2614 порогового преобразования, вычисляющего логическую величину N4=F7>T6, где Т 6 - предопределенная пороговая величина, удовлетворяющая условию 0<T6<1.
Признак 2603 "нормализованное число пикселей цвета человеческой кожи" и признак 2607 "нормализованное число ярких и насыщенных пикселей" подаются на первый и второй входы блока 2621 двумерного порогового преобразования, который вычисляет вектор логических величин
(z11, z12, z 21, z22), где каждая из этих величин zij i вычисляется по формуле
, где , , , , , - предопределенные пороговые величины, удовлетворяющие условию , , , , , .
Признак 2606 "средняя яркость" F3 и признак 2607 "нормализованное число ярких и насыщенных пикселей" F5 подаются на первый и второй входы блока 2622 линейной классификации, вычисляющего логическую величину Q1=К1·F3 +К2·F5+В>0, где K1, К2 и В - предопределенные константы.
Признак 2607 "нормализованное число ярких и насыщенных пикселей" F5 подается на вход блока 2615 порогового преобразования, вычисляющего логическую величину Q2=F5>Т 9 , где Т9 - предопределенная пороговая величина, удовлетворяющая условию 0<T9<1.
Признак 2608 "средняя яркость зеленых пикселей" подается на вход блока 2616 порогового преобразования, вычисляющего логическую величину P1=F8>T10 , где T10 - предопределенная пороговая величина, удовлетворяющая условию 0<T10<1.
Признак 2608 "средняя яркость зеленых пикселей" подается на вход блока 2617 порогового преобразования, вычисляющего логическую величину P2=F8>T11, где T 11 - предопределенная пороговая величина, удовлетворяющая условию 0<T11<1, T11 T10.
Признак 2609 "средняя величина синего канала для зеленых пикселей " подается на вход блока 2618 порогового преобразования,
вычисляющего логическую величину P3=F9<T12 , где Т12 - предопределенная пороговая величина, удовлетворяющая условию 0<T12<1.
Признак 2610 "компактность гистограммы зеленого цветового канала для зеленых пикселей" подается на вход блока 2619 порогового преобразования, вычисляющего логическую величину P4 =F10<T13, где T13 - предопределенная пороговая величина, удовлетворяющие условию 0<T13 <1.
Выходы блоков 2611, 2612, 2613, 2614, 2615, 2616, 2617, 2618, 2619 порогового преобразования наряду с выходами блоков 2620 и 2621 двумерного порогового преобразования и выходом блока 2622 линейной классификации соединены со входами блока 2623 логического анализа, вычисляющего результат детектирования игрового эпизода полевого вида спорта для текущего кадра исключительно на основании пикселей этого кадра.
Блок логического анализа реализует логическую формулу ,
где V1=N1 N2 N3 N4 z11 и
Блок-схема детектора 1505 смены сцены показана на Фиг.27. Значения 2701 в цветовых каналах R,G и В текущего кадра и центры кластеров сегментации из предыдущего кадра с выхода блока 2703 задержки подаются на вход блока 2702 кластеризации. Центры кластеров сегментации а:(описываются матрицей размером NK на 3 элемента, где NK - количество кластеров, используемых при сегментации:
Блок 2702 кластеризации выполняет одну итерацию алгоритма K - средних, т.е. каждый пиксель Р(i, j) с координатами i, j и описываемый тремя значениями в цветовых каналах Р(i,j)=(R(i,j) G(i, j) B(i, j)) причисляется к кластеру , где - центр k-го кластера, а · - некоторая векторная норма. При этом суммарная ошибка кластеризации вычисляется как . Обновленные центры кластеров вычисляются по формуле , где , , .
Обновленные центры кластеров с выхода блока 2702 кластеризации подаются на вход блока 2703 задержки. Суммарная ошибка кластеризации с выхода блока 2702 кластеризации подается на вход блока 2705 задержки. Суммарная ошибка кластеризации с выхода блока 2702 кластеризации и выход блока 2705 задержки подаются на вход блока 2706, вычисляющего минимум этих двух величин, и на вход блока 2707, вычисляющего максимум этих двух величин. Выход блока 2706 подается на вход блока 2708 усиления, который производит умножение входной величины на заданную константу, превышающую единицу. Выход блока 2708 и выход блока 2707 соединены с первым и вторым входами блока 2709 вычитания, выход которого соединен со входом 2710 порогового преобразования. Выходом 2710 порогового преобразования является логическая величина, принимающая истинное значение в случае, если текущий кадр не принадлежит той же сцене, что и предыдущий кадр.
Блок-схема динамического детектора 1506 типа контента показана на Фиг. 28. Выход блока 1605 статистического анализа соединен с первым входом данных переключателя 2802 и первым входом блока 2803 логической дизъюнкции, выход детектора 2801 смены сцены соединен с управляющим входом переключателя 2802. Выход блока 2803 логической дизъюнкции соединен со вторым входом данных переключателя 2802. На выход переключателя 2802 передается сигнал с первого входа данных, если управляющий вход установлен в логическую единицу, и сигнал со второго входа данных, если управляющий вход установлен в логический ноль. Выход переключателя 2802 соединен с входом линии 2804 задержки. Выход линии 2804 задержки соединен с вторым блоком 2803 логической дизъюнкции и представляет собой выход динамического детектора 1506 типа контента.
Одно из возможных приложений данного изобретения в телевизионном приемнике показано на Фиг.29. Видеосигнал 2900 принимается ресивером 2901 и сохраняется в кадровом буфере 2902. Выход ресивера соединяется с устройством 2905 для обнаружения игровых эпизодов в полевых видах спорта в видеопоследовательностях. Выход кадрового буфера 2902 соединен с блоком 2903 улучшения видео изображений, который производит обработку видеоизображения, в частности, подавление шумов, улучшение контраста, обострение и т.п. Выход устройства 2905 для обнаружения игровых эпизодов в полевых видах спорта в видеопоследовательностях соединен с входом блока 2906 адаптации, который передает требуемые для данного типа изображения настройки алгоритмов обработки видеоизображения в блок 2903 улучшения видео изображений. Выход блока 2903 улучшения видео изображений, состоящий из обработанного видеопотока, подается на устройство 2904 отображения.
Изобретение также может быть использовано при автоматической индексации архивов видеопоследовательностей.
Класс H04N5/66 преобразование электрической информации в световую информацию