СайтРазбор.ру » Интернет

Поисковики учатся смотреть и слушать

  

Изображение в посте Поисковики учатся смотреть и слушать

Microsoft постоянно совершенствует свой поисковый движок Bing для более точного поиска видеоконтента. Google тем временем готовится к запуску системы интернет-телевидения в этом году, используя свои технологии поиска правильного материала. Об этом и других разработках — в переводе статьи портала The Informative Report.

Ключевые возможности этих поисковиков относятся к текстовому поиску, но поиск видео выпадает из общей картины. Это происходит потому, что сортировка видеоконтента с использованием метаданных — ключевых слов, ассоциированных с тем или иным видеороликом — это как поиск через переводчика. «Теги это решение другого человека о том, что содержится в видео, и потому поисковая система не всегда выдаст релевантные результаты, — говорит Суранга Чандратиллейк (Suranga Chandratillake), руководитель онлайн-видео и -аудио поисковой системы Blinkx. — Для того, чтобы поиск видео стал действительно эффективным, необходимо точно определить, что в реальности происходит на съемке».

Blinkx использует алгоритмы распознавания речи для непосредственного сканирования видео. Создаваемые транскрипты дают на выходе больше релевантных данных, чем текстовые системы поиска. Алгоритмы Blinkx пытаются разложить фрагмент с речью на фонемы — небольшие звуковые фрагменты, в которых есть отдельные слова. А инструменты для распознавания речи пытаются пересобрать предложение заново, используя эти фонемы. Однако, этот подход нельзя назвать верным. «Два отдельных предложения могут содержать неотличимые фонемы, — уверяет Чандратиллейк, — так что фраза «распознать речь» может транскрибироваться как «разобрать меч». Алгоритм вполне может ошибиться».

В Blinkx работают над усовершенствованием алгоритма с помощью механизмов обратной связи. Например, добавляемые пользователями тэги помогают алгоритму понять, какой из двух похожих транскриптов более верный.

«Недостатком такого типа анализа фонетической транскрипции является то, что он подходит для видео с хорошим качеством звука», — говорит Дэвид Гиббон (David Gibbon) из исследовательской лаборатории AT & T в Миддлтауне, Нью-Джерси. «Реальная проблема пользовательского видео в том, что качество аудио-дорожки может быть далеко от идеала, — говорит он, — и такое видео составляет большую часть контента». Тем не менее, можно было бы использовать сами изображения в качестве части поискового запроса. В следующем году исследовательская организация министерства обороны США DARPA завершит свою программу поиска и анализа изображений и видео, проект Virat ценой в $20 млн.: он использует алгоритмы компьютерного «зрения» для анализа кадров с важных событий.

На подходе также проекты поскромнее. «Легко заснять серию статичных изображений, которые потом преобразуются в видео, — говорит Мартин Халви (Martin Halvey), ученый из Университета Глазго, Великобритания. — Инструменты анализа изображения затем ищут нужные кадры, идентифицируя объекты, лица, текстуры и цифры».

«Это не просто при больших объемах информации, поскольку для постоянного сравнения нужны огромные вычислительные мощности, способные одновременно работать с большим количеством файлов», — говорит Халви.

Другой подход — семантические запросы — может быть ответом. «Поисковый движок учится распознавать семантические образы, такие как «трава», «футбол», «стадион», используя так называемые «суперметоды обучения», — говорит Марсель Уорринг (Marcel Worring), мультимедиа-исследователь Университета Амстердама из Нидерландов. Во время обучения система получает примеры образов. А программные алгоритмы определяют образ по цвету, текстуре или форме для создания моделей каждой из них. «Так что с новым видео модель сможет применяться и автоматически вычислить вероятность того, присутствует ли какой-нибудь образ в этом видео», — говорит Уорринг.

Сильной стороной подхода с использованием семантических запросов является то, что они могут работать на нескольких уровнях. Это позволяет эффективно сузить область поиска. Уорринг и его коллега Джун Ву (Jun Wu) создали относительно простой двухслойный алгоритм, который отличает видео сначала по жанру, например, новости или спортивные соревнования. Затем система уточняет результаты поиска в соответствии со стилем контента, выявляя схожие действия на видео. Ву и Уорринг протестировали систему на более чем 200 клипах продолжительностью от 2 до 31 минуты, а также различных жанров, в


Обязательно подпишитесь на нашу ленту.
Ссылка: http://www.siterazbor.ru/poiskoviki-uchatsya-smotret-i-slushat

Скажите что-нибудь

Еще:

© 2009-2010 СайтРазбор.ру (SiteRazbor.ru) - обзоры полезных сайтов и свежие новости Интернета
Все записи