|
|
|||||
Технологии
Предложено оригинальное решение проблемы аннотирования изображений, без чего невозможно создание "удобопонятных" цифровых фотоальбомов, архивов, или, к примеру, библиотек снимков, пишет журнал New Scientist.
На жестких дисках ПК во всем мире цифровые снимки занимают с каждым днем все больше места. Разобраться с ними бывает все труднее - мало кто дотошно классифицирует и описывает их, да и не всегда это возможно, а процедуры автоматического дешифрирования и распознавания образов пока что далеки от совершенства. Отсутствие описания снимков резко усложняет процедуру поиска нужного. Свой рецепт выхода из ситуации предложила Маргарет Флек (Margaret Fleck) из лаборатории Hewlett-Packard в г. Пало-Альто (Калифорния). Она предлагает использовать для этой цели реплики тех, кто просматривает фотографии на компьютере. По мнению г-жи Флек, эти реплики, хотя и не описывают фотографию вполне корректно, тем не менее, содержат сведения о событиях, предшествовавших моменту съемки или последовавших за ним - иными словами, передают контекст. Маргарет Флек написала программу, которая записывает реплики на диск компьютера, распознает речь с помощью средств voice recognition и выделяет ключевые слова, используемые в дальнейшем для аннотирования текста. Тестовая версия программы, для работы которой необходим ПК с микрофоном, автоматически начинает запись речи с момента открытия цифрового фотоальбома, фиксируя все комментарии. Если пауза длится дольше 30 секунд, программа отключается. Речь дешифрируется в реальном масштабе времени, из нее выделяются такие ключевые слова, как, к примеру, "Венеция", "медовый месяц", "Рождество" или другие. Эти ключевые слова и служат для индексации фотографий. Впоследствии, чтобы найти нужную фотографию, нужно просто ввести определенные слова в окошко поиска. По мере совершенствования средств распознавания речи система сможет генерировать длинные и подробные описания каждой сцены. Уже сейчас имеющиеся на рынке программы обеспечивают распознавание почти 99% речи, однако нуждаются в настройке на голос конкретного человека. Г-жа Флек же намерена создать систему, способную распознавать речь всех, кто высказывается о фотографии, а не только лишь того человека, кто сидит у микрофона. Распознавание речи нескольких человек пока что осуществляется со значительно меньшей точностью, однако диалоги при непринужденной беседе намного более информативны. Маргарет Флек воспользовалась программой распознавания речи, разработанной в самой HP. Несмотря на меньшую эффективность распознавания, ей удается собрать достаточно ключевых слов для аннотирования фотографий. "Это в самом деле остроумный способ аннотирования изображений", - полагает Мор Наамен (Mor Naaman) из Стэндфордского университета. Сам он пытается решить ту же проблему иным способом - фиксируя с помощью GPS-приемника, встроенного в фотокамеру, координаты места съемки. Сама же г-жа Флек резонно полагает, что и в этом случае панацеи не найти, и действительно разумным решением будет сочетание нескольких методик аннотирования. Если предложенная Маргарет Флек методика окажется действительно эффективной, она откроет возможности создания обширных библиотек цифровых изображений разного рода. Правда, она не лишена субъективизма, и характер получаемых таким образом аннотаций будет сильно зависеть от интеллектуальных особенностей участников обсуждения.
Рекомендуем
Обсуждение новости
|
|