|
|
|||||
Технологии
Компания IBM в понедельник огласила планы по распространению технологии поиска по понятиям и фактам, применяющейся при обработке корпоративной информации.
Такие поисковые механизмы должны прийти на смену более простому и широко используемому ныне поиску по ключевым словам. Хотя простой, но мощный механизм поиска по ключевым словам существенно повлиял на то, как пользователи интернета находят и получают информацию, IBM стремится предложить новый инструмент, способный находить информацию в огромных массивах корпоративных данных. По словам Артура Чикколо (Arthur Ciccolo), главы отделения поисковых технологий IBM Research, ведущие массовые поисковые машины – Google, Yahoo и Microsoft – ориентированы на открытый сегмент интернета, а не на поиск служебной информации. IBM намерена предоставить сторонним разработчикам программного обеспечения свою архитектуру управления неструктурированной информацией (UIMA). Эта технология позволяет анализировать содержащийся в документах текст и распознавать скрытые в нем понятия, отношения и факты. По заявлениям IВM, около 15 компаний, включая Attensity, ClearForest, Cognos, Endeca, Factiva, Kana, Inquira, iPhrase, Inxight, nStein, QL2, SAS, Schemalogic, Semagix, SPSS Inc. и Temis, планируют использовать UIMA в качестве механизма поиска и анализа текста в неструктурированных данных. Также IBM предлагает ПО WebSphere OmniFind, позволяющее пользователям осуществлять поиск в неструктурированных данных различных форматов и на различных языках, содержащихся в базах данных, файлах электронной почты, аудиозаписях, изображениях и видеофрагментах. По словам Чикколо, UIMA упростит совместную работу приложений различных разработчиков, предназначенных для управления знаниями, поиска, коммерческой разведки и анализа текстов. Данный механизм поиска корпоративных данных разрабатывался IBM Research на протяжении более чем четырех лет, при участии ученых крупнейших университетов США и при поддержке Управления перспективных исследований Министерства обороны США (DARPA). В числе прочих участников разработки UIMA – военные подрядчики Science Applications International, BBN Technologies и MITRE, а также медицинская фирма The Mayo Clinic. Один из примеров применения новой технологии – совместное использование программных продуктов Attensity, ClearForest, iPhrase, Kana и IBM производителями потребительских товаров для обнаружения в Сети жалоб покупателей на дефектные изделия и затем поиска внутренней корпоративной информации, помогающей максимально быстро решить возникшую проблему. В последнее время распространение неструктурированной информации в Сети в виде документов, изображений, комментариев и примечаний, сообщений электронной почты, а также видео- и аудиофайлов происходит взрывными темпами. Около десяти лет назад ряд разработчиков СУБД, включая Informix, которая затем была приобретена IBM, заявили о том, что в скором времени проблема неструктурированных данных будет решена. Тем не менее, ныне по оценке аналитиков до 85% корпоративных данных хранится в неструктурированном виде вне баз данных. Ожидается, что технология UIMA будет распространяться, начиная с конца 2005 года, с помощью сайта SourceForge, на котором размещается ПО с открытым исходным кодом. Структуру UIMA можно уже сейчас бесплатно загрузить с сайта IBM AlphaWorks.
Рекомендуем
Обсуждение новости
|
|