Егоров Е.А.

Рязанский государственный радиотехнический университет

Ранжирование онтологий в технологии Semantic Web

 

Онтологии позволяют эффективно выражать и хранить знания о предметной области и являются одними из фундаментальных элементов Семантической паутины. Важнейшее их свойство заключается в возможности повторного использования знаний.

В настоящее время существует огромное множество онтологий в различных форматах: OWL (Full, DL, Lite), RDFS, DAML, FOAF, XML, DC и т.д. Современные системы информационного поиска зачастую ограничиваются лишь традиционными страницами Всемирной паутины, не позволяя осуществлять поиск онтологий и других семантических документов.

Существующие средства поиска онтологий, как правило, основаны на классических алгоритмах и методах поиска по ключевым словам, которые отличаются невысокой полнотой и точностью. Пользователю сложно выбрать подходящую онтологию из множества альтернативных вариантов, содержащих классы с текстовыми полями, совпадающими с одним из ключевых слов. Указанная проблема становится все более актуальной с ростом количества опубликованных документов в Семантической паутине. Становится все сложнее находить и повторно использовать существующие базы знаний.

Для реализации инициативы Semantic Web необходимо создание надежных средств поиска онтологий. Но прототипы таких систем [1, 2] возвращают огромное количество результатов. С увеличением числа онтологий качество поиска будет ухудшаться. Для решения указанной проблемы требуется разработать метрики, алгоритмы и методы эффективного ранжирования онтологий.

Качественное ранжирование результатов позволит пользователю сэкономить время и силы, избавит его от необходимости детально исследовать каждую найденную онтологию, что достаточно трудоемко.

В докладе рассматривается подход к ранжированию онтологий, основанный на применении классических методов, оценивающих семантическую схожесть онтологии и заданного набора поисковых терминов.

Каждая онтология оценивается независимо от остальных. Предлагается рассчитывать ряд аналитических критериев качества онтологии. Результирующие значения каждого критерия объединяются для расчета итогового значения ранга онтологии.

Средний уровень детализации концепта. Качество онтологии зависит от того, насколько хорошо и обширно представлена информация об отдельных элементах предметной области. Чем детальнее информация о сущностях, хранящихся в ней, тем выше качество онтологии. Предлагается рассчитывать среднее число подклассов и связей с другими сущностями для концептов по следующей формуле:

, где

 - значение среднего уровня детализации концепта;

 - количество концептов в онтологии;

 - количество подклассов концепта ;

 - количество связей концепта  с другими концептами.

Семантическая плотность концептов. Крайне важно, чтобы концепты онтологии, соответствующие терминам поискового запроса, были максимально близки семантически. Это будет свидетельствовать о высокой степени релевантности найденной онтологии и наличии в ней семантического ядра. Высокая плотность концептов должна повышать ранг онтологии. Предлагается рассчитывать значение показателя по следующей формуле:

, где

 - взвешенный кратчайший путь между концептами  и ;

 и  - концепты, содержащие текстовые элементы, совпадающие с одним или несколькими ключевыми словами поискового запроса;

 - общее количество кратчайших связей между всеми релевантными концептами  и .

Количество релевантных классов онтологии. Очевидно, что онтология, охватывающая все термины поискового запроса, является предпочтительной. Чем больше концептов, входящих в нее, содержат текстовые элементы, совпадающие с ключевыми словами, тем выше релевантность онтологии. Предлагаемая мера подсчитывает число таких сущностей:

, где

 - концепт онтологии;

 - множество текстовых элементов сущности ;

 - множество ключевых слов поискового запроса.

Общий ранг онтологии. После расчета значений всех вышеуказанных критериев производится вычисление итогового ранга онтологии. Вклад отдельных составляющих ранга неравнозначен. Также значения показателей необходимо нормировать, поэтому вводятся дополнительные коэффициенты, позволяющие гибко варьировать значение ранга для поиска специфических онтологий. Расчет осуществляется по следующей формуле:

, где

,  и  - нормирующие коэффициенты.

Конкретные значения коэффициентов определяются экспериментально.

 

Библиографический список

1.                 L. Ding, T. Finin, A. Joshi, R. Pan, R. S. Cost, Y. Peng, P. Reddivari, V. C. Doshi, and J. Sachs. Swoogle: A semantic web search and metadata engine. In Proc. 13th ACM Conf. on Information and Knowledge Management, Nov. 2004.

2.                 Y. Zhang, W. Vasconcelos, and D. Sleeman. Ontosearch: An ontology search engine. In Proc. 24th SGAI Int. Conf. on Innovative Techniques and Applications of Artificial Intelligence, Cambridge, UK, 2004.