Інформаційний пошук в Інтернет: засоби і технології.

Раєвский М.В., к.т.н., Кушніров С.О.

Київський Національний Університет Технологій та Дизайну

 

Введення

Інтернет на сьогоднішній день – це величезна кількість інформації, що відображає всі сторони життя людства. Одним з важливих питань для тих, хто цікавиться цією інформацією, є можливість знайти її в цій мережі. Основним засобом відповіді на це питання є "пошукові машини". Цей термін приховує великий набір спеціальних служб, які забезпечують доступ до інформації. Але вони також мають свої недоліки. Складність використовування для здобуття точної відповіді, релевантної запиту, необхідно уміти використовувати різних логічних операторів, знати особливості даної системи; значний об'єм інформаційного «шуму», тобто здобуття непотрібної інформації.

 

1.     Постановка задачі

     Мета, якої потрібно досягти при вирішенні даних питань - оптимізувати пошук інфортмації.

Задача, яка стоїть в основі дослідження - порівняльний аналіз існуючих методів оптимізації; розробка моделі нового методу оптимізації пошуку інформації; провести аналіз ефективності методу.

 

2.     Загальні тенденції

Основними аспектами ефективного пошуку є: знання про існуючі машини пошуку; додавання ними відомостей про ресурси мережі; повідомлення машини властивостей шуканих ресурсів; результат пошуку; залежність результату і можливість його поліпшення; технологія ефективного пошуку. 

На сьогодні можна виділити чотири типів пошукових машин:

-машини з класифікованими списками ресурсів;

-машини, що використовують запити про ресурси;

-машини-каталоги;

-мета-машини;

Найбільш відомим прикладом першого типа пошукових машин є пошукова система Yahoo. Користувачеві надається набір інформації про ресурси мережі у формі систематично організованих і систематично зв'язаних наборів відомостей, кожен з яких може мати досить складну ієрархічну структуру.

Система Alta Vista приклад використання другого типа. Запитальні машини використовують алгоритми пошуку ресурсів, що виконується на основі інформації, що задається користувачем, переважно у вигляді тексту.

Відмінність між машинами двох відмічених типів не є дуже помітною, оскільки машини з класифікованими списками допускають пошук по запитах певних видів. У свою чергу, запитальні машини часто містять класифіковані списки ресурсів, але бідніші за змістом. Машини кожного з цих типів можуть бути орієнтовані як на спеціалізований пошук, так і на пошук загального характеру.

Для забезпечення більшої доступності існуючих машин були створені машини-каталоги і мета-машині.

Перші з них утворюють третього типа пошукових машин. Кожна така машина є списком пошукових машин, орієнтованих на обслуговування певних потреб (наприклад, пошук промислових компаній, осіб певної професії). Користувачеві машини-каталоги або надають списки пошукових систем, або дозволяють направити запит конкретній машині, або дають можливість вказати зону пошуку і властивості шуканого ресурсу.

Четвертого типа представляють мета-машині, які зазвичай направляють запит користувача групі з 15 - 30 машин, але інколи дозволяють йому вибрати конкретну машину.

Результати роботи машин-каталогів і мета-машин - це списки, які є або сумішшю результатів від всіх використаних машин (з можливим дублюванням відомостей), або відокремлені один від одного результати, отримані кожною машиною.

Кожна машина пошуку містить бази даних, що відображують вміст web-сторінок або інших ресурсів мережі. Для вистави в базах сторінка або узея мають бути зареєстровані в пошуковій машині. Процедура реєстрації надається будь-якою пошуковою службою, але більшість з них автоматично поповнюють свої бази даних за допомогою спеціальних агентів-роботів, які регулярно відвідують вузли і сторінки (порядка 6000000 об'єктів в день), просліджують заслання, відшукують нові або такі, що змінилися ресурси і направляють отримані відомості в бази.

Різноманітність вживаних механізмів пошуку заснована на пропонованому машинному різноманітті способів обробки запитів. Використовуються двійковий пошук (включаючи вкладення дужок), специфікації термінів, які повинні або не мають бути присутніми в шуканому матеріалі, усікання запиту (зовнішнє і внутрішнє), автоматичне породження запиту по його частині, пошуки по точному і приблизному збігах, пошук на основі виділення спеціалізованих полів, пошук на основі обмежень значень.

Результати пошуку, отримані машиною, зазвичай ранжирувані по мірі зв'язаності з вмістом і формою запиту. Для початкової частини підсумкового списку зазвичай надаються додаткові можливості сортування.

Основним принципом роботи алгоритму пошукової системи є формування рейтингу сайту на підставу ключового запиту. Виходячи з цього алгоритмом враховує наступні чинники для фільтрації: кількість ключових слів на сайті, кількість ключових слів на сторінці, співвідношення загального числа слів на сайті до кількості ключових слів на сайті, індекс цитування, популярність тематики сайту,  загальна кількість веб-сторінок сайту, застосування стилю до веб-сторінок, об'єм тексту сайту, об'єм сайту, об'єм кожної веб-сторінки, об'єм тексту кожної веб-сторінки, вік сайту і ряд інших технічних параметрів, для точнішого пошуку.

3. Метод оптимізації

Завдання підвищення точності пошуку в Інтернеті не завжди добре вирішується чисто математичними методами. Стосовно пошуку можна сказати, що означаємим є шуканий сенс, а що означає – вся сукупність тих, що виражають цей сенс пропозицій. Пропозиції мови, що виражають один і той же сенс, можуть дуже сильно відрізнятися один від одного. Завдання пошукової машини у такому разі – розпізнати сенс, ігноруючи формальні відмінності.

У найзагальнішому вигляді можна сказати, що лексичні функції – це тривіальні сенси, словесне вираження яких в тексті залежить від того, при якому конкретному слові цей сенс виражається. Для деяких фрагментів лексичної системи мови розроблені лексичною семантикою правила вигляду: «При слові X сенс f1 виражається словом X´, при слові Y сенс f1 виражається словом Y´». Ця опція реалізована на базі лінгвістичного процесора ЕТАП-3. Її основна фунция в доповненні двух- або трехсловних пошукових запитів про числове значення параметра до неповної пропозиції. Алгоритмічна організації перефразовування заключається в побудові куща перефраз, що грунтується на інформації про лексичні функції. Якщо яка-небудь лексична функція має декілька значень, то система перефразовування будує пропозиції по черзі зі всіма значеннями. Такий спосіб дає можливість збільшити точність результатів пошуку по запитах, предпологающим чисельні відповіді. В разі точного запиту кількість релевантних. Також лексична система має можливість перекладу отриманих шляхом перефразовування словосполук на англійську мову.

Висновок

Безперечно, дана тема дуже актуальна у наш час, так як мережа Інтернет з кожним днем усе більше наповнюється новою інформацію і ії повинні мати можливість знайти. Саме тому, необхідно оптимізовувати, та тим самим полегшувати пошук інформаціі для користувачів мережі.

Список літератури

1.                Барахнин В.Б., Федотов А.М. Ресурсы сети Интернет как объект научного исследования. – 2008. - №1. – С.70-77.

2. Сегалович И.  В.  Как работают поисковые системы  //  Мир  Internet.  – 2002.  – № 10.

3. Когаловский М.  Р.  Перспективные технологии информационных систем.  М.   : ДМК Пресс : Компания АйТи, 2003.

4. Цинман Л.Л., Сизов В.Г. Система ЭТАП: процедуры ослабления синтаксических правил и их использование // Труды Международного семинара Диалог’99, с. 321-326, 2009.

5.  Браун, Маркус. Методы поиска информации в Интернете, с.144, 2005.