Современные информационные технологии/3.Программное обеспечение

 

Вішка Н., Білас О.

Національний університет «Львівська політехніка», Україна

Агрегація та аналіз комплексних характеристик Інтернет-ресурсів

 

Вступ

За даними мережевого сервісу Netcraft станом на початок квітня 2011 року в мережі Інтернет функціонувало понад 312 млн. Веб-ресусів [1]. Згідно звіту компанії Alexa найпопулярнішим Веб-ресурсом у світі є пошукова система (ПС) Google.com [2]. Саме тому більшість користувачів вперше потрапляють на новостворені Веб-ресурси із ПС. Від позиції Інтернет-ресурсу у ПС, прямо пропорційно залежить його популярність серед користувачів та прибутковість.

Для покращення позицій Інтернет-ресурсів використовують промоційну інформацію. До найпопулярніших видів промоційної інформації належать контекстна та медійна. Вони в свою чергу поділяються на декілька типів. Для, того щоб розмістити на своєму Веб-ресурсі чи обмінятись із іншим ресурсом промо-інформацією використовують уже існуючі системи обміну та розміщення промоційної інформації. Найвідоміші системи обміну та розміщення промоційної інформації, котрі працюють на українському ринку:

·        Sape.ru – система купівлі і продажу гіпертекстових посилань та статтей.

·        Linkfeed.ru – система купівлі і продажу гіпертекстових посилань та статтей.

·        Liex.ru – система купівлі та продажу гіпертекстових посилань та статтей.

·        Buypost.ruсистема купівлі та продажу гіпертекстових посилань.

·        Trustlink.ru – система купівлі та продажу гіпертекстових посилань.

·        Mainlink.ru – система купівлі та продажу гіпертекстових посилань, розміщення контекстних оголошень.

·        Banner.ua – національна банерна мережа.

·        Google Adwords та Adsens – системи купівлі та продажу (відповідно) контекстної реклами від розробників ПС Google.

·        Яндекс Директ – система продажу контекстної реклами від розробників ПС Яндекс.

Проте системи обміну та розміщення промоційної інформації мають ряд недоліків:

·        Переважно система працює одночасно з одним-двома типами промоційної інформації.

·        Через десятки різноманітних критеріїв відбору у користувачів виникають проблеми із підбором промо-ресурсів (тут і далі промо-ресурсами будемо називати інформаційні Інтернет-ресурси на яких буде розміщатись промоційна інформація, а Веб-ресурсами – Інтернет-ресурси для яких буде розроблятись стратегія розвитку).

Також існують системи, котрі синхронізуються із деякими системами обміну та розміщення інформації і автоматизують процес популяризації Веб-ресурсу.

Найпопулярніші системи автоматичної популяризації:

·        Seopult.ru – працює з Sape, Linkfeed, Buypost, Trustlink.

·        Rookee.ru – працює з 9 різними системами обміну та розміщення промо-інформації.

У систем автоматичної популяризації спостерігається ряд недоліків.

·        Класифікація та унікальний підбір промо-ресурсів для кожного конкретного проекту повністю покладений на систему. Це не гарантує, що будуть обрані лише якісні промо-ресурси.

·        Кількість типів промо-інформації, з якою працюють системи автоматичної популяризації не перевищує 3.

Отже, задача формування конкретного набору параметрів, їх аналізу та оптимальної класифікації промо-ресурсів є актуальною і має практичне значення. Для багатофакторного аналізу параметрів та візуалізації кількісних і якісних характеристик великої кількості промо-ресурсів доцільно використати штучні нейронні мережі (ШНМ).

 

Самоорганізаційні карти Кохонена

Важливою особливістю ШНМ є здатність до навчання, завдяки якому вони покращують свої властивості [3].

За способами навчання ШНМ поділяються на два типи:

·        Навчаються з учителем;

·        Навчаються без учителя (на основі самоорганізації).

Для даної задачі зручніше буде використовувати ШНМ другого типу, тому що вони проявили себе краще у задачах кластеризації та організації інформації [3].  Найуживанішою ШНМ, яка базується на самоорганізації вважається самоорганізаційна карта Кохонена (self-organizing map, SOM). Самоорганізаційні карти Кохонена дають змогу провести кластерний аналіз та візуалізувати багатовимірні дані у двовимірному просторі. Такий аналіз є  важливим при дослідженні економічних, екологічних, соціальних систем, тощо.

Самоорганізаційна карта Кохонена представляє собою мережу, яка складається з двох шарів: вхідного і вихідного. Особливістю самоорганізаційних карт Кохонена є те, що на вхід може подаватись інформація великої розмірності, а на виході, як правило, отримується двохрозмірна дискретна карта.

На вхід подаватиметься n-вимірні вектори стовпці  , де nрозмірність вхідного простору. Зазвичай нейрони розміщуються у прямокутних або шестикутних гратках. При цьому нейрони взаємодіють один з одним. Величина цієї взаємодії відображається на картах. При цьому кількість нейронів у гратках визначає ступінь деталізації результатів роботи алгоритму, а також від цього залежить точність побудованої карти.

Перед початком навчання карти необхідно задати початкові вагові значення нейронів. Для даної задачі спочатку варто присвоїти вагам малі випадкові величини.

Даний метод показує хороші результати при пошуку та аналізу закономірностей у великих об’ємах інформації [4]. Тому було прийнято рішення для вирішення задачі кластеризації Інтернет-ресурсів обрати саме метод самоорганізаційних карт Кохонена.

 

Значущі характеристики Інтернет-ресурсів

Наступною задачею дослідження є підбір характеристик Інтернет-ресурсів.  Кожен Веб-сайт має багато різносторонніх параметрів. Для даної задачі кластеризації буде важливо оцінити Інтернет-ресурс в якості промо-ресурсу.

Чим більшою буде кількість таких параметрів тим трудомісткішим і ресурсоємним буде процес їх збору та аналізу. Саме з цієї причини було відібрано важливі інформативні характеристики.

Список характеристик Інтернет-ресурсів, які будуть використовуватись для кластерного аналізу:

·        Яндекс ТІЦ;

·        Google PR;

·        Наявність у каталозі Яндекса (http://yaca.yandex.ru);

·        Наявність у каталозі DMOZ (http://dmoz.org);

·        Кількість проіндексованих сторінок у ПС Яндексі (http://yandex.ru);

·        Кількість проіндексованих сторінок у ПС Google (http://google.com);

·        Кількість проіндексованих сторінок у ПС Yahoo (http://yahoo.com);

·        Кількість посилань на Інтернет-ресурс із інших сайтів за даними ПС Yahoo (http://yahoo.com);

·        Кількість посилань на Інтернет-ресурс із інших сайтів за даними ПС Google (http://google.com);

·        Кількість посилань на Інтернет-ресурс із інших сайтів за даними сервісу Яндекс.Вебмастер (http://webmaster.yandex.ru/);

·        Деякі показники Інтернет-статистики (http://liveinternet.ru):

o       Відвідуваність;

o       Параметр відмови (процент відвідувачів, котрі покинули сайт після перегляду однієї сторінки);

o       Демографічні показники;

o       інше.

Даний список характеристик Інтернет-ресурсу не є остаточним і може змінюватись в залежності від їх впливу на результати кластеризації.

 

Висновки

Аналіз на основі карт Кохонена дасть можливість провести кластеризацію та візуалізувати багатовимірні дані - показники функціонування інтернет ресурсів. На їх основі відслідкувати динаміку зміни ситуації протягом певного періоду та проаналізувати стан ресурсу, що сприятиме  ефективному позиціонуванню сайту.

 

Список використаної літератури

1.   Internet Research, anti-Phishing and PCI Security  Services [Електронний ресурс] // Режим доступу: http://news.netcraft.com/archives/2011/04/06/april-2011-web-server-survey.html.

2.   Alexa the Web Information Company [Електронний ресурс] // Режим доступу: http://www.alexa.com/.

3.   Kohonen T. Self-Organizing Maps / Teuvo Kohonen.- Berlin: Springer, 2000.- 521 p.

4.    Білас О.Є. Візуалізація результатів теплового проектування мікроелектронних пристроїв самоорганізаційними картами / Білас О.Є., Левус Є.В. // Вісник Національного університету “Львівська політехніка”: Комп’ютерні системи проектування теорія і практика.- № 626.- 2008.- С. 48-54.