Д. Шестаков, Н. Воронцова. Структура русскоязычной части глубинного Веба

Структура русскоязычной части глубинного Веба

Авторы: Денис Шестаков1, Наталья Воронцова2

1. University of Turku, Finland, da_shestakov@yahoo.com

2. Московская Медицинская Академия им. И.М.Сеченова, n_vorontsova@myrealbox.com

Авторы выражают признательность компании «Яндекс» за прове-дение конкурса научных стипендий, за предоставленную стипендию (заявка 102104) и за доступ к данным.

Аннотация

ЗначительнаячастьВеба, «скрытая» запоисковымивеб-формами, неиндексируетсясовременнымипоисковымисистемами. «Скрытая» частьВебаизвестнаподназваниемглубинныйВеб. Веб-страницывглубинномВебеявляютсядинамическимиипредставляютсобойрезультаты, возвращаемыепоисковымивеб-формами. Внашейра-боте, мыизучалирусскоязычнуючастьглубинногоВеба (RDW). Основнойцельюбылоопределениечислаглубинныхсайтов, распо-ложенныхв RDW. Данноеисследованиеявляетсяпервойработой, котораярассматриваетопределеннуючастьглубинногоВеба, пред-ставляющуюинтересносителямкакого-тоодного (неанглийского) языка.

1.Введение

Благодаряразвитиювеб-технологийвнастоящеевремяВебпред-ставленстраницами, каксостатичным, такисдинамичнымсодер-жанием. Динамичностьведеткбольшейинтерактивностивеб-страниц, но, втожевремя, ктому, чтомногиединамическиестрани-цынеиндексируютсясовременнымипоисковымисистемами(на-пример, Google.comилиYandex.ru). Поисковыесистемыиндексиру-юти, значит, позволяютпроизводитьпоисктолькосреди «индекси-руемой» частиВеба, известнойкакиндексируемыйВеб (publicly in-dexable Web) [13]. ВиндексируемыйВеб, вчастности, невходятог-ромноеколичествовеб-страниц, возвращаемыхпоисковымивеб-формами.

* Авторы выражают признательность компании «Яндекс» за прове-дение конкурса научных стипендий, за предоставленную стипендию (заявка 102104) и за доступ к данным.

ЗначительнаячастьВеба «скрыта» запоисковымивеб-формами, которыеявляютсяединственнымивеб-интерфейсамиксотнямты-сяч (около 450000 согласно [5]) базданныхдоступныхонлайн. «Скрытая» (находящаясязапоисковымивеб-интерфейсами) частьВебаизвестнакакминимумподтремяназваниями: скрытыйВеб (hidden Web) [8][16], глубинныйВеб (deep Web) [2][18] (используе-моевданнойработе) иневидимыйВеб (invisible Web) [17]. Веб-страницывглубинномВебе (далеесокращенноDW) являютсяди-намическими 1 и представляют собой результаты, возвращаемые по-исковыми веб-формами. DW является очевидным и интересным объектом для исследования, так как для большинства веб-пользователей поиск нужной информации в Вебе основывается ис-ключительно на результатах, возвращаемых той или иной поисковой системой. В результате игнорируется огромное число веб-документов из DW.

ВданнойработемыизучалирусскоязычнуючастьглубинногоВеба (далеесокращенноRDW). Нашейцельюбылоколичественноеоп-ределениеосновныхпараметров RDW. Мыполагаем, чтополучен-ныехарактеристикивместескраткимвведениемв DW будутинте-ресныширокомукругурусскоязычныхчитателей. Помимоэтого, мысоставилинебольшойсписокрусскоязычныхресурсов DW, ко-торыйможетиспользоваться (идополняться) придальнейшемизу-чении RDW/DW.

Насколькомызнаем, данноеисследованиеявляетсяпервойработой, котораярассматриваетлишьопределеннуючасть DW – аименночасть, котораяпредставляетинтереспреимущественноносителямкакого-тоодного (неанглийского) языка. Выборименнорусскоя-зычнойчасти DW объясняетсятем, чтодляобоихавтороврусскийявляетсяроднымязыком, атакженаличиемдоступакданным, кото-рыеотносятсякрусскоязычномуВебуибылипредоставленырус-скоязычнойпоисковойсистемойЯндекс.

Нашотчетсостоитизнесколькочастей. Вследующемразделемыдадимболееподробноеописаниепонятия «глубинныйВеб». Далее, мыпредставимобзорлитературы, посвященнойизмерениюхарак-теристик DW иизвлечениюинформациииз DW. Раздел 4 расскажетобопределенииосновныххарактеристик DW. Описаниеэкспери-ментовирезультатовдановразделе 5. Разделы 6 и 7 представятна-шуинтерпретациюполученныхрезультатовизаключениесоответ-ственно.

Далее документ содержит следующие разделы:

2. Глубинный Веб

3. Краткий обзор литературы о DW

4. Определение основных характеристик DW

4.1. Количество онлайн баз данных

4.2. Размер DW

5. Эксперименты

5.1. Определение количества ресурсов RDW (оценка снизу)

5.2. Определение количества ресурсов RDW (выборка из хостов)

 

Скачать PDF-файл с полным текстом документа (514 кб)

 

 

 

 

Перейти к разделу сайта Ющука Евгения Леонидовича «Конкурентная разведка на предприятии а также вопросы промышленного шпионажа » >>

Перейти к разделу сайта Ющука Евгения Леонидовича «Интернет и компьютеры как инструменты конкурентной разведки» >>

Перейти к разделу сайта Ющука Евгения Леонидовича «Вопросы стратегии и геополитики глазами специалистов разведки. Библиотеки. Полезные ресурсы » >>

Перейти к разделу Сайта Ющука Евгения Леонидовича «Официальная информация о российских предприятиях и гражданах в открытом доступе » >>

 

Открытый мастер-класс Ющука Евгения Леонидовича. Ющук Евгений Леонидович «Конкурентная разведка против PR в живом эфире». В порядке ответа на
«Черный список», автор которого Кузнецов Сергей Валентинович

Блог поддержки открытого мастер-класса Ющука Евгения Леонидовича. Ющук Евгений Леонидович «Конкурентная разведка против PR в живом эфире». В порядке ответа на
«Черный список», автор которого Кузнецов Сергей Валентинович

 

Ющук Евгений Леонидович. Ющук Евгений Леонидович (Ющук Е.Л., Евгений Ющук, Evgeny Yushchuk, Yushchuk Evgeny Leonidovich) Конкурентная разведка для тех, кто работает в российском бизнесе. Конкурентная разведка как продолжение маркетинга.