Структура русскоязычной части глубинного Веба

 

Авторы: Денис Шестаков1, Наталья Воронцова2

1. University of Turku, Finland, da_shestakov@yahoo.com

2. Московская Медицинская Академия им. И.М.Сеченова, n_vorontsova@myrealbox.com

Авторы выражают признательность компании «Яндекс» за прове-дение конкурса научных стипендий, за предоставленную стипендию (заявка 102104) и за доступ к данным.

Аннотация

Значительная часть Веба, «скрытая» за поисковыми веб-формами, не индексируется современными поисковыми системами. «Скрытая» часть Веба известна под названием глубинный Веб. Веб-страницы в глубинном Вебе являются динамическими и представляют собой результаты, возвращаемые поисковыми веб-формами. В нашей ра-боте, мы изучали русскоязычную часть глубинного Веба (RDW). Основной целью было определение числа глубинных сайтов, распо-ложенных в RDW. Данное исследование является первой работой, которая рассматривает определенную часть глубинного Веба, пред-ставляющую интерес носителям какого-то одного (не английского) языка.

1. Введение

Благодаря развитию веб-технологий в настоящее время Веб пред-ставлен страницами, как со статичным, так и с динамичным содер-жанием. Динамичность ведет к большей интерактивности веб-страниц, но, в тоже время, к тому, что многие динамические страни-цы не индексируются современными поисковыми системами (на-пример, Google.com или Yandex.ru). Поисковые системы индексиру-ют и, значит, позволяют производить поиск только среди «индекси-руемой» части Веба, известной как индексируемый Веб (publicly in-dexable Web) [13]. В индексируемый Веб, в частности, не входят ог-ромное количество веб-страниц, возвращаемых поисковыми веб-формами.

* Авторы выражают признательность компании «Яндекс» за прове-дение конкурса научных стипендий, за предоставленную стипендию (заявка 102104) и за доступ к данным.

Значительная часть Веба «скрыта» за поисковыми веб-формами, которые являются единственными веб-интерфейсами к сотням ты-сяч (около 450 000 согласно [5]) баз данных доступных онлайн. «Скрытая» (находящаяся за поисковыми веб-интерфейсами) часть Веба известна как минимум под тремя названиями: скрытый Веб (hidden Web) [8][16], глубинный Веб (deep Web) [2][18] (используе-мое в данной работе) и невидимый Веб (invisible Web) [17]. Веб-страницы в глубинном Вебе (далее сокращенно DW) являются ди-намическими 1 и представляют собой результаты, возвращаемые по-исковыми веб-формами. DW является очевидным и интересным объектом для исследования, так как для большинства веб-пользователей поиск нужной информации в Вебе основывается ис-ключительно на результатах, возвращаемых той или иной поисковой системой. В результате игнорируется огромное число веб-документов из DW.

В данной работе мы изучали русскоязычную часть глубинного Веба (далее сокращенно RDW). Нашей целью было количественное оп-ределение основных параметров RDW. Мы полагаем, что получен-ные характеристики вместе с кратким введением в DW будут инте-ресны широкому кругу русскоязычных читателей. Помимо этого, мы составили небольшой список русскоязычных ресурсов DW, ко-торый может использоваться (и дополняться) при дальнейшем изу-чении RDW/DW.

Насколько мы знаем, данное исследование является первой работой, которая рассматривает лишь определенную часть DW – а именно часть, которая представляет интерес преимущественно носителям какого-то одного (не английского) языка. Выбор именно русскоя-зычной части DW объясняется тем, что для обоих авторов русский является родным языком, а также наличием доступа к данным, кото-рые относятся к русскоязычному Вебу и были предоставлены рус-скоязычной поисковой системой Яндекс.

Наш отчет состоит из несколько частей. В следующем разделе мы дадим более подробное описание понятия «глубинный Веб». Далее, мы представим обзор литературы, посвященной измерению харак-теристик DW и извлечению информации из DW. Раздел 4 расскажет об определении основных характеристик DW. Описание экспери-ментов и результатов дано в разделе 5. Разделы 6 и 7 представят на-шу интерпретацию полученных результатов и заключение соответ-ственно.

Далее документ содержит следующие разделы:

2. Глубинный Веб

3. Краткий обзор литературы о DW

4. Определение основных характеристик DW

4.1. Количество онлайн баз данных

4.2. Размер DW

5. Эксперименты

5.1. Определение количества ресурсов RDW (оценка снизу)

5.2. Определение количества ресурсов RDW (выборка из хостов)

 

Скачать PDF-файл с полным текстом документа (514 кб)

 

Удаление информации из Интернета. Стирание негатива из Интернета

Создание сайтов для малого бизнеса. Создание сайтов для ИП

Другие публикации о Невидимом Интернете >>


<< Вернуться на главную страницу сайта "Невидимый Интернет"

Перейти к разделу сайта Ющука Евгения Леонидовича "Конкурентная разведка на предприятии а также вопросы промышленного шпионажа " >>

Перейти к разделу сайта Ющука Евгения Леонидовича "Интернет и компьютеры как инструменты конкурентной разведки" >>

Перейти к разделу сайта Ющука Евгения Леонидовича "Вопросы стратегии и геополитики глазами специалистов разведки. Библиотеки. Полезные ресурсы " >>

Перейти к разделу Сайта Ющука Евгения Леонидовича "Официальная информация о российских предприятиях и гражданах в открытом доступе " >>

Открытый мастер-класс Ющука Евгения Леонидовича. Ющук Евгений Леонидович "Конкурентная разведка против PR в живом эфире". В порядке ответа на
"Черный список", автор которого Кузнецов Сергей Валентинович

Блог поддержки открытого мастер-класса Ющука Евгения Леонидовича. Ющук Евгений Леонидович "Конкурентная разведка против PR в живом эфире". В порядке ответа на
"Черный список", автор которого Кузнецов Сергей Валентинович

 


Ющук Евгений Леонидович. Ющук Евгений Леонидович (Ющук Е.Л., Евгений Ющук, Evgeny Yushchuk, Yushchuk Evgeny Leonidovich) Конкурентная разведка для тех, кто работает в российском бизнесе. Конкурентная разведка как продолжение маркетинга.



1