Структура русскоязычной части глубинного Веба
Авторы: Денис Шестаков1, Наталья Воронцова2 1. University of Turku, Finland, da_shestakov@yahoo.com 2. Московская Медицинская Академия им. И.М.Сеченова, n_vorontsova@myrealbox.com Авторы выражают признательность компании «Яндекс» за прове-дение конкурса научных стипендий, за предоставленную стипендию (заявка 102104) и за доступ к данным. |
Аннотация
ЗначительнаячастьВеба, «скрытая» запоисковымивеб-формами, неиндексируетсясовременнымипоисковымисистемами. «Скрытая» частьВебаизвестнаподназваниемглубинныйВеб. Веб-страницывглубинномВебеявляютсядинамическимиипредставляютсобойрезультаты, возвращаемыепоисковымивеб-формами. Внашейра-боте, мыизучалирусскоязычнуючастьглубинногоВеба (RDW). Основнойцельюбылоопределениечислаглубинныхсайтов, распо-ложенныхв RDW. Данноеисследованиеявляетсяпервойработой, котораярассматриваетопределеннуючастьглубинногоВеба, пред-ставляющуюинтересносителямкакого-тоодного (неанглийского) языка.
- 1.Введение
Благодаряразвитиювеб-технологийвнастоящеевремяВебпред-ставленстраницами, каксостатичным, такисдинамичнымсодер-жанием. Динамичностьведеткбольшейинтерактивностивеб-страниц, но, втожевремя, ктому, чтомногиединамическиестрани-цынеиндексируютсясовременнымипоисковымисистемами(на-пример, Google.comилиYandex.ru). Поисковыесистемыиндексиру-юти, значит, позволяютпроизводитьпоисктолькосреди «индекси-руемой» частиВеба, известнойкакиндексируемыйВеб (publicly in-dexable Web) [13]. ВиндексируемыйВеб, вчастности, невходятог-ромноеколичествовеб-страниц, возвращаемыхпоисковымивеб-формами.
* Авторы выражают признательность компании «Яндекс» за прове-дение конкурса научных стипендий, за предоставленную стипендию (заявка 102104) и за доступ к данным.
ЗначительнаячастьВеба «скрыта» запоисковымивеб-формами, которыеявляютсяединственнымивеб-интерфейсамиксотнямты-сяч (около 450000 согласно [5]) базданныхдоступныхонлайн. «Скрытая» (находящаясязапоисковымивеб-интерфейсами) частьВебаизвестнакакминимумподтремяназваниями: скрытыйВеб (hidden Web) [8][16], глубинныйВеб (deep Web) [2][18] (используе-моевданнойработе) иневидимыйВеб (invisible Web) [17]. Веб-страницывглубинномВебе (далеесокращенноDW) являютсяди-намическими 1 и представляют собой результаты, возвращаемые по-исковыми веб-формами. DW является очевидным и интересным объектом для исследования, так как для большинства веб-пользователей поиск нужной информации в Вебе основывается ис-ключительно на результатах, возвращаемых той или иной поисковой системой. В результате игнорируется огромное число веб-документов из DW.
ВданнойработемыизучалирусскоязычнуючастьглубинногоВеба (далеесокращенноRDW). Нашейцельюбылоколичественноеоп-ределениеосновныхпараметров RDW. Мыполагаем, чтополучен-ныехарактеристикивместескраткимвведениемв DW будутинте-ресныширокомукругурусскоязычныхчитателей. Помимоэтого, мысоставилинебольшойсписокрусскоязычныхресурсов DW, ко-торыйможетиспользоваться (идополняться) придальнейшемизу-чении RDW/DW.
Насколькомызнаем, данноеисследованиеявляетсяпервойработой, котораярассматриваетлишьопределеннуючасть DW – аименночасть, котораяпредставляетинтереспреимущественноносителямкакого-тоодного (неанглийского) языка. Выборименнорусскоя-зычнойчасти DW объясняетсятем, чтодляобоихавтороврусскийявляетсяроднымязыком, атакженаличиемдоступакданным, кото-рыеотносятсякрусскоязычномуВебуибылипредоставленырус-скоязычнойпоисковойсистемойЯндекс.
Нашотчетсостоитизнесколькочастей. Вследующемразделемыдадимболееподробноеописаниепонятия «глубинныйВеб». Далее, мыпредставимобзорлитературы, посвященнойизмерениюхарак-теристик DW иизвлечениюинформациииз DW. Раздел 4 расскажетобопределенииосновныххарактеристик DW. Описаниеэкспери-ментовирезультатовдановразделе 5. Разделы 6 и 7 представятна-шуинтерпретациюполученныхрезультатовизаключениесоответ-ственно.
Далее документ содержит следующие разделы:
2. Глубинный Веб
3. Краткий обзор литературы о DW
4. Определение основных характеристик DW
4.1. Количество онлайн баз данных
4.2. Размер DW
5. Эксперименты
5.1. Определение количества ресурсов RDW (оценка снизу)
5.2. Определение количества ресурсов RDW (выборка из хостов)
Скачать PDF-файл с полным текстом документа (514 кб)