Что такое скрытый интернет?

06.03.2015 17:20

Для большинства браузер является не просто входом в интернет, они думают это и есть Всемирная паутина. И многие даже не подозревают, что сайты, доступные через поиск, лишь поверхность, содержащая небольшую часть всемирной сети.

А кроме нее, есть и глубина – «глубокая паутина» (Deep Web), называемая также «скрытой» или «невидимой».

Это сервера и их части, которые обычные поисковые роботы-пауки не смогли обнаружить или понять, потому что:

- либо сайты сами стремились от них спрятаться;

- либо так получилось по техническим причинам.

Глубина содержит закрытые группы и форумы, базы данных, файлы необычных форматов и анонимные криптосети.

Как попасть в скрытый интернет?

Некоторые скрытые сети охотно пускают к себе посетителей, стоит только затратить небольшие усилия. Ведь цель у большинства из них – не сокрытие, а, наоборот, как можно более широкое распространение информации, ограничиваемой в открытом интернете кем-то или чем-то.

Для начального знакомства с анонимными сетями TOR или I2P достаточно скачать специальный браузер, установить и использовать который не сложнее, чем обычный. После запуска спецсредства навигации, как правило, необходимо немного подождать, пока машина отыщет узлы закрытой пиринговой сети и подсоединится к ним.

В браузер уже встроены ссылки на специализированные поисковые системы и каталоги ресурсов, поэтому найти основные «информационные сокровища» не составит труда.

Есть определенная область между поверхностью интернета и его глубиной – можно назвать ее серой.

И одна из проблем связана с классификацией находящихся там скрытых ресурсов, потому что границы между оттенками серого размыты.

Существуют сайты, которые вроде бы внесены в базу поисковых систем, но фактически найдены не обычными поисковыми роботами, а OAIster, mod_oai или через Sitemap. Другой пример – страницы, которые уже доступны публично, но еще не найдены пауками.

Сайты, которые требуют регистрацию для доступа, можно также считать частью глубокой паутины. Некоторые сайты специально не пускают пауков-поисковиков на свои страницы, отпугивая их протоколом Robots Exclusion Standard.

Кроме того, страницы, созданные Flash и JavaScript, а также имеющие нетекстовое и не HTML содержимое (например, PDF или DOC-файлы), могут быть проиндексированы только некоторыми поисковыми системами. Это тоже делает их частью Deep Web.

Поисковый паук передвигается по гиперссылкам, чтобы загрузить и проиндексировать содержимое найденных в сети страниц. Эта тактика неэффективна в поиске глубоких веб-ресурсов. Например, обычный робот-поисковик не занимается динамическими веб-страницами, которые создаются по запросам из базы данных, потому что при этом может получиться слишком много разветвлений.

Подобные ограничения, однако, преодолеваются поисковыми системами нового типа, такими как Pipl. Новые поисковики специально разработаны, чтобы найти и вытащить информацию из скрытых страниц и баз данных.

Компания Google предложила модуль modoai и протокол Sitemap, чтобы увеличить эффективность поиска глубинных веб-ресурсов. Новые разработки позволят веб-серверам самим рассказывать о своих страницах, что облегчает их анализ поисковиком.

Другим решением, которое развивается некоторыми системами (например, Alacra, Northern Light и CloserLookSearch), является специализация поиска, когда поисковики сосредотачиваются только на определенной теме или предметной области. Это позволяет сужать область поиска «в ширину», направляя все усилия «вглубь».

Глубокий интернет для копирайтинга

Если изображения и тексты скрыты от поисковых систем, то они должны иметь очень высокий показатель уникальности при стандартной проверке. Эти соображения могут кого-то соблазнить на поиск глубинного контента, чтобы продавать или размещать его на своем сайте.

На самом деле, Deep Web вряд ли подходит для такой цели.

Во-первых, в глубине практически нет легальной рекламы. Причина понятна: рекламодатели стараются сотрудничать с самыми посещаемыми сайтами, а закрытая часть сети – наименее пригодный для этого партнер. А если нет рекламы, то нет и текстов с картинками для привлечения посетителей, их просто незачем там размещать. Таким образом, картинки отпадают.

Во-вторых, высокая уникальность некоторых скрытых материалов достигается усилиями компетентных органов, которые непрерывно ищут и блокируют открытые сайты с подобным контентом. Иногда изоляция сайта от общества сопровождается такой же участью для его владельца.

В-третьих, если в закрытой от поисковиков части сети и размещены качественные и легальные статьи, это не значит, что их можно безнаказанно оттуда вытаскивать и выдавать за свои. Рано или поздно плагиат будет обнаружен, что приведет, скорее всего, к печальным для ловкача последствиям.

Это не означает, что в Deep Web совсем ничего нет для компиляции или рерайта. Однако, затраты времени на поиск информации вряд ли будут так уж выгодны, все-таки открытая часть интернета предоставляет для написания обычной статьи более широкие возможности.