Особенности
восстановления сайта из
Web Архива и не только...
На нашем
сайте есть информация о наличии
контента на
домене до снятия с
домена делегирования. Эту информацию можно получить из следующих столбцов:
*
web.archive.org *
контент *
Google (поле кэш)
В столбце '
web.archive.org' вы сразу получаете доступ к последней версии первой страницы, если нажмете на дату, а также к истории
сайта. Ресурс
web.archive.org занимается регулярным сохранением
сайтов, так что этот ресурс полезен не только с точки зрения получения
контента, но и с точки зрения понимания к, примеру,
как долго фирма
работает в сети, меняла ли она за это время адрес или телефон и т.д.
В столбце '
контент' вы получаете доступ к первой страницы
сайта и дается краткая инструкция
как получить этот
контент. Дело в том, что отключение
домена не означает, что
весь контент исчез. До этого
контента просто нельзя добраться стандартным способом. Как правило
контент доступен, если период регистрации
домена не совпадает с периодом оплаты хостинга.
В общем есть вся информация, позволяющая оценить возможность
восстановления сайта, и принятия решения по отправке предварительного заказа на освобождающийся
домен.
Если вы просто хотите восстановить
сайт, не особо вдаваясь в хитрости, то можете поискать
исполнителей на специализированном форуме. К примеру, такие услуги предлагаются в этой ветке форума или в этой ветке форума. В каждой из веток вы можете ознакомится с отзывами пользователей, которые уже воспользовались услугой.
Проблемы, с которыми я сталкивался при получении
контента
сайта.
Есть много программ, которые занимаются скачиванием
сайтов на жесткий диск. Я,
как пользователь *nix систем,
использовал
wget. Первое, с чем мне пришлось столкнуться при выкачивании
сайта из
web.archive.org - это файл
robots.txt. Точнее не сам файл, а отношение к этому файлу программы
wget. При попытке рекурсивного
скачивания wget сначала заглядывал в
robots.txt и , если
ссылки попадали под запрет
robots.txt, то
wget их пропускал. Если выкачивать постранично, то
wget не заглядывал в
robots.txt и честно скачивал страницу. Вылечить это удалось добавив файл в домашнюю директорию .
wgetrc с единственной записью "
robots = off"
web.archive.orgweb.archive.org оказался полон сюрпризов, рекурсивное скачивание
wget останавливалось после
выкачки одной страницы. Т.е., к примеру, захотел я
скачать http://web.archive.org/web/20080112014047s...www.anglija.ru/, а получаю только эту страницу и стили
. После разбора полетов выяснилось, что на
web.archive.org стоит защита от рекурсивного
скачивания. Они портят
все ссылки на странице, добавляя в head:
...
<
BASE HREF="http://www.anglija.ru.way_back_stub/">
...
wget считает, что
все ссылки смотрят за пределы данного
сайта и не трогает их. А если закачивать страницу через обычный браузер, то после загрузки отрабатывает javascript и восстанавливает
все ссылки:
...
var sWayBackCGI = "
http://web.archive.org/
web/20080112014047/";
...
url = url.replace('.way_back_stub','');
aCollection[i][s
Prop] = sWayBackCGI + url;
...
Т.е.
для рекурсивной загрузки
сайта из
web.archive.org нужно либо специализированное решение, либо загрузчик, который отрабатывает javascript на странице. Сам не пробовал, но умные люди посоветовали
Offline Explorer (под Windows)
для загрузки, он умеет
интерпретировать javascript на странице. А также посоветовали модуль под perl WWW::
WebArchive, пример
использования:
use WWW::
WebArchive;
my $
webarchive = WWW::
WebArchive->new();
$
webarchive->restore( { url => "http://" . $ARGV[0] } );
Модуль еще
интересен тем, что декларирует возможность
выкачки сайтов и из других систем:
WWW::
WebArchive - Retrieve old versions of public
web pages from
various
web archives (i.e. www.
archive.org, Internet
Archive's Wayback Machine,
or
Google's page cache)
'
контент'
С
контентом
все проще,
wget его берет,
как отключить
robots.txt написано выше. Но если вы не пользуетесь
wget, то должны подобрать такой клиент, которому можно жестко забить некоторые заголовки запроса при обращении к
сайту, а именно нас
интересует заголовок 'Host'. Дело в том, что в случае неделегированного
домена обращаться к
сайту придется по IP адресу (http://194.84.65.210), а вот к
какому
сайту непосредственно вы обращаетесь (на одном ip адресе может быть много
сайтов) вы жестко задаете в заголовке 'Host'.
Иногда, при обращении, описанным выше способом, к
сайту site.ru вас перенаправляют на www.site.ru или даже www.site.ru/index.html. Понятно, что загрузку надо остановить и начать заново, установив в Host:www.site.ru и начав закачку с url
http://194.84.65.210/index.html.