Крымский форум (Crimea-Board) Поиск Участники Помощь Текстовая версия Crimea-Board.Net
Здравствуйте Гость .:: Вход :: Регистрация ::. .:: Выслать повторно письмо для активации  
 
> Рекламный блок.
 

Реклама на форуме

 
> Ваша реклама, здесь
 
 
 

  Start new topic Start Poll 

> Нужна программа для выдирания сайтов целиком, Нестандартный случай...
Inquisitor | Профиль
Дата 2 Марта, 2010, 22:59
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


Нужна программа для выдирания сайтов целиком, дабы потом смотреть оффлайн и просто иметь бэкап.

Вопрос сей не так прост как кажется, ибо нужен мне сайт, хранящийся на веб-архиве:

Код
http://web.archive.org/web/20041205095439/http://www.kemet.ru/


httrack, Телепорт и Оффлайн Эксплорер дружно курят кеды и тапки.

Особенности данного случая в том, что веб-архив не очень-то хочет, чтобы с него тырили сайты. Однако внешне линки выглядят как стационарные, соответственно, навигация вручную идет на ура.
Но софтины обламываются, скорее всего из-за специфически составленного урла.

Кто-нибудь может порекомендовать "тянулку" сайтов, способную справиться с экзотическими случаями?
PMEmail PosterUsers Website
155/4031   
Бобер | Бездомный
Реклама двигатель прогресса       
Quote Post



А кому сча лехко?
Group Icon
















_________________
Желающим разместить рекламу смотреть сюдой
/   
AGUtilities |
Дата 3 Марта, 2010, 13:47
Quote Post



Unregistered









wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/'

виндовый порт в наличии
151/   
Inquisitor | Профиль
Дата 3 Марта, 2010, 16:25
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


Цитата(AGUtilities @ 3 Марта, 2010, 11:47)
wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/'



Выдало "Unsupported scheme"
PMEmail PosterUsers Website
151/4031   
Sobol | Профиль
Дата 3 Марта, 2010, 16:57
Quote Post




Group Icon

Группа: Абориген
Сообщений: 432
Регистрация: 06.02.08
Авторитет: 22
Вне форума

Предупреждения:
(0%) -----


Только что вставил Ваш URL в Teleport Pro V1.43 все замечательно тянется.

Упс... извиняюсь, вы правы не все тянется.

Отредактировал Sobol - 3 Марта, 2010, 17:29


____________________
Богаче всего тот человек, чьи радости требуют меньше всего денег.
PMEmail Poster
7/1568   
Inquisitor | Профиль
Дата 3 Марта, 2010, 19:51
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


Эх... угу. Телепорт у меня просифонил из всего многообразия с дюжину файлов, а сохранил только два, один из которых - рамблерский счетчик. а второй - каталог =)
PMEmail PosterUsers Website
1/4031   
Igorius |
Дата 3 Марта, 2010, 20:04
Quote Post



Unregistered









написать biggrin.gif
Inquisitor | Профиль
Дата 3 Марта, 2010, 21:11
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


походу придется =)

Нарыл в сети - есть скрипт, как раз для веб-архива. Но платный, зараза, и требуется засунуть его на сервак. Соответственно, не нашел откуда его скачать.
PMEmail PosterUsers Website
26/4031   
AGUtilities |
Дата 3 Марта, 2010, 22:03
Quote Post



Unregistered









у меня работает

wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/'
--2010-03-03 20:00:26-- http://web.archive.org/web/20041205095439/...//www.kemet.ru/
Resolving web.archive.org (web.archive.org)... 207.241.227.62
Connecting to web.archive.org (web.archive.org)|207.241.227.62|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 16741 (16K) [text/html]
Saving to: web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html

100%[======================================================================================>] 16,741 24.1K/s in 0.7s

2010-03-03 20:00:31 (24.1 KB/s) - web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html saved [16741/16741]

--2010-03-03 20:00:31-- http://web.archive.org/web/20041205095439j...rotator88x31.js
Reusing existing connection to web.archive.org:80.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: http://web.archive.org/web/20040805105106j...rotator88x31.js [following]
--2010-03-03 20:00:32-- http://web.archive.org/web/20040805105106j...rotator88x31.js
Reusing existing connection to web.archive.org:80.
HTTP request sent, awaiting response... 200 OK
Length: 798 [application/x-javascript]
Saving to: web.archive.org/web/20040805105106js_/www.kemet.ru/rotator88x31.js

100%[======================================================================================>] 798 --.-K/s in 0s

2010-03-03 20:00:32 (64.9 MB/s) - web.archive.org/web/20040805105106js_/www.kemet.ru/rotator88x31.js saved [798/798]
(тут я нажал ctrl+c)
FINISHED --2010-03-03 20:00:32--
Downloaded: 2 files, 17K in 0.7s (25.3 KB/s)
Converting web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html... 3-69
Converted 1 files in 0.001 seconds.

Отредактировал AGUtilities - 3 Марта, 2010, 22:03
152/   
Inquisitor | Профиль
Дата 3 Марта, 2010, 22:22
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


а какой wget?

я заюзал консольный под винду.
PMEmail PosterUsers Website
16/4031   
Inquisitor | Профиль
Дата 3 Марта, 2010, 22:44
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


Ага.
В моем случае команда выглядит так:
wget -r -x -nH --user-agent='' -k -p -np -e robots=off ht#tp://web.archive.org/web/20041205095439/http://www.kemet.ru/ (без решетки)

Но это не подлечило, точно так же как и у вас, сохранило только Index.html и rotator88x31.js


Зато заметил, в index.html ссылки сформированы не так, как урл самого индекса. причем если файл сохранен локально - ссылки работают (а в информации об объекте, который загружается по ссылке, указан правильный УРЛ), но если попытаться получить объект по ссылке, скопированной из кода индекс.хтмл, не придет ничего О.о

То есть:

Фрагмент исходного кода:
Код
<td align="center"><a href="http://www.kemet.ru.wstub.archive.org/news.htm">Новости сайта</a> ...


Реальная ссылка, по которой будет переход в браузере:
Код
http://web.archive.org/web/20041205095439/http://www.kemet.ru/news.htm


Походу из-за этого фортеля спотыкаются загрузчики =(

Отредактировал Inquisitor - 3 Марта, 2010, 22:52
PMEmail PosterUsers Website
153/4031   
Igorius |
Дата 3 Марта, 2010, 23:23
Quote Post



Unregistered









хм. а можно сам файлик?
SlavaD | Профиль
Дата 4 Марта, 2010, 1:30
Quote Post



Тех. Админ
Group Icon

Группа: Admin
Сообщений: 503
Регистрация: 13.08.03
Авторитет: 21
Вне форума



http://dnhunter.ru/cgi-bin/static_docs?doc...estoration.html
Цитата
Особенности восстановления сайта из Web Архива и не только...

На нашем сайте есть информация о наличии контента на домене до снятия с домена делегирования. Эту информацию можно получить из следующих столбцов:

    * web.archive.org
    * контент
    * Google (поле кэш)

В столбце 'web.archive.org' вы сразу получаете доступ к последней версии первой страницы, если нажмете на дату, а также к истории сайта. Ресурс web.archive.org занимается регулярным сохранением сайтов, так что этот ресурс полезен не только с точки зрения получения контента, но и с точки зрения понимания к, примеру, как долго фирма работает в сети, меняла ли она за это время адрес или телефон и т.д.

В столбце 'контент' вы получаете доступ к первой страницы сайта и дается краткая инструкция как получить этот контент. Дело в том, что отключение домена не означает, что весь контент исчез. До этого контента просто нельзя добраться стандартным способом. Как правило контент доступен, если период регистрации домена не совпадает с периодом оплаты хостинга.

В общем есть вся информация, позволяющая оценить возможность восстановления сайта, и принятия решения по отправке предварительного заказа на освобождающийся домен.

Если вы просто хотите восстановить сайт, не особо вдаваясь в хитрости, то можете поискать исполнителей на специализированном форуме. К примеру, такие услуги предлагаются в этой ветке форума или в этой ветке форума. В каждой из веток вы можете ознакомится с отзывами пользователей, которые уже воспользовались услугой.
Проблемы, с которыми я сталкивался при получении контента сайта.

Есть много программ, которые занимаются скачиванием сайтов на жесткий диск. Я, как пользователь *nix систем, использовал wget. Первое, с чем мне пришлось столкнуться при выкачивании сайта из web.archive.org - это файл robots.txt. Точнее не сам файл, а отношение к этому файлу программы wget. При попытке рекурсивного скачивания wget сначала заглядывал в robots.txt и , если ссылки попадали под запрет robots.txt, то wget их пропускал. Если выкачивать постранично, то wget не заглядывал в robots.txt и честно скачивал страницу. Вылечить это удалось добавив файл в домашнюю директорию .wgetrc с единственной записью "robots = off"
web.archive.org

web.archive.org оказался полон сюрпризов, рекурсивное скачивание wget останавливалось после выкачки одной страницы. Т.е., к примеру, захотел я скачать http://web.archive.org/web/20080112014047s...www.anglija.ru/, а получаю только эту страницу и стили sad.gif. После разбора полетов выяснилось, что на web.archive.org стоит защита от рекурсивного скачивания. Они портят все ссылки на странице, добавляя в head:

...
<BASE HREF="http://www.anglija.ru.way_back_stub/">
...

wget считает, что все ссылки смотрят за пределы данного сайта и не трогает их. А если закачивать страницу через обычный браузер, то после загрузки отрабатывает javascript и восстанавливает все ссылки:

...
var sWayBackCGI = "http://web.archive.org/web/20080112014047/";

...

url = url.replace('.way_back_stub','');
aCollection[i][sProp] = sWayBackCGI + url;
...

Т.е. для рекурсивной загрузки сайта из web.archive.org нужно либо специализированное решение, либо загрузчик, который отрабатывает javascript на странице. Сам не пробовал, но умные люди посоветовали Offline Explorer (под Windows) для загрузки, он умеет интерпретировать javascript на странице. А также посоветовали модуль под perl WWW::WebArchive, пример использования:

use WWW::WebArchive;

my $webarchive = WWW::WebArchive->new();
$webarchive->restore( { url => "http://" . $ARGV[0] } ); 

Модуль еще интересен тем, что декларирует возможность выкачки сайтов и из других систем:

WWW::WebArchive - Retrieve old versions of public web pages from
various web archives (i.e. www.archive.org, Internet Archive's Wayback Machine,
or Google's page cache)

'контент'

С контентом все проще, wget его берет, как отключить robots.txt написано выше. Но если вы не пользуетесь wget, то должны подобрать такой клиент, которому можно жестко забить некоторые заголовки запроса при обращении к сайту, а именно нас интересует заголовок 'Host'. Дело в том, что в случае неделегированного домена обращаться к сайту придется по IP адресу (http://194.84.65.210), а вот к какому сайту непосредственно вы обращаетесь (на одном ip адресе может быть много сайтов) вы жестко задаете в заголовке 'Host'.

Иногда, при обращении, описанным выше способом, к сайту site.ru вас перенаправляют на www.site.ru или даже www.site.ru/index.html. Понятно, что загрузку надо остановить и начать заново, установив в Host:www.site.ru и начав закачку с url http://194.84.65.210/index.html.
PMEmail Poster
154/7191   
Inquisitor | Профиль
Дата 7 Марта, 2010, 1:53
Quote Post




Group Icon

Группа: Gold Member
Сообщений: 1124
Регистрация: 03.09.07
Авторитет: 41
Вне форума

Предупреждения:
(0%) -----


SlavaD,
Спасибо!

от оно шо значить....
PMEmail PosterUsers Website
mowiv |
Дата 13 Май, 2016, 12:41
Quote Post



Unregistered









Inquisitor, решили свой вопрос?
Как решается вопрос поставленный в теме на данном историческом моменте?

У меня, что-то ни одна программа(команда wget) нормально не выдаёт.
Offline Explorer выкачивает кучу файлов а между собой как-то они не работают.
1/   
archivarix |
Дата 19 Октября, 2017, 14:12



Unregistered











[Этот пост удален пользователем Rumata]
Top

Topic Options Start new topic Start Poll 

 



[ Script Execution time: 0.0142 ]   [ 12 queries used ]   [ GZIP включён ]






Политика конфиденциальности

Top