Крымский форум (Crimea-Board) Поиск Участники Помощь Текстовая версия Crimea-Board.Net
Здравствуйте Гость .:: Вход :: Регистрация ::. .:: Выслать повторно письмо для активации  
 
> Рекламный блок.
 
 
 
 
 
> Ваша реклама, здесь
 
 
 

  Start new topic Start Poll 

> Нужна программа для выдирания сайтов целиком, Нестандартный случай...
Inquisitor | Профиль
Дата 2 Марта, 2010, 22:59
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


Нужна программа для выдирания сайтов целиком, дабы потом смотреть оффлайн и просто иметь бэкап.

Вопрос сей не так прост как кажется, ибо нужен мне сайт, хранящийся на веб-архиве:

Код
http://web.archive.org/web/20041205095439/http://www.kemet.ru/


httrack, Телепорт и Оффлайн Эксплорер дружно курят кеды и тапки.

Особенности данного случая в том, что веб-архив не очень-то хочет, чтобы с него тырили сайты. Однако внешне линки выглядят как стационарные, соответственно, навигация вручную идет на ура.
Но софтины обламываются, скорее всего из-за специфически составленного урла.

Кто-нибудь может порекомендовать "тянулку" сайтов, способную справиться с экзотическими случаями?


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
153/4025   
Бобер | Бездомный
Реклама двигатель прогресса       
Quote Post



А кому сча лехко?
Group Icon


















_________________
Желающим разместить рекламу смотреть сюдой
/   
AGUtilities |
Дата 3 Марта, 2010, 13:47
Quote Post



Unregistered









wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/'

виндовый порт в наличии
149/   
Inquisitor | Профиль
Дата 3 Марта, 2010, 16:25
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


Цитата(AGUtilities @ 3 Марта, 2010, 11:47)
wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/'



Выдало "Unsupported scheme"


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
149/4025   
Sobol | Профиль
Дата 3 Марта, 2010, 16:57
Quote Post




Group Icon

Группа: Абориген
Сообщений: 432
Регистрация: 06.02.08
Авторитет: 22
Вне форума

Предупреждения:
(0%) -----


Только что вставил Ваш URL в Teleport Pro V1.43 все замечательно тянется.

Упс... извиняюсь, вы правы не все тянется.

Отредактировал Sobol - 3 Марта, 2010, 17:29


____________________
Богаче всего тот человек, чьи радости требуют меньше всего денег.
PMEmail Poster
7/1563   
Inquisitor | Профиль
Дата 3 Марта, 2010, 19:51
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


Эх... угу. Телепорт у меня просифонил из всего многообразия с дюжину файлов, а сохранил только два, один из которых - рамблерский счетчик. а второй - каталог =)


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
1/4025   
Igorius | Профиль
Дата 3 Марта, 2010, 20:04
Quote Post




Group Icon

Группа: Абориген
Сообщений: 110
Регистрация: 06.01.10
Авторитет: 1
Вне форума

Предупреждения:
(0%) -----


написать biggrin.gif
PMEmail Poster
Inquisitor | Профиль
Дата 3 Марта, 2010, 21:11
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


походу придется =)

Нарыл в сети - есть скрипт, как раз для веб-архива. Но платный, зараза, и требуется засунуть его на сервак. Соответственно, не нашел откуда его скачать.


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
26/4025   
AGUtilities |
Дата 3 Марта, 2010, 22:03
Quote Post



Unregistered









у меня работает

wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/'
--2010-03-03 20:00:26-- http://web.archive.org/web/20041205095439/...//www.kemet.ru/
Resolving web.archive.org (web.archive.org)... 207.241.227.62
Connecting to web.archive.org (web.archive.org)|207.241.227.62|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 16741 (16K) [text/html]
Saving to: “web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html”

100%[======================================================================================>] 16,741 24.1K/s in 0.7s

2010-03-03 20:00:31 (24.1 KB/s) - “web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html” saved [16741/16741]

--2010-03-03 20:00:31-- http://web.archive.org/web/20041205095439j...rotator88x31.js
Reusing existing connection to web.archive.org:80.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: http://web.archive.org/web/20040805105106j...rotator88x31.js [following]
--2010-03-03 20:00:32-- http://web.archive.org/web/20040805105106j...rotator88x31.js
Reusing existing connection to web.archive.org:80.
HTTP request sent, awaiting response... 200 OK
Length: 798 [application/x-javascript]
Saving to: “web.archive.org/web/20040805105106js_/www.kemet.ru/rotator88x31.js”

100%[======================================================================================>] 798 --.-K/s in 0s

2010-03-03 20:00:32 (64.9 MB/s) - “web.archive.org/web/20040805105106js_/www.kemet.ru/rotator88x31.js” saved [798/798]
(тут я нажал ctrl+c)
FINISHED --2010-03-03 20:00:32--
Downloaded: 2 files, 17K in 0.7s (25.3 KB/s)
Converting web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html... 3-69
Converted 1 files in 0.001 seconds.

Отредактировал AGUtilities - 3 Марта, 2010, 22:03
150/   
Inquisitor | Профиль
Дата 3 Марта, 2010, 22:22
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


а какой wget?

я заюзал консольный под винду.


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
16/4025   
Inquisitor | Профиль
Дата 3 Марта, 2010, 22:44
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


Ага.
В моем случае команда выглядит так:
wget -r -x -nH --user-agent='' -k -p -np -e robots=off ht#tp://web.archive.org/web/20041205095439/http://www.kemet.ru/ (без решетки)

Но это не подлечило, точно так же как и у вас, сохранило только Index.html и rotator88x31.js


Зато заметил, в index.html ссылки сформированы не так, как урл самого индекса. причем если файл сохранен локально - ссылки работают (а в информации об объекте, который загружается по ссылке, указан правильный УРЛ), но если попытаться получить объект по ссылке, скопированной из кода индекс.хтмл, не придет ничего О.о

То есть:

Фрагмент исходного кода:
Код
<td align="center"><a href="http://www.kemet.ru.wstub.archive.org/news.htm">Новости сайта</a> ...


Реальная ссылка, по которой будет переход в браузере:
Код
http://web.archive.org/web/20041205095439/http://www.kemet.ru/news.htm


Походу из-за этого фортеля спотыкаются загрузчики =(

Отредактировал Inquisitor - 3 Марта, 2010, 22:52


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
151/4025   
Igorius | Профиль
Дата 3 Марта, 2010, 23:23
Quote Post




Group Icon

Группа: Абориген
Сообщений: 110
Регистрация: 06.01.10
Авторитет: 1
Вне форума

Предупреждения:
(0%) -----


хм. а можно сам файлик?
PMEmail Poster
SlavaD | Профиль
Дата 4 Марта, 2010, 1:30
Quote Post



Тех. Админ
Group Icon

Группа: Admin
Сообщений: 503
Регистрация: 13.08.03
Авторитет: 14
Вне форума



http://dnhunter.ru/cgi-bin/static_docs?doc...estoration.html
Цитата
Особенности восстановления сайта из Web Архива и не только...

На нашем сайте есть информация о наличии контента на домене до снятия с домена делегирования. Эту информацию можно получить из следующих столбцов:

    * web.archive.org
    * контент
    * Google (поле кэш)

В столбце 'web.archive.org' вы сразу получаете доступ к последней версии первой страницы, если нажмете на дату, а также к истории сайта. Ресурс web.archive.org занимается регулярным сохранением сайтов, так что этот ресурс полезен не только с точки зрения получения контента, но и с точки зрения понимания к, примеру, как долго фирма работает в сети, меняла ли она за это время адрес или телефон и т.д.

В столбце 'контент' вы получаете доступ к первой страницы сайта и дается краткая инструкция как получить этот контент. Дело в том, что отключение домена не означает, что весь контент исчез. До этого контента просто нельзя добраться стандартным способом. Как правило контент доступен, если период регистрации домена не совпадает с периодом оплаты хостинга.

В общем есть вся информация, позволяющая оценить возможность восстановления сайта, и принятия решения по отправке предварительного заказа на освобождающийся домен.

Если вы просто хотите восстановить сайт, не особо вдаваясь в хитрости, то можете поискать исполнителей на специализированном форуме. К примеру, такие услуги предлагаются в этой ветке форума или в этой ветке форума. В каждой из веток вы можете ознакомится с отзывами пользователей, которые уже воспользовались услугой.
Проблемы, с которыми я сталкивался при получении контента сайта.

Есть много программ, которые занимаются скачиванием сайтов на жесткий диск. Я, как пользователь *nix систем, использовал wget. Первое, с чем мне пришлось столкнуться при выкачивании сайта из web.archive.org - это файл robots.txt. Точнее не сам файл, а отношение к этому файлу программы wget. При попытке рекурсивного скачивания wget сначала заглядывал в robots.txt и , если ссылки попадали под запрет robots.txt, то wget их пропускал. Если выкачивать постранично, то wget не заглядывал в robots.txt и честно скачивал страницу. Вылечить это удалось добавив файл в домашнюю директорию .wgetrc с единственной записью "robots = off"
web.archive.org

web.archive.org оказался полон сюрпризов, рекурсивное скачивание wget останавливалось после выкачки одной страницы. Т.е., к примеру, захотел я скачать http://web.archive.org/web/20080112014047s...www.anglija.ru/, а получаю только эту страницу и стили sad.gif. После разбора полетов выяснилось, что на web.archive.org стоит защита от рекурсивного скачивания. Они портят все ссылки на странице, добавляя в head:

...
<BASE HREF="http://www.anglija.ru.way_back_stub/">
...

wget считает, что все ссылки смотрят за пределы данного сайта и не трогает их. А если закачивать страницу через обычный браузер, то после загрузки отрабатывает javascript и восстанавливает все ссылки:

...
var sWayBackCGI = "http://web.archive.org/web/20080112014047/";

...

url = url.replace('.way_back_stub','');
aCollection[i][sProp] = sWayBackCGI + url;
...

Т.е. для рекурсивной загрузки сайта из web.archive.org нужно либо специализированное решение, либо загрузчик, который отрабатывает javascript на странице. Сам не пробовал, но умные люди посоветовали Offline Explorer (под Windows) для загрузки, он умеет интерпретировать javascript на странице. А также посоветовали модуль под perl WWW::WebArchive, пример использования:

use WWW::WebArchive;

my $webarchive = WWW::WebArchive->new();
$webarchive->restore( { url => "http://" . $ARGV[0] } ); 

Модуль еще интересен тем, что декларирует возможность выкачки сайтов и из других систем:

WWW::WebArchive - Retrieve old versions of public web pages from
various web archives (i.e. www.archive.org, Internet Archive's Wayback Machine,
or Google's page cache)

'контент'

С контентом все проще, wget его берет, как отключить robots.txt написано выше. Но если вы не пользуетесь wget, то должны подобрать такой клиент, которому можно жестко забить некоторые заголовки запроса при обращении к сайту, а именно нас интересует заголовок 'Host'. Дело в том, что в случае неделегированного домена обращаться к сайту придется по IP адресу (http://194.84.65.210), а вот к какому сайту непосредственно вы обращаетесь (на одном ip адресе может быть много сайтов) вы жестко задаете в заголовке 'Host'.

Иногда, при обращении, описанным выше способом, к сайту site.ru вас перенаправляют на www.site.ru или даже www.site.ru/index.html. Понятно, что загрузку надо остановить и начать заново, установив в Host:www.site.ru и начав закачку с url http://194.84.65.210/index.html.
PMEmail Poster
152/7177   
Inquisitor | Профиль
Дата 7 Марта, 2010, 1:53
Quote Post




Group Icon

Группа: Silver Member
Сообщений: 654
Регистрация: 03.09.07
Авторитет: 23
Вне форума

Предупреждения:
(0%) -----


SlavaD,
Спасибо!

от оно шо значить....


____________________
Ищу учителя некромантии и демонологии.
PMEmail PosterUsers Website
mowiv | Профиль
Дата 13 Май, 2016, 12:41
Quote Post






Группа: ПрохожиЙ
Сообщений: 1
Регистрация: 13.05.16
Авторитет: 0
Вне форума

Предупреждения:
(0%) -----


Inquisitor, решили свой вопрос?
Как решается вопрос поставленный в теме на данном историческом моменте?

У меня, что-то ни одна программа(команда wget) нормально не выдаёт.
Offline Explorer выкачивает кучу файлов а между собой как-то они не работают.
PMEmail Poster
1/1   

Topic Options Start new topic Start Poll 

 



[ Script Execution time: 0.0915 ]   [ 12 queries used ]   [ GZIP включён ]


Создание и продвижение сайтов в Крыму



Top