Крымский форум (Crimea-Board) -> Нужна программа для выдирания сайтов целиком

Здравствуйте Гость .:: Вход :: Регистрация ::.

.:: Выслать повторно письмо для активации

Рекламный блок.

Реклама на форуме

Ваша реклама, здесь

Крымский форум (Crimea-Board) » Hard & Soft & Game » Software

Forum Rules

Disclaimer. Правила форума Software.

Start new topic

Start Poll

Нужна программа для выдирания сайтов целиком, Нестандартный случай...

Подписка на тему | Сообщить другу | Версия для печати | Добавить в закладки

Inquisitor \| Профиль	Дата 2 Марта, 2010, 22:59
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	Нужна программа для выдирания сайтов целиком, дабы потом смотреть оффлайн и просто иметь бэкап. Вопрос сей не так прост как кажется, ибо нужен мне сайт, хранящийся на веб-архиве: Код http://web.archive.org/web/20041205095439/http://www.kemet.ru/ httrack, Телепорт и Оффлайн Эксплорер дружно курят кеды и тапки. Особенности данного случая в том, что веб-архив не очень-то хочет, чтобы с него тырили сайты. Однако внешне линки выглядят как стационарные, соответственно, навигация вручную идет на ура. Но софтины обламываются, скорее всего из-за специфически составленного урла. Кто-нибудь может порекомендовать "тянулку" сайтов, способную справиться с экзотическими случаями?
	155/4031

Бобер \| Бездомный	Реклама двигатель прогресса
А кому сча лехко?	_________________ Желающим разместить рекламу смотреть сюдой
	/

AGUtilities \|	Дата 3 Марта, 2010, 13:47
Unregistered	wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/' виндовый порт в наличии
	151/

Inquisitor \| Профиль	Дата 3 Марта, 2010, 16:25
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	Цитата(AGUtilities @ 3 Марта, 2010, 11:47) wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/' Выдало "Unsupported scheme"
	151/4031

Sobol \| Профиль	Дата 3 Марта, 2010, 16:57
Группа: Абориген Сообщений: 432 Регистрация: 06.02.08 Авторитет: 22 Вне форума Предупреждения: (0%)	Только что вставил Ваш URL в Teleport Pro V1.43 все замечательно тянется. Упс... извиняюсь, вы правы не все тянется. Отредактировал Sobol - 3 Марта, 2010, 17:29 ____________________ Богаче всего тот человек, чьи радости требуют меньше всего денег.
	7/1568

Inquisitor \| Профиль	Дата 3 Марта, 2010, 19:51
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	Эх... угу. Телепорт у меня просифонил из всего многообразия с дюжину файлов, а сохранил только два, один из которых - рамблерский счетчик. а второй - каталог =)
	1/4031

Igorius \|	Дата 3 Марта, 2010, 20:04
Unregistered	написать

Inquisitor \| Профиль	Дата 3 Марта, 2010, 21:11
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	походу придется =) Нарыл в сети - есть скрипт, как раз для веб-архива. Но платный, зараза, и требуется засунуть его на сервак. Соответственно, не нашел откуда его скачать.
	26/4031

AGUtilities \|	Дата 3 Марта, 2010, 22:03
Unregistered	у меня работает wget -rxc -np --user-agent='' -e robots=off -kp 'http://web.archive.org/web/20041205095439/http://www.kemet.ru/' --2010-03-03 20:00:26-- http://web.archive.org/web/20041205095439/...//www.kemet.ru/ Resolving web.archive.org (web.archive.org)... 207.241.227.62 Connecting to web.archive.org (web.archive.org)\|207.241.227.62\|:80... connected. HTTP request sent, awaiting response... 200 OK Length: 16741 (16K) [text/html] Saving to: web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html 100%[======================================================================================>] 16,741 24.1K/s in 0.7s 2010-03-03 20:00:31 (24.1 KB/s) - web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html saved [16741/16741] --2010-03-03 20:00:31-- http://web.archive.org/web/20041205095439j...rotator88x31.js Reusing existing connection to web.archive.org:80. HTTP request sent, awaiting response... 302 Moved Temporarily Location: http://web.archive.org/web/20040805105106j...rotator88x31.js [following] --2010-03-03 20:00:32-- http://web.archive.org/web/20040805105106j...rotator88x31.js Reusing existing connection to web.archive.org:80. HTTP request sent, awaiting response... 200 OK Length: 798 [application/x-javascript] Saving to: web.archive.org/web/20040805105106js_/www.kemet.ru/rotator88x31.js 100%[======================================================================================>] 798 --.-K/s in 0s 2010-03-03 20:00:32 (64.9 MB/s) - web.archive.org/web/20040805105106js_/www.kemet.ru/rotator88x31.js saved [798/798] (тут я нажал ctrl+c) FINISHED --2010-03-03 20:00:32-- Downloaded: 2 files, 17K in 0.7s (25.3 KB/s) Converting web.archive.org/web/20041205095439/http:/www.kemet.ru/index.html... 3-69 Converted 1 files in 0.001 seconds. Отредактировал AGUtilities - 3 Марта, 2010, 22:03
	152/

Inquisitor \| Профиль	Дата 3 Марта, 2010, 22:22
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	а какой wget? я заюзал консольный под винду.
	16/4031

Inquisitor \| Профиль	Дата 3 Марта, 2010, 22:44
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	Ага. В моем случае команда выглядит так: wget -r -x -nH --user-agent='' -k -p -np -e robots=off ht#tp://web.archive.org/web/20041205095439/http://www.kemet.ru/ (без решетки) Но это не подлечило, точно так же как и у вас, сохранило только Index.html и rotator88x31.js Зато заметил, в index.html ссылки сформированы не так, как урл самого индекса. причем если файл сохранен локально - ссылки работают (а в информации об объекте, который загружается по ссылке, указан правильный УРЛ), но если попытаться получить объект по ссылке, скопированной из кода индекс.хтмл, не придет ничего О.о То есть: Фрагмент исходного кода: Код <td align="center"><a href="http://www.kemet.ru.wstub.archive.org/news.htm">Новости сайта</a> ... Реальная ссылка, по которой будет переход в браузере: Код http://web.archive.org/web/20041205095439/http://www.kemet.ru/news.htm Походу из-за этого фортеля спотыкаются загрузчики =( Отредактировал Inquisitor - 3 Марта, 2010, 22:52
	153/4031

Igorius \|	Дата 3 Марта, 2010, 23:23
Unregistered	хм. а можно сам файлик?

SlavaD \| Профиль	Дата 4 Марта, 2010, 1:30
Тех. Админ Группа: Admin Сообщений: 503 Регистрация: 13.08.03 Авторитет: 21 Вне форума	http://dnhunter.ru/cgi-bin/static_docs?doc...estoration.html Цитата Особенности восстановления сайта из Web Архива и не только... На нашем сайте есть информация о наличии контента на домене до снятия с домена делегирования. Эту информацию можно получить из следующих столбцов: * web.archive.org * контент * Google (поле кэш) В столбце 'web.archive.org' вы сразу получаете доступ к последней версии первой страницы, если нажмете на дату, а также к истории сайта. Ресурс web.archive.org занимается регулярным сохранением сайтов, так что этот ресурс полезен не только с точки зрения получения контента, но и с точки зрения понимания к, примеру, как долго фирма работает в сети, меняла ли она за это время адрес или телефон и т.д. В столбце 'контент' вы получаете доступ к первой страницы сайта и дается краткая инструкция как получить этот контент. Дело в том, что отключение домена не означает, что весь контент исчез. До этого контента просто нельзя добраться стандартным способом. Как правило контент доступен, если период регистрации домена не совпадает с периодом оплаты хостинга. В общем есть вся информация, позволяющая оценить возможность восстановления сайта, и принятия решения по отправке предварительного заказа на освобождающийся домен. Если вы просто хотите восстановить сайт, не особо вдаваясь в хитрости, то можете поискать исполнителей на специализированном форуме. К примеру, такие услуги предлагаются в этой ветке форума или в этой ветке форума. В каждой из веток вы можете ознакомится с отзывами пользователей, которые уже воспользовались услугой. Проблемы, с которыми я сталкивался при получении контента сайта. Есть много программ, которые занимаются скачиванием сайтов на жесткий диск. Я, как пользователь *nix систем, использовал wget. Первое, с чем мне пришлось столкнуться при выкачивании сайта из web.archive.org - это файл robots.txt. Точнее не сам файл, а отношение к этому файлу программы wget. При попытке рекурсивного скачивания wget сначала заглядывал в robots.txt и , если ссылки попадали под запрет robots.txt, то wget их пропускал. Если выкачивать постранично, то wget не заглядывал в robots.txt и честно скачивал страницу. Вылечить это удалось добавив файл в домашнюю директорию .wgetrc с единственной записью "robots = off" web.archive.org web.archive.org оказался полон сюрпризов, рекурсивное скачивание wget останавливалось после выкачки одной страницы. Т.е., к примеру, захотел я скачать http://web.archive.org/web/20080112014047s...www.anglija.ru/, а получаю только эту страницу и стили . После разбора полетов выяснилось, что на web.archive.org стоит защита от рекурсивного скачивания. Они портят все ссылки на странице, добавляя в head: ... <BASE HREF="http://www.anglija.ru.way_back_stub/"> ... wget считает, что все ссылки смотрят за пределы данного сайта и не трогает их. А если закачивать страницу через обычный браузер, то после загрузки отрабатывает javascript и восстанавливает все ссылки: ... var sWayBackCGI = "http://web.archive.org/web/20080112014047/"; ... url = url.replace('.way_back_stub',''); aCollection[i][sProp] = sWayBackCGI + url; ... Т.е. для рекурсивной загрузки сайта из web.archive.org нужно либо специализированное решение, либо загрузчик, который отрабатывает javascript на странице. Сам не пробовал, но умные люди посоветовали Offline Explorer (под Windows) для загрузки, он умеет интерпретировать javascript на странице. А также посоветовали модуль под perl WWW::WebArchive, пример использования: use WWW::WebArchive; my $webarchive = WWW::WebArchive->new(); $webarchive->restore( { url => "http://" . $ARGV[0] } ); Модуль еще интересен тем, что декларирует возможность выкачки сайтов и из других систем: WWW::WebArchive - Retrieve old versions of public web pages from various web archives (i.e. www.archive.org, Internet Archive's Wayback Machine, or Google's page cache) 'контент' С контентом все проще, wget его берет, как отключить robots.txt написано выше. Но если вы не пользуетесь wget, то должны подобрать такой клиент, которому можно жестко забить некоторые заголовки запроса при обращении к сайту, а именно нас интересует заголовок 'Host'. Дело в том, что в случае неделегированного домена обращаться к сайту придется по IP адресу (http://194.84.65.210), а вот к какому сайту непосредственно вы обращаетесь (на одном ip адресе может быть много сайтов) вы жестко задаете в заголовке 'Host'. Иногда, при обращении, описанным выше способом, к сайту site.ru вас перенаправляют на www.site.ru или даже www.site.ru/index.html. Понятно, что загрузку надо остановить и начать заново, установив в Host:www.site.ru и начав закачку с url http://194.84.65.210/index.html.
	154/7191

Inquisitor \| Профиль	Дата 7 Марта, 2010, 1:53
Группа: Gold Member Сообщений: 1124 Регистрация: 03.09.07 Авторитет: 41 Вне форума Предупреждения: (0%)	SlavaD, Спасибо! от оно шо значить....

mowiv \|	Дата 13 Май, 2016, 12:41
Unregistered	Inquisitor, решили свой вопрос? Как решается вопрос поставленный в теме на данном историческом моменте? У меня, что-то ни одна программа(команда wget) нормально не выдаёт. Offline Explorer выкачивает кучу файлов а между собой как-то они не работают.
	1/

archivarix \|	Дата 19 Октября, 2017, 14:12
Unregistered	[Этот пост удален пользователем Rumata]

« Предыдущая тема | Software | Следующая тема »

Topic Options

Start new topic

Start Poll

[ Script Execution time: 0.0142 ] [ 12 queries used ] [ GZIP включён ]

Политика конфиденциальности

Powered by Invision Power Board © 2003 IPS, Inc. Registered to: Crimea-Board