скриншоты web страниц + html код

YuriyB
Дата: 11.02.2010 00:11:12
Добрый день !

нужно делать скриншоты web страниц полностью
а также одновременно сохранять полностью их код
включая все подключаемые файлы (*.js)

желательно на основе mozilla.

какие есть возможности ?

или как можно в командной строке вызвать mozilla
и получить html код страницы.
Relic Hunter
Дата: 11.02.2010 01:10:49
YuriyB,

wget ?
YuriyB
Дата: 11.02.2010 01:47:47
Relic Hunter
YuriyB,

wget ?


это не совсем то .

во первых он не грузит весь код (например подключаемые javascript скрипты)
а во вторых мне же нужет и скриншот еще.

есть например плугин для firefox
http://torisugari.googlepages.com/cmdlnprint_0_5_1.xpi

который позволяет

$> firefox -print google.com
быстро получить скриншо НО КОД страницы ?!

реальное это скрипт с Xfvb ( X-Server) вместе с Firefox
с какамито модулями или плугинами
Relic Hunter
Дата: 11.02.2010 02:04:06
YuriyB
во первых он не грузит весь код (например подключаемые javascript скрипты)
Грузит...

# wget --?
Recursive download:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
--delete-after delete files locally after downloading them.
Андрей Панфилов
Дата: 11.02.2010 02:57:43
Relic Hunter,

я полагаю ТС нужно что-то вроде того, как IE сохраняет в mhtml
Relic Hunter
Дата: 11.02.2010 03:07:02
TC,

IE легко автоматизируется на VB SCRIPT, если это не принципиально.
ART-CODE
Дата: 11.02.2010 10:29:35
Интересно, а кто будет "гасить" запросы пользователю из скриптов (Alert/MsgBox) и сообщения об ошибке на странице, и различные вопросы от подсистемы безопасности ?
И не просто гасить, а давать разумные, осмысленные ответы на вопросы.

imho, фото экрана нужно желать с отключенными скриптами, хотя это означает , что изображение
не будет в точности соответствовать тому, что увидит пользователь.

Чтобы выцепить картинку из IE можно погуглить
IHTMLElementRender
IViewObject
Про другие броузеры ничего сказать не могу...

Насчет сохранения HTML кода: а что насчет Ajax - динамичеких запросов ?
Данные, полученные динамически могут не сохранятся в файл и вы их никак не получите , кроме перехвата на проксике т.е. создаете туннель на обычных сокетах и заставляете работать браузер через этот туннель, весь траффик перехватываете и сохраняете. Впрочем погут быть проблемы с перехватом SSL... но это тоже решаемо.

С++ Вам в помощь.
YuriyB
Дата: 11.02.2010 10:50:23
вот еть наробтки здесь


http://www.mysql-apache-php.com/website_screenshot.htm

или щдесь


http://marginalhacks.com/Hacks/html2jpg/

но номрального работающего решения я пока не нашел
miksoft
Дата: 11.02.2010 12:25:07
YuriyB,

Сделать полный скриншот всей страницы может плагин FireShot
В FF автоматизировать действия можно плагинами Greasemonkey и iMacros (оба не пробовал).
YuriyB
Дата: 11.02.2010 12:49:11
miksoft
YuriyB,

Сделать полный скриншот всей страницы может плагин FireShot
В FF автоматизировать действия можно плагинами Greasemonkey и iMacros (оба не пробовал).



но мне нужно ОДНОВРЕМЕННО получить и код страницы (html , js ,....)

задача такая

есть 10000 URL с динамическими страницами которые меняют свой код при каждом новом вызове
и раз в час с них нужно делать полный скриншот всей страницы
если в её коде попадается заданый ключ