Сканер исходного текста web-страниц

Паша :)
Дата: 10.06.2009 17:54:38
Появилась у меня задумка, а как реализовать - не знаю.

Хочу вот что: скармливаю программе url, она от него и глубже, но не выходя за границы сайта и не выше каталога, сканирует страницы и ищет в коде то, что мне нужно. Если находит, то "откладывает в сторонку".
Опыт работы с Delphi слишком мал. Не знаю, какие компоненты нужны для того, чтобы грузить странички, как осуществлять поиск в коде страницы, как вообще получить доступ именно к коду.
Визуальное отображение страниц мне не требуется.

Помогите, пожалуйста, советами, ссылками на FAQ. Извините, что обращаюсь и большое спасибо за помощь.
miksoft
Дата: 10.06.2009 17:58:02
Какие страницы скачивать, какие не скачивать - зависит от того, что было найдено до того или нет?

Если нет, то любым wget-ом или Teleport-ом скачиваете нужную часть сайта и в локальных файлах ищете.
Паша :)
Дата: 10.06.2009 18:00:06
Мне вообще сами страницы не нужны. И скачивать не хотелось бы их.
Можно ли просматривать исходный код и при нахождении там того, что мне нужно копировать всего одну строчку из исходного кода + заголовок страницы.
равшан
Дата: 10.06.2009 18:04:51
Паша :),

сеть:
Synapse
ICS

парсинг:
любая либа для работы с регулярными выражениями
DIRegEx например
miksoft
Дата: 10.06.2009 18:06:35
Что вы вашем понимании "исходный код" ? HTML? Тогда вам нужно скачать страницу.
А уж сохранять ее в файл или нет - уже неважно.
Паша :)
Дата: 10.06.2009 18:07:56
равшан, ин рашн плиз)

Изложу затею подробнее.
В коде странице параметром может передаваться ссылка на txt файл, а может и не передаваться.
Программа получает ссылку на стартовую страницу и начинает переходить по ссылкам ниже, глубже в каталоге, при нахождении в коде страницы ссылки на .txt файл скопировать её и перейти к следующей странице.
Паша :)
Дата: 10.06.2009 18:08:49
автор
Что вы вашем понимании "исходный код" ? HTML? Тогда вам нужно скачать страницу.

Конечно, Вы правы. Глупость я сказал.
равшан
Дата: 10.06.2009 18:33:23
Паша :),

загружаешь по http html-страницу
в тексте html-страницы регулярником находишь все ссылки на текстовые документы
загружаешь по http эти документы

либы скачай, примеры посмотри, там все есть
Паша :)
Дата: 10.06.2009 18:49:02
Спасибо, за Ваш ответ.
Постараюсь разобраться :)
Если можно - ссылки на примеры *краснею и наглею и ленюсь и краснею сильнее*
defecator
Дата: 11.06.2009 10:36:19
Паша :),

помимо поиска ссылок на файлы тебе нужно еще парсить
всю страницу HTML, так как тебе нужны будут ссылки на следующие страницы,
чтобы грузить их.

Так что поищи в сети готовый HTML-парсер. Это проще, чем писать свой собственный.

Linux - must die
Долгих лет тебе, Билли !