MurCode
Форумы
Поиск
О проекте
Delphi
Новое сообщение
Парсинг сайтов на дельфи
RichardIV
Дата: 24.12.2019 17:02:05
Была у меня программа, которая парсила определенный сайт. Она сохраняла на локальный диск код страницы и парсила с него таблицу в текстовый файл. Работало через IHTMLDocument2 и IHTMLElementCollection.
Таблица определялась по тегам.
Так вот, с недавних пор сайт не сохраняется, при попытке доступа появляется окно - сайт не поддерживает ваш браузер. Потому что IHTMLDocument2 открывает сайт через IE.
Как побороть проблему?
Может есть другой способ сохранить ?
Dimitry Sibiryakov
Дата: 24.12.2019 17:13:14
RichardIV
Может есть другой способ сохранить ?
Есть. Indy, CURL, любая другая библиотека, способная работать c HTTP.
Posted via ActualForum NNTP Server 1.5
Квейд
Дата: 24.12.2019 17:37:23
RichardIV
↑
Была у меня программа, которая парсила определенный сайт. Она сохраняла на локальный диск код страницы и парсила с него таблицу в текстовый файл. Работало через
IHTMLDocument2 и IHTMLElementCollection.
Таблица определялась по тегам.
Так вот, с недавних пор сайт не сохраняется, при попытке доступа появляется окно -
сайт не поддерживает ваш браузер.
Потому что IHTMLDocument2 открывает сайт через IE.
Как побороть проблему?
Может есть другой способ сохранить ?
Changing the UA (User Agent) of a TWebBrowser component
спасет ОРД?
Zelius
Дата: 24.12.2019 18:45:12
RichardIV,
Еще можно почитать про FEATURE_BROWSER_EMULATION, а вдруг...
ziv-2014
Дата: 24.12.2019 18:51:52
RichardIV,
А еще Chromium и MiniBlink
defecator
Дата: 24.12.2019 21:26:21
ziv-2014
↑
RichardIV,
А еще Chromium и MiniBlink
это уже тяжёлая артиллерия
crutchmaster
Дата: 25.12.2019 06:03:04
RichardIV,
Делать реверс. Сайтостроители последнее время стараются активно защищаться от таких умников.
Василий 2
Дата: 25.12.2019 09:45:10
defecator
↑
ziv-2014
↑
RichardIV,
А еще Chromium и MiniBlink
это уже тяжёлая артиллерия
Нет, тяжелая артиллерия это полноценный браузер через WebDriver ))
RichardIV
Дата: 25.12.2019 16:48:00
В общем нашел, от чего сайт не хочет парсится - там в коде есть блок на проверку версии браузера.
Скажите, а есть способ (чтобы без перебора каждой строки в файле) удалить из html файла все ссылки и скрипты?
Dimitry Sibiryakov
Дата: 25.12.2019 17:38:22
RichardIV
а есть способ (чтобы без перебора каждой строки в файле)
Удалить кусок содержимого файла не читая содержимое файла? Нет, обломись.
Posted via ActualForum NNTP Server 1.5
Назад
1
2
Вперед