Парсинг сайтов на дельфи

RichardIV
Дата: 24.12.2019 17:02:05
Была у меня программа, которая парсила определенный сайт. Она сохраняла на локальный диск код страницы и парсила с него таблицу в текстовый файл. Работало через IHTMLDocument2 и IHTMLElementCollection.
Таблица определялась по тегам.
Так вот, с недавних пор сайт не сохраняется, при попытке доступа появляется окно - сайт не поддерживает ваш браузер. Потому что IHTMLDocument2 открывает сайт через IE.
Как побороть проблему?
Может есть другой способ сохранить ?
Dimitry Sibiryakov
Дата: 24.12.2019 17:13:14

RichardIV
Может есть другой способ сохранить ?

Есть. Indy, CURL, любая другая библиотека, способная работать c HTTP.

Posted via ActualForum NNTP Server 1.5

Квейд
Дата: 24.12.2019 17:37:23
RichardIV
Была у меня программа, которая парсила определенный сайт. Она сохраняла на локальный диск код страницы и парсила с него таблицу в текстовый файл. Работало через IHTMLDocument2 и IHTMLElementCollection.
Таблица определялась по тегам.
Так вот, с недавних пор сайт не сохраняется, при попытке доступа появляется окно - сайт не поддерживает ваш браузер. Потому что IHTMLDocument2 открывает сайт через IE.
Как побороть проблему?
Может есть другой способ сохранить ?


Changing the UA (User Agent) of a TWebBrowser component спасет ОРД?
Zelius
Дата: 24.12.2019 18:45:12
RichardIV,

Еще можно почитать про FEATURE_BROWSER_EMULATION, а вдруг...
ziv-2014
Дата: 24.12.2019 18:51:52
RichardIV,
А еще Chromium и MiniBlink
defecator
Дата: 24.12.2019 21:26:21
ziv-2014
RichardIV,
А еще Chromium и MiniBlink

это уже тяжёлая артиллерия
crutchmaster
Дата: 25.12.2019 06:03:04
RichardIV,

Делать реверс. Сайтостроители последнее время стараются активно защищаться от таких умников.
Василий 2
Дата: 25.12.2019 09:45:10
defecator
ziv-2014
RichardIV,
А еще Chromium и MiniBlink

это уже тяжёлая артиллерия

Нет, тяжелая артиллерия это полноценный браузер через WebDriver ))
RichardIV
Дата: 25.12.2019 16:48:00
В общем нашел, от чего сайт не хочет парсится - там в коде есть блок на проверку версии браузера.
Скажите, а есть способ (чтобы без перебора каждой строки в файле) удалить из html файла все ссылки и скрипты?
Dimitry Sibiryakov
Дата: 25.12.2019 17:38:22

RichardIV
а есть способ (чтобы без перебора каждой строки в файле)

Удалить кусок содержимого файла не читая содержимое файла? Нет, обломись.

Posted via ActualForum NNTP Server 1.5