Работа с программой Screaming Frog

1944

Выбираем сайт с которого хотим спарсить данные на пример сайт habr.com. И сегодня мы попробуем найти материал, у которого больше всего комментариев.

Переходим на любую страницу материала, скроллим к блоку отзывов. Правой кнопкой мыши кликам по количеству комментариев и выбираем «Просмотреть код»:

Далее выбираем код, который отвечает за вывод количества и снова кликаем правой кнопкой мыши на выбранном элементе. Копируем XPath:

копируем XPath

Открываем Screaming Frog, копируем адрес сайта в поле:

screaming frog

Не спешите кликать на кнопку «Start». Переходим в меню Configuration — Custom — Extraction:

конфигурация парсинга

Выбираем настройки как на скрине (1) и вставляем скопированный код XPath в поле (2):

настройка парсинга

После этого необходимо добавить правило парсинга только по постам, что бы не тянуть мусорные страницы. Переходим снова в меню Configuration — Include:

include

И добавляем правило парсинга только постов (.* — любые символы):

После всего это жмем ОК и начинаем парсинг нажатием на кнопку Start.

Хабр сайт очень большой, ждать пока жаба спарсит все страницы мы не будем, поэтому покажем результат на том, на что у меня хватило терпения ждать).

Скроллим правое меню до блока «Custom», выбираем Extaction:

extraction

Вот мы и нашли пост, у которого наибольшее количество комментариев:

результат парсинга конкурента

Что еще

А еще мы можем доставать необходимую нам информацию по шаблону, например мыло или номер телефона. Разберем ситуацию с мылом.

Спарсим с помощью RDS ТОП 100 выдачи:

выдача по запросу обои москва

В спайдере выбираем LIST:

Spider - List

Настраиваем выборку:

выборка в спайдере

И добавляем следующий код — [a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+

парсинг мыла

Загружаем в спайдер спарсеные сайты:

добавление сайтов

И получаем базу мыла:

итоговый результат


Источник: https://politay.pro/parsim-kontent-konkurenta/


Возможно вас заинтересует