Выбираем сайт с которого хотим спарсить данные на пример сайт habr.com. И сегодня мы попробуем найти материал, у которого больше всего комментариев.
Переходим на любую страницу материала, скроллим к блоку отзывов. Правой кнопкой мыши кликам по количеству комментариев и выбираем «Просмотреть код»:
Далее выбираем код, который отвечает за вывод количества и снова кликаем правой кнопкой мыши на выбранном элементе. Копируем XPath:
Открываем Screaming Frog, копируем адрес сайта в поле:
Не спешите кликать на кнопку «Start». Переходим в меню Configuration — Custom — Extraction:
Выбираем настройки как на скрине (1) и вставляем скопированный код XPath в поле (2):
После этого необходимо добавить правило парсинга только по постам, что бы не тянуть мусорные страницы. Переходим снова в меню Configuration — Include:
И добавляем правило парсинга только постов (.* — любые символы):
После всего это жмем ОК и начинаем парсинг нажатием на кнопку Start.
Хабр сайт очень большой, ждать пока жаба спарсит все страницы мы не будем, поэтому покажем результат на том, на что у меня хватило терпения ждать).
Скроллим правое меню до блока «Custom», выбираем Extaction:
Вот мы и нашли пост, у которого наибольшее количество комментариев:
Что еще
А еще мы можем доставать необходимую нам информацию по шаблону, например мыло или номер телефона. Разберем ситуацию с мылом.
Спарсим с помощью RDS ТОП 100 выдачи:
В спайдере выбираем LIST:
Настраиваем выборку:
И добавляем следующий код — [a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+
Загружаем в спайдер спарсеные сайты:
И получаем базу мыла:
Источник: https://politay.pro/parsim-kontent-konkurenta/
Возможно вас заинтересует
-
Информационный сайт
особенности SEO-оптимизации
-
Три кита идеального лендинга
Как грамотно объединить копирайтинг, дизайн и маркетинг
-
-
Что такое SILO структура сайта?
как с помощью этого улучшить наш сайт
-
Яндекс: избавиться от Баден-Бадена
можно только после полного отказа от SEO-текстов
-
7 SEO-трендов 2018 года
К чему стоит готовиться владельцам сайтов, интернет-маркетологам и SEO-специалистам.
-
Мета тег description
Мета тег description предназначен для создания краткого описания страницы
-
-
-
KPI — ключевые показатели эффективности
KPI — это метрики, позволяющие оценить результативность рекламной кампании.