Как сканировать большой сайт и извлекать данные с помощью SEO Spider от Screaming Frog
Сейчас мы помогаем нескольким клиентам с миграцией Marketo. Поскольку крупные компании используют подобные корпоративные решения, это похоже на паутину, которая годами вплетается в процессы и платформы, пока компании даже не осознают каждую точку соприкосновения.
В платформе автоматизации корпоративного маркетинга, такой как Marketo, формы являются точкой входа данных на сайты и целевые страницы. Компании часто имеют на своих сайтах тысячи страниц и сотни форм, которые необходимо идентифицировать для обновления.
Отличный инструмент для этого - SEO Паук Кричащей Лягушки… пожалуй, самая популярная платформа на рынке SEO для сканирования, аудита и извлечения данных с сайта. Многофункциональная платформа предлагает сотни опций практически для каждой необходимой вам задачи. Однако эти функции выходят далеко за рамки оптимизации для поиска и включают одну невероятно полезную функцию для извлечения данных с вашего сайта во время его сканирования.
Screaming Frog SEO Spider: сканирование и извлечение
Ключевой особенностью Screaming Frog SEO Spider является то, что вы можете выполнять пользовательское извлечение на основе Regex, XPathили CSSПат специфика. Это чрезвычайно полезно, поскольку мы хотим сканировать сайты клиента, проверять и фиксировать значения MunchkinID и FormId со страниц.
С помощью инструмента откройте Конфигурация> Пользовательский> Извлечение для определения элементов, которые вы хотите извлечь.
Экран извлечения позволяет собирать практически неограниченные данные:
Regex, XPath и извлечение CSSPath
Идентификатор MunchkinID находится в скрипте формы на странице:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Затем мы применяем Правило регулярного выражения для захвата идентификатора из тега скрипта, вставленного на страницу:
Regex: ["']id["']: *["'](.*?)["']
Для идентификатора формы данные находятся во входном теге в форме Marketo:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Мы применяем Правило XPath чтобы захватить идентификатор из формы, вставленной на страницу. Запрос XPath ищет форму с входными данными с именем грозный, то извлечение сохраняет ценностное :
XPath: //form/input[@name="formid"]/@value
Извлечение тегов встроенного стиля
Мы помогаем клиенту очистить сайт, на котором он использовал встроенные стили в плагине Elementor для настройки практически каждого элемента страницы. Чтобы определить, где использовались встроенные стили, мы очистили сайт с помощью нескольких правил RegEx для индивидуального извлечения:
- Стиль Span Inline:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Встроенный стиль тега привязки:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Встроенный стиль тега Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Тег заголовка Встроенный стиль:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Что не включено
At Martech Zone, мы обслуживаем сайт на нескольких языках в разных поддоменах. Сканирование этих переводов не требуется, поскольку все ресурсы и информация основаны на основном сайте. По этой причине мы включили настройку списка исключений и добавили следующее правило:
.*\.martech.zone
Вы также можете использовать это, чтобы пропустить сканирование ненужных путей, таких как теги, добавив:
martech.zone/tag/.*
Мы также не хотим сканировать наши AMP-страницы, которые заканчиваются на ?amp=1
, так что в
https?://[^\s]+?\?amp=1
Платформа даже имеет хороший метод для тестирования некоторых URL-адреса против правил, чтобы убедиться, что они работают правильно, прежде чем сканировать свой сайт.
Screaming Frog SEO Spider JavaScript-рендеринг
Еще один отличный вариант Screaming Frog заключается в том, что вы не ограничены HTML на странице вы можете отображать любой JavaScript, который будет вставлять формы на ваш сайт. В пределах Конфигурация> Паук, вы можете перейти на вкладку «Рендеринг» и включить это.
Конечно, сканирование сайта занимает немного больше времени, но вы получите формы, которые отображаются на стороне клиента с помощью JavaScript, а также формы, которые вставляются на стороне сервера.
Хотя это очень специфическое приложение, оно невероятно полезно при работе с большими сайтами. Вы обязательно захотите проверить, где ваши формы встроены по всему сайту.
Скачать Screaming Frog SEO Spider
Раскрытие информации: Martech Zone использует свои партнерские ссылки в этой статье.