Электронный маркетинг и автоматизацияМаркетинговые инструменты

Как сканировать большой сайт и извлекать данные с помощью SEO Spider от Screaming Frog

Сейчас мы помогаем нескольким клиентам с миграцией Marketo. Поскольку крупные компании используют подобные корпоративные решения, это похоже на паутину, которая годами вплетается в процессы и платформы, пока компании даже не осознают каждую точку соприкосновения.

В платформе автоматизации корпоративного маркетинга, такой как Marketo, формы являются точкой входа данных на сайты и целевые страницы. Компании часто имеют на своих сайтах тысячи страниц и сотни форм, которые необходимо идентифицировать для обновления.

Отличный инструмент для этого - SEO Паук Кричащей Лягушки… пожалуй, самая популярная платформа на рынке SEO для сканирования, аудита и извлечения данных с сайта. Многофункциональная платформа предлагает сотни опций практически для каждой необходимой вам задачи. Однако эти функции выходят далеко за рамки оптимизации для поиска и включают одну невероятно полезную функцию для извлечения данных с вашего сайта во время его сканирования.

Screaming Frog SEO Spider: сканирование и извлечение

Ключевой особенностью Screaming Frog SEO Spider является то, что вы можете выполнять пользовательское извлечение на основе Regex, XPathили CSSПат специфика. Это чрезвычайно полезно, поскольку мы хотим сканировать сайты клиента, проверять и фиксировать значения MunchkinID и FormId со страниц.

С помощью инструмента откройте Конфигурация> Пользовательский> Извлечение для определения элементов, которые вы хотите извлечь.

screamingfrog кастомное извлечение

Экран извлечения позволяет собирать практически неограниченные данные:

Кричащая лягушка правила извлечения паука SEO

Regex, XPath и извлечение CSSPath

Идентификатор MunchkinID находится в скрипте формы на странице:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Затем мы применяем Правило регулярного выражения для захвата идентификатора из тега скрипта, вставленного на страницу:

Regex: ["']id["']: *["'](.*?)["']

Для идентификатора формы данные находятся во входном теге в форме Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Мы применяем Правило XPath чтобы захватить идентификатор из формы, вставленной на страницу. Запрос XPath ищет форму с входными данными с именем грозный, то извлечение сохраняет ценностное :

XPath: //form/input[@name="formid"]/@value

Извлечение тегов встроенного стиля

Мы помогаем клиенту очистить сайт, на котором он использовал встроенные стили в плагине Elementor для настройки практически каждого элемента страницы. Чтобы определить, где использовались встроенные стили, мы очистили сайт с помощью нескольких правил RegEx для индивидуального извлечения:

  • Стиль Span Inline:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Встроенный стиль тега привязки:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Встроенный стиль тега Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Тег заголовка Встроенный стиль:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"

Что не включено

At Martech Zone, мы обслуживаем сайт на нескольких языках в разных поддоменах. Сканирование этих переводов не требуется, поскольку все ресурсы и информация основаны на основном сайте. По этой причине мы включили настройку списка исключений и добавили следующее правило:

.*\.martech.zone

Вы также можете использовать это, чтобы пропустить сканирование ненужных путей, таких как теги, добавив:

martech.zone/tag/.*

Мы также не хотим сканировать наши AMP-страницы, которые заканчиваются на ?amp=1, так что в

Конфигурация> Исключить раздел, мы также добавили:

https?://[^\s]+?\?amp=1

Платформа даже имеет хороший метод для тестирования некоторых URL-адреса против правил, чтобы убедиться, что они работают правильно, прежде чем сканировать свой сайт.

ScreamingFrog > Конфигурация > Исключить

Screaming Frog SEO Spider JavaScript-рендеринг

Еще один отличный вариант Screaming Frog заключается в том, что вы не ограничены HTML на странице вы можете отображать любой JavaScript, который будет вставлять формы на ваш сайт. В пределах Конфигурация> Паук, вы можете перейти на вкладку «Рендеринг» и включить это.

Screaming Frog SEO Spider JavaScript-рендеринг

Конечно, сканирование сайта занимает немного больше времени, но вы получите формы, которые отображаются на стороне клиента с помощью JavaScript, а также формы, которые вставляются на стороне сервера.

Хотя это очень специфическое приложение, оно невероятно полезно при работе с большими сайтами. Вы обязательно захотите проверить, где ваши формы встроены по всему сайту.

Скачать Screaming Frog SEO Spider

Раскрытие информации: Martech Zone использует свои партнерские ссылки в этой статье.

Douglas Karr

Douglas Karr является директором по маркетингу OpenINSIGHTS и основатель компании Martech Zone. Дуглас помог десяткам успешных стартапов MarTech, помог в комплексной проверке приобретений и инвестиций Martech на сумму более 5 миллиардов долларов, а также продолжает помогать компаниям во внедрении и автоматизации их стратегий продаж и маркетинга. Дуглас — международно признанный эксперт по цифровой трансформации, а также эксперт в области MarTech и спикер. Дуглас также является автором опубликованного руководства для чайников и книги по бизнес-лидерству.

Статьи по теме

Вернуться к началу кнопки
Закрыть

Adblock обнаружен

Martech Zone может предоставить вам этот контент бесплатно, потому что мы монетизируем наш сайт за счет доходов от рекламы, партнерских ссылок и спонсорства. Мы были бы признательны, если бы вы удалили блокировщик рекламы при просмотре нашего сайта.