Как сканировать большой сайт и извлекать данные с помощью SEO Spider от Screaming Frog

Кричать Frog SEO паук

Мы помогаем нескольким клиентам прямо сейчас с Маркето миграции. Поскольку крупные компании используют подобные корпоративные решения, это похоже на паутину, которая годами вплетается в процессы и платформы… до такой степени, что компании даже не осознают каждую точку взаимодействия.

В платформе автоматизации корпоративного маркетинга, такой как Marketo, формы являются точкой входа данных на всех сайтах и ​​целевых страницах. Компании часто имеют тысячи страниц и сотни форм на своих сайтах, которые необходимо идентифицировать для обновления.

Отличный инструмент для этого - SEO Паук Кричащей Лягушки… Возможно, самая популярная платформа на рынке для сканирования, аудита и извлечения данных с сайта. Платформа многофункциональна и предлагает сотни вариантов практически для любой задачи, которая вам нужна.

Screaming Frog SEO Spider: сканирование и извлечение

Ключевой особенностью Screaming Frog SEO Spider является то, что вы можете выполнять пользовательское извлечение на основе Regex, XPath или CSSPath специфика. Это чрезвычайно полезно, поскольку мы хотим сканировать сайты клиента, а также проводить аудит и захватывать значения MunchkinID и FormId со страниц.

С помощью инструмента откройте Конфигурация> Пользовательский> Извлечение для определения элементов, которые вы хотите извлечь.

screamingfrog кастомное извлечение

Экран извлечения позволяет собирать практически неограниченные данные:

Кричащая лягушка правила извлечения паука SEO

Regex, XPath и извлечение CSSPath

Для MunchkinID идентификатор находится в скрипте формы на странице:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Затем мы применяем Правило регулярного выражения для захвата идентификатора из тега скрипта, вставленного на страницу:

Regex: ["']id["']: *["'](.*?)["']

Для идентификатора формы данные находятся во входном теге в форме Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Мы применяем Правило XPath для захвата идентификатора из формы, вставленной на страницу. Запрос XPath ищет форму с входом с именем грозный, то извлечение сохраняет значение:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Визуализация JavaScript

Еще один отличный вариант Screaming Frog заключается в том, что вы не ограничены HTML-кодом на странице, вы можете отображать любой JavaScript, который будет вставлять формы на ваш сайт. В Конфигурация> Паук, вы можете перейти на вкладку «Рендеринг» и включить это.

Screaming Frog SEO Spider Визуализация JavaScript

Конечно, сканирование сайта занимает немного больше времени, но вы получите формы, которые отображаются на стороне клиента с помощью JavaScript, а также формы, которые вставляются на стороне сервера.

Хотя это очень специфическое приложение, оно невероятно полезно при работе с большими сайтами. Вы обязательно захотите проверить, где ваши формы встроены по всему сайту.

Скачать Screaming Frog SEO Spider

Как вы думаете?

Этот сайт использует Akismet для уменьшения количества спама. Узнайте, как обрабатываются ваши данные комментариев.