Hvordan gjennomsøke et stort nettsted og trekke ut data ved hjelp av Screaming Frog's SEO Spider

Screaming Frog SEO Spider
Lesetid: 3 minutter

Vi hjelper flere kunder akkurat nå med Marketo-migrasjoner. Ettersom store selskaper bruker bedriftsløsninger som dette, er det som et edderkoppnett som fletter seg inn i prosesser og plattformer over år ... til det punktet at selskaper ikke engang er klar over hvert berøringspunkt.

Med en markedsføringsautomatiseringsplattform som Marketo, er skjemaer inngangspunktet for data på nettsteder og destinasjonssider. Bedrifter har ofte tusenvis av sider og hundrevis av skjemaer på sine nettsteder som må identifiseres for oppdatering.

Et flott verktøy for dette er Skriker froskens SEO Spider... kanskje den mest populære plattformen i markedet for gjennomgang, revisjon og utvinning av data fra et nettsted. Plattformen er funksjonsrik og tilbyr hundrevis av alternativer for praktisk talt alle oppgaver du trenger.

Screaming Frog SEO Spider: Crawl And Extract

Et sentralt trekk ved Screaming Frog SEO Spider er at du kan utføre tilpassede ekstraksjoner basert på regex, XPatheller CSSPath detaljer. Dette er ekstremt nyttig ettersom vi ønsker å gjennomsøke klientens nettsteder og revidere og fange MunchkinID og FormId-verdiene fra sider.

Åpne med verktøyet Konfigurasjon> Egendefinert> Utvinning for å identifisere elementer du ønsker å trekke ut.

skrikende frok tilpasset utvinning

Utvinningsskjermen muliggjør praktisk talt ubegrenset datainnsamling:

Screaming Frog SEO Spider Extraction Rules

Regex, XPath og CSSPath Extraction

For MunchkinID ligger identifikatoren innenfor skjemaskriptet som er på siden:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Vi bruker deretter en Regex-regel for å fange ID-en fra skriptekoden som er satt inn på siden:

Regex: ["']id["']: *["'](.*?)["']

For skjema-ID-en er dataene i en inngangskode i Marketo-skjemaet:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Vi bruker en XPath-regel for å fange ID-en fra skjemaet som er satt inn på siden. XPath-spørringen ser etter et skjema med inndata med navnet formid, deretter lagrer ekstraksjonen verdi:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript Rendering

Et annet flott alternativ med Screaming Frog er at du ikke er begrenset til HTML på siden, du kan gjengi JavaScript som skal sette inn skjemaer på nettstedet ditt. Innenfor Konfigurasjon> Edderkopp, kan du gå til gjengivelse-fanen og aktivere dette.

Screaming Frog SEO Spider Javascript Rendering

Dette tar selvfølgelig litt lenger tid å gjennomsøke nettstedet, men du får skjemaer som blir gjengitt på klientsiden av JavaScript, så vel som skjemaer som er satt inn på serversiden.

Selv om dette er et veldig spesifikt program, er det utrolig nyttig når du jobber med store nettsteder. Du vil absolutt kontrollere hvor skjemaene dine er innebygd på hele nettstedet.

Last ned Screaming Frog SEO Spider

Hva tror du?

Dette nettstedet bruker Akismet for å redusere spam. Lær hvordan kommentaren din behandles.