E-postmarkedsføring og automatiseringmarkedsførings~~POS=TRUNC

Hvordan gjennomsøke et stort nettsted og trekke ut data ved hjelp av Screaming Frog's SEO Spider

Vi bistår flere kunder akkurat nå med Marketo-migreringer. Ettersom store selskaper bruker bedriftsløsninger som dette, er det som et edderkoppnett som vever seg inn i prosesser og plattformer over år inntil selskaper ikke en gang er klar over alle berøringspunkter.

Med en automatiseringsplattform for bedriftsmarkedsføring som Marketo, er skjemaer inngangspunktet for data gjennom nettsteder og landingssider. Bedrifter har ofte tusenvis av sider og hundrevis av skjemaer på nettstedene sine som må identifiseres for oppdatering.

Et flott verktøy for dette er Skriker froskens SEO Spider… kanskje den mest populære plattformen i SEO-markedet for å gjennomsøke, revidere og trekke ut data fra et nettsted. Den funksjonsrike plattformen tilbyr hundrevis av alternativer for praktisk talt hver oppgave du trenger. Funksjonene strekker seg imidlertid langt utover optimering for søk, med en utrolig nyttig funksjon for å trekke ut data fra nettstedet ditt mens det gjennomsøkes.

Screaming Frog SEO Spider: Crawl and Extract

Et sentralt trekk ved Screaming Frog SEO Spider er at du kan utføre tilpassede ekstraksjoner basert på regex, XPatheller CSSPath detaljer. Dette er ekstremt nyttig ettersom vi ønsker å gjennomsøke klientens nettsteder og revidere og fange opp MunchkinID- og FormId-verdiene fra sidene.

Åpne med verktøyet Konfigurasjon> Egendefinert> Utvinning for å identifisere elementer du ønsker å trekke ut.

skrikende frok tilpasset utvinning

Utvinningsskjermen muliggjør praktisk talt ubegrenset datainnsamling:

Skrikende frosk SEO Spider Extraction Regler

Regex, XPath og CSSPath Extraction

For MunchkinID er identifikatoren plassert i skjemaskriptet som er på siden:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Vi bruker deretter en Regex-regel for å fange ID-en fra skriptekoden som er satt inn på siden:

Regex: ["']id["']: *["'](.*?)["']

For skjema-ID-en er dataene i en inngangskode i Marketo-skjemaet:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Vi bruker en XPath-regel for å fange ID-en fra skjemaet som er satt inn på siden. XPath-spørringen ser etter et skjema med en inndata med navnet på formidabel, deretter lagrer ekstraksjonen verdi:

XPath: //form/input[@name="formid"]/@value

Trekk ut innebygde stiletiketter

Vi hjelper en klient med å rydde opp på et nettsted der de brukte innebygde stiler på Elementor-plugin-modulen for å tilpasse praktisk talt hvert element med en side. For å identifisere hvor innebygde stiler ble brukt, skrapte vi nettstedet med flere RegEx-regler for tilpasset utvinning:

  • Span Inline Style:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Anchor Tag Inline Style:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Div Tag Inline Style:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
  • Innebygd stil for overskriftstag:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"

Utelukkelser

At Martech Zone, betjener vi nettstedet på flere språk på forskjellige underdomener. Det er ikke nødvendig å gjennomsøke disse oversettelsene siden alle eiendeler og informasjon er basert på kjernenettstedet. På grunn av dette har vi aktivert Ekskluderingslistekonfigurasjonen og lagt til følgende regel:

.*\.martech.zone

Du kan også bruke dette til å hoppe over å gjennomsøke unødvendige stier som tagger ved å legge til:

martech.zone/tag/.*

Vi ønsker heller ikke å gjennomsøke AMP-sidene våre, som ender med ?amp=1, så i

Konfigurasjon > Ekskluder seksjonen, har vi også lagt til:

https?://[^\s]+?\?amp=1

Plattformen har til og med en fin metode for å teste noen Nettadresser mot reglene for å sikre at de fungerer som de skal før du gjennomsøker nettstedet ditt.

ScreamingFrog > Konfigurasjon > Ekskluder

Screaming Frog SEO Spider JavaScript-gjengivelse

Et annet flott alternativ med Screaming Frog er at du ikke er begrenset til HTML på siden kan du gjengi hvilket som helst JavaScript som skal sette inn skjemaer på nettstedet ditt. Innenfor Konfigurasjon> Edderkopp, kan du gå til gjengivelse-fanen og aktivere dette.

Screaming Frog SEO Spider JavaScript-gjengivelse

Dette tar selvfølgelig litt lenger tid å gjennomsøke nettstedet, men du får skjemaer som blir gjengitt på klientsiden av JavaScript, så vel som skjemaer som er satt inn på serversiden.

Selv om dette er et veldig spesifikt program, er det utrolig nyttig når du jobber med store nettsteder. Du vil absolutt kontrollere hvor skjemaene dine er innebygd på hele nettstedet.

Last ned Screaming Frog SEO Spider

Avsløring: Martech Zone bruker sine tilknyttede lenker i denne artikkelen.

Douglas Karr

Douglas Karr er CMO for Åpne INSIGHTS og grunnleggeren av Martech Zone. Douglas har hjulpet dusinvis av vellykkede MarTech-startups, har bistått med due diligence på over 5 milliarder dollar i Martech-oppkjøp og -investeringer, og fortsetter å hjelpe selskaper med å implementere og automatisere salgs- og markedsføringsstrategier. Douglas er en internasjonalt anerkjent digital transformasjons- og MarTech-ekspert og foredragsholder. Douglas er også en publisert forfatter av en Dummies guide og en bok om lederskap for bedrifter.

Relaterte artikler

Tilbake til toppen-knappen
Lukke

Annonseblokkering oppdaget

Martech Zone er i stand til å gi deg dette innholdet uten kostnad fordi vi tjener penger på nettstedet vårt gjennom annonseinntekter, tilknyttede lenker og sponsing. Vi vil sette pris på om du vil fjerne annonseblokkeringen når du ser på nettstedet vårt.