Hvordan gjennomsøke et stort nettsted og trekke ut data ved hjelp av Screaming Frog's SEO Spider
Vi bistår flere kunder akkurat nå med Marketo-migreringer. Ettersom store selskaper bruker bedriftsløsninger som dette, er det som et edderkoppnett som vever seg inn i prosesser og plattformer over år inntil selskaper ikke en gang er klar over alle berøringspunkter.
Med en automatiseringsplattform for bedriftsmarkedsføring som Marketo, er skjemaer inngangspunktet for data gjennom nettsteder og landingssider. Bedrifter har ofte tusenvis av sider og hundrevis av skjemaer på nettstedene sine som må identifiseres for oppdatering.
Et flott verktøy for dette er Skriker froskens SEO Spider… kanskje den mest populære plattformen i SEO-markedet for å gjennomsøke, revidere og trekke ut data fra et nettsted. Den funksjonsrike plattformen tilbyr hundrevis av alternativer for praktisk talt hver oppgave du trenger. Funksjonene strekker seg imidlertid langt utover optimering for søk, med en utrolig nyttig funksjon for å trekke ut data fra nettstedet ditt mens det gjennomsøkes.
Screaming Frog SEO Spider: Crawl and Extract
Et sentralt trekk ved Screaming Frog SEO Spider er at du kan utføre tilpassede ekstraksjoner basert på regex, XPatheller CSSPath detaljer. Dette er ekstremt nyttig ettersom vi ønsker å gjennomsøke klientens nettsteder og revidere og fange opp MunchkinID- og FormId-verdiene fra sidene.
Åpne med verktøyet Konfigurasjon> Egendefinert> Utvinning for å identifisere elementer du ønsker å trekke ut.
Utvinningsskjermen muliggjør praktisk talt ubegrenset datainnsamling:
Regex, XPath og CSSPath Extraction
For MunchkinID er identifikatoren plassert i skjemaskriptet som er på siden:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Vi bruker deretter en Regex-regel for å fange ID-en fra skriptekoden som er satt inn på siden:
Regex: ["']id["']: *["'](.*?)["']
For skjema-ID-en er dataene i en inngangskode i Marketo-skjemaet:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Vi bruker en XPath-regel for å fange ID-en fra skjemaet som er satt inn på siden. XPath-spørringen ser etter et skjema med en inndata med navnet på formidabel, deretter lagrer ekstraksjonen verdi:
XPath: //form/input[@name="formid"]/@value
Trekk ut innebygde stiletiketter
Vi hjelper en klient med å rydde opp på et nettsted der de brukte innebygde stiler på Elementor-plugin-modulen for å tilpasse praktisk talt hvert element med en side. For å identifisere hvor innebygde stiler ble brukt, skrapte vi nettstedet med flere RegEx-regler for tilpasset utvinning:
- Span Inline Style:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Anchor Tag Inline Style:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div Tag Inline Style:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Innebygd stil for overskriftstag:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Utelukkelser
At Martech Zone, betjener vi nettstedet på flere språk på forskjellige underdomener. Det er ikke nødvendig å gjennomsøke disse oversettelsene siden alle eiendeler og informasjon er basert på kjernenettstedet. På grunn av dette har vi aktivert Ekskluderingslistekonfigurasjonen og lagt til følgende regel:
.*\.martech.zone
Du kan også bruke dette til å hoppe over å gjennomsøke unødvendige stier som tagger ved å legge til:
martech.zone/tag/.*
Vi ønsker heller ikke å gjennomsøke AMP-sidene våre, som ender med ?amp=1
, så i
https?://[^\s]+?\?amp=1
Plattformen har til og med en fin metode for å teste noen Nettadresser mot reglene for å sikre at de fungerer som de skal før du gjennomsøker nettstedet ditt.
Screaming Frog SEO Spider JavaScript-gjengivelse
Et annet flott alternativ med Screaming Frog er at du ikke er begrenset til HTML på siden kan du gjengi hvilket som helst JavaScript som skal sette inn skjemaer på nettstedet ditt. Innenfor Konfigurasjon> Edderkopp, kan du gå til gjengivelse-fanen og aktivere dette.
Dette tar selvfølgelig litt lenger tid å gjennomsøke nettstedet, men du får skjemaer som blir gjengitt på klientsiden av JavaScript, så vel som skjemaer som er satt inn på serversiden.
Selv om dette er et veldig spesifikt program, er det utrolig nyttig når du jobber med store nettsteder. Du vil absolutt kontrollere hvor skjemaene dine er innebygd på hele nettstedet.
Last ned Screaming Frog SEO Spider
Avsløring: Martech Zone bruker sine tilknyttede lenker i denne artikkelen.