Wéi een e grousse Site krabbelt an Daten extrahéiert mat Screaming Frog's SEO Spider
Mir hëllefen e puer Clienten elo mat Marketo Migratiounen. Wéi grouss Firmen Enterprise Léisunge wéi dës benotzen, ass et wéi e Spannnetz, dee sech iwwer Joeren a Prozesser a Plattformen weeft, bis Firmen net emol vun all Touchpoint bewosst sinn.
Mat enger Enterprise Marketing Automatisatiounsplattform wéi Marketo, Forme sinn den Entrée vun Daten iwwer Siten a Landungssäiten. Firmen hunn dacks Dausende vu Säiten an Honnerte vu Formen uechter hir Siten déi musse identifizéiert ginn fir ze aktualiséieren.
E super Tool dofir ass Gejäiz Frog's SEO Spider... vläicht déi populärste Plattform um SEO Maart fir ze krabbelen, ze auditéieren an ze extrahieren vun Daten vun engem Site. Déi Feature-räich Plattform bitt Honnerte vun Optiounen fir quasi all Aufgab déi Dir braucht. D'Features verlängeren awer wäit iwwer d'Optimiséierung fir d'Sich, mat enger onheemlech hëllefräich Feature fir Daten vun Ärer Säit ze extrahieren wéi se gekrabbelt ginn.
Screaming Frog SEO Spider: Crawl And Extrait
Eng Schlëssel Feature vu Screaming Frog SEO Spider ass datt Dir personaliséiert Extraktiounen ausféiere kënnt op Basis regex, XPath, oder CSSPath Spezifizitéiten. Dëst ass extrem nëtzlech well mir d'Siten vum Client wëlle krauchen an d'MunchkinID a FormId Wäerter vu Säiten iwwerpréiwen an erfaassen.
Mat dem Tool op Konfiguratioun> Benotzerdefinéiert> Extraktioun fir Elementer z'identifizéieren déi Dir extrahéiere wëllt.
Den Extraitbildschierm erlaabt praktesch onlimitéiert Datensammlung:
Regex, XPath, an CSSPath Extraktioun
Fir de MunchkinID ass den Identifizéierer am Formulaireskript dat op der Säit ass:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Mir passen dann a Regex Regel fir d'Id aus dem Skript Tag festzehalen, deen an d'Säit agefouert gëtt:
Regex: ["']id["']: *["'](.*?)["']
Fir d'Form ID sinn d'Donnéeën an engem Input Tag an der Marketo Form:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Mir uwenden eng XPath Regel fir d'ID aus dem Formulaire, deen op der Säit agebaut ass, opzehuelen. D'Xpath Ufro sicht eng Form mat engem Input mat engem Numm vun formidabel, da spuert d'Extraktioun den Wäert:
XPath: //form/input[@name="formid"]/@value
Extrait Inline Style Tags
Mir hëllefen e Client e Site ze botzen wou se inline Stiler am Elementor Plugin benotzt hunn fir praktesch all Element mat enger Säit ze personaliséieren. Fir z'identifizéieren wou Inline Stiler benotzt goufen, hu mir de Site mat verschiddene RegEx Reegele fir personaliséiert Extraktioun geschrauft:
- Span Inline Style:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Anchor Tag Inline Style:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Div Tag Inline Style:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Heading Tag Inline Style:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
Exclusiounen
At Martech Zone, Mir servéieren de Site a verschidde Sproochen op verschidden Ënnerdomainen. Dës Iwwersetzunge krabbelen ass net néideg well all d'Verméigen an d'Informatioun op der Kernsäit baséieren. Dofir hu mir d'Ausgrenzungslëscht Konfiguratioun aktivéiert an déi folgend Regel bäigefüügt:
.*\.martech.zone
Dir kënnt dëst och benotze fir onnéideg Weeër wéi Tags ze krabbelen andeems Dir bäigefüügt:
martech.zone/tag/.*
Mir wëllen och net eis AMP Säiten krabbelen, déi op en Enn kommen ?amp=1
, also an der
https?://[^\s]+?\?amp=1
D'Plattform huet souguer eng flott Method fir e puer ze testen URLen géint d'Regele fir sécherzestellen datt se richteg funktionnéieren ier Dir Äre Site crawlt.
Screaming Frog SEO Spider JavaScript Rendering
Eng aner super Optioun vu Screaming Frog ass datt Dir net limitéiert sidd op de HTML op der Säit kënnt Dir all JavaScript ofginn, deen Formulaire op Ärem Site asetzt. Bannen Konfiguratioun> Spider, kënnt Dir op de Rendering Tab goen an dëst aktivéieren.
Dëst dauert e bësse méi laang fir de Site ze krauchen, natierlech, awer Dir kritt Formulairen déi Client-Säit vu JavaScript gemaach ginn, wéi och Formen déi agefouert ginn Server-Säit.
Och wann dëst eng ganz spezifesch Uwendung ass, ass et eng onheemlech nëtzlech wéi Dir mat grousse Site schafft. Dir wëllt onbedéngt Audit maachen, wou Är Formen am ganze Site agebett sinn.
Luet Screaming Frog SEO Spider erof
Präisgi: Martech Zone benotzt seng Affiliate Linken an dësem Artikel.