Jak procházet velké stránky a extrahovat data pomocí aplikace Spider od Screaming Frog
V současné době pomáháme několika klientům s migrací Marketo. Vzhledem k tomu, že velké společnosti využívají podniková řešení, jako je tato, je to jako pavučina, která se roky proplétá do procesů a platforem, dokud si společnosti ani neuvědomují každý kontaktní bod.
S platformou pro automatizaci podnikového marketingu, jako je Marketo, jsou formuláře vstupním bodem dat na webech a vstupních stránkách. Společnosti mají na svých webech často tisíce stránek a stovky formulářů, které musí být identifikovány pro aktualizaci.
Skvělý nástroj k tomu je Křičící žába SEO Spider… možná nejoblíbenější platforma na trhu SEO pro procházení, auditování a extrahování dat z webu. Platforma bohatá na funkce nabízí stovky možností pro prakticky každý úkol, který požadujete. Tyto funkce však sahají daleko za rámec optimalizace pro vyhledávání, s jednou neuvěřitelně užitečnou funkcí pro extrahování dat z vašeho webu při jeho procházení.
Screaming Frog SEO Spider: procházení a extrakce
Klíčovým rysem Screaming Frog SEO Spider je, že můžete provádět vlastní extrakce na základě Regulární výraz, XPathnebo CSSPath specifika. To je mimořádně užitečné, protože chceme procházet klientské weby a auditovat a zaznamenávat hodnoty MunchkinID a FormId ze stránek.
Pomocí nástroje otevřete Konfigurace> Vlastní> Extrakce k identifikaci prvků, které chcete extrahovat.
Extrakční obrazovka umožňuje prakticky neomezené shromažďování dat:
Regex, XPath a CSSPath Extrakce
U MunchkinID je identifikátor umístěn ve skriptu formuláře, který je na stránce:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
Poté aplikujeme a Pravidlo regulárního výrazu zachytit ID ze značky skriptu vložené na stránku:
Regex: ["']id["']: *["'](.*?)["']
U ID formuláře jsou data ve vstupní značce ve formuláři Marketo:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
Aplikujeme Pravidlo XPath k zachycení ID z formuláře vloženého na stránku. Dotaz XPath hledá formulář se vstupem s názvem impozantní, pak extrakce uloží hodnota:
XPath: //form/input[@name="formid"]/@value
Extrahujte značky inline stylu
Pomáháme klientovi vyčistit web, kde použil vložené styly v pluginu Elementor k přizpůsobení prakticky každého prvku na stránce. Abychom zjistili, kde byly použity vložené styly, provedli jsme na webu několik pravidel RegEx pro vlastní extrakci:
- Styl Span Inline:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Styl vložené značky ukotvení:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Styl vloženého tagu Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- Styl vložené značky nadpisu:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
vyloučení
At Martech Zone, poskytujeme web ve více jazycích v různých subdoménách. Procházení těchto překladů není nutné, protože všechna aktiva a informace jsou založeny na hlavním webu. Z tohoto důvodu jsme povolili konfiguraci seznamu vyloučení a přidali následující pravidlo:
.*\.martech.zone
Můžete to také použít k přeskočení procházení nepotřebných cest, jako jsou značky, přidáním:
martech.zone/tag/.*
Nechceme také procházet naše stránky AMP, které končí v ?amp=1
, takže v
https?://[^\s]+?\?amp=1
Platforma má dokonce pěkný způsob, jak některé otestovat URL proti pravidlům, abyste se ujistili, že před procházením webu budou správně fungovat.
Screaming Frog SEO Spider JavaScript vykreslování
Další skvělou možností Screaming Frog je, že nejste omezeni pouze na HTML na stránce můžete vykreslit jakýkoli JavaScript, který bude vkládat formuláře na váš web. V rámci Konfigurace> Spider, můžete přejít na kartu Vykreslování a povolit to.
Samozřejmě to trvá trochu déle, než procházet web, ale získáte formuláře, které jsou vykresleny na straně klienta pomocí JavaScriptu, a také formuláře, které jsou vloženy na straně serveru.
I když se jedná o velmi specifickou aplikaci, je neuvěřitelně užitečná, protože pracujete s velkými weby. Určitě budete chtít zkontrolovat, kde jsou vaše formuláře vložené na celém webu.
Stáhněte si Screaming Frog SEO Spider
Zveřejnění: Martech Zone používá své přidružené odkazy v tomto článku.