Jak procházet velké stránky a extrahovat data pomocí aplikace Spider od Screaming Frog

Screaming Frog SEO Spider

Právě teď pomáháme několika klientům Marketo migrace. Jelikož velké společnosti využívají taková podniková řešení, je to jako pavučina, která se v průběhu let prolíná do procesů a platforem ... až do té míry, že si společnosti ani neuvědomují každý kontaktní bod.

S platformou pro automatizaci podnikového marketingu, jako je Marketo, jsou formuláře vstupním bodem dat na všech webech a vstupních stránkách. Společnosti mají na svých webech často tisíce stránek a stovky formulářů, které je třeba pro aktualizaci identifikovat.

Skvělý nástroj k tomu je Křičící žába SEO Spider… Možná nejpopulárnější platforma na trhu pro procházení, audit a extrakci dat z webu. Platforma je bohatá na funkce a nabízí stovky možností pro prakticky každý úkol, který požadujete.

Screaming Frog SEO Spider: procházení a extrakce

Klíčovým rysem Screaming Frog SEO Spider je, že můžete provádět vlastní extrakce na základě Regulární výraz, XPathnebo CSSPath specifika. To je velmi užitečné, protože chceme procházet weby klienta a auditovat a zaznamenávat hodnoty MunchkinID a FormId ze stránek.

Pomocí nástroje otevřete Konfigurace> Vlastní> Extrakce k identifikaci prvků, které chcete extrahovat.

screamingfrog vlastní extrakce

Extrakční obrazovka umožňuje prakticky neomezené shromažďování dat:

Screaming Frog SEO Spider Extrakce Pravidla

Regex, XPath a CSSPath Extrakce

Pro MunchkinID je identifikátor umístěn ve skriptu formuláře, který je na stránce:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Poté aplikujeme a Pravidlo regulárního výrazu zachytit ID ze značky skriptu vložené na stránku:

Regex: ["']id["']: *["'](.*?)["']

U ID formuláře jsou data ve vstupní značce ve formuláři Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Aplikujeme Pravidlo XPath zachytit ID z formuláře, který je vložen na stránku. Dotaz XPath hledá formulář se vstupem se jménem formid, pak extrakce uloží hodnota:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript Rendering

Další skvělá volba Screaming Frog spočívá v tom, že nejste omezeni na HTML na stránce, můžete vykreslit jakýkoli JavaScript, který bude vkládat formuláře na váš web. V rámci Konfigurace> Spider, můžete přejít na kartu Vykreslování a povolit to.

Screaming Frog SEO Spider Javascript Rendering

Samozřejmě to trvá trochu déle, než procházet web, ale získáte formuláře, které jsou vykresleny na straně klienta pomocí JavaScriptu, a také formuláře, které jsou vloženy na straně serveru.

I když se jedná o velmi specifickou aplikaci, je neuvěřitelně užitečná, protože pracujete s velkými weby. Určitě budete chtít zkontrolovat, kde jsou vaše formuláře vložené na celém webu.

Stáhněte si Screaming Frog SEO Spider

Co si myslíte?

Tyto stránky používají Akismet k omezení spamu. Zjistěte, jak jsou vaše údaje komentářů zpracovávány.