Jak procházet velké stránky a extrahovat data pomocí aplikace Spider od Screaming Frog

Screaming Frog SEO Spider
Čas na čtení: 3 minut

Právě teď pomáháme několika klientům Marketo migrace. Jelikož velké společnosti využívají taková podniková řešení, je to jako pavučina, která se v průběhu let prolíná do procesů a platforem ... až do té míry, že si společnosti ani neuvědomují každý kontaktní bod.

S platformou pro automatizaci podnikového marketingu, jako je Marketo, jsou formuláře vstupním bodem dat na všech webech a vstupních stránkách. Společnosti mají na svých webech často tisíce stránek a stovky formulářů, které je třeba pro aktualizaci identifikovat.

Skvělý nástroj k tomu je Křičící žába SEO Spider… Možná nejpopulárnější platforma na trhu pro procházení, audit a extrakci dat z webu. Platforma je bohatá na funkce a nabízí stovky možností pro prakticky každý úkol, který požadujete.

Screaming Frog SEO Spider: procházení a extrakce

Klíčovým rysem Screaming Frog SEO Spider je, že můžete provádět vlastní extrakce na základě Regulární výraz, XPathnebo CSSPath specifika. To je velmi užitečné, protože chceme procházet weby klienta a auditovat a zaznamenávat hodnoty MunchkinID a FormId ze stránek.

Pomocí nástroje otevřete Konfigurace> Vlastní> Extrakce k identifikaci prvků, které chcete extrahovat.

screamingfrog vlastní extrakce

Extrakční obrazovka umožňuje prakticky neomezené shromažďování dat:

Screaming Frog SEO Spider Extrakce Pravidla

Regex, XPath a CSSPath Extrakce

Pro MunchkinID je identifikátor umístěn ve skriptu formuláře, který je na stránce:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Poté aplikujeme a Pravidlo regulárního výrazu zachytit ID ze značky skriptu vložené na stránku:

Regex: ["']id["']: *["'](.*?)["']

U ID formuláře jsou data ve vstupní značce ve formuláři Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Aplikujeme Pravidlo XPath zachytit ID z formuláře, který je vložen na stránku. Dotaz XPath hledá formulář se vstupem se jménem formid, pak extrakce uloží hodnota:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Javascript Rendering

Další skvělá volba Screaming Frog spočívá v tom, že nejste omezeni na HTML na stránce, můžete vykreslit jakýkoli JavaScript, který bude vkládat formuláře na váš web. V rámci Konfigurace> Spider, můžete přejít na kartu Vykreslování a povolit to.

Screaming Frog SEO Spider Javascript Rendering

Samozřejmě to trvá trochu déle, než procházet web, ale získáte formuláře, které jsou vykresleny na straně klienta pomocí JavaScriptu, a také formuláře, které jsou vloženy na straně serveru.

I když se jedná o velmi specifickou aplikaci, je neuvěřitelně užitečná, protože pracujete s velkými weby. Určitě budete chtít zkontrolovat, kde jsou vaše formuláře vložené na celém webu.

Stáhněte si Screaming Frog SEO Spider

Co si myslíte?

Tyto stránky používají Akismet k omezení spamu. Zjistěte, jak jsou vaše údaje komentářů zpracovávány.