Kom godt i gang med teknisk SEO: Screaming Frog konfiguration

746 Total
visninger
Hent tjekliste

I den her video skal vi snakke om Screaming Frog konfiguration og om hvordan du kommer godt i gang, så du kan få det fulde udbytte af Screaming Frog SEO spideren og så du præcist ved, hvordan du skal konfigurere den til de forskellige analyser som du skal udføre på dit website.

Velkommen til OnlinePartners TV. Jeg vil gå igennem alle de punkter, som jeg mener er vigtige for at du kommer godt i gang med at bruge Screaming Frog. Det første vi skal gå i gang med, det er at kigge på vores basis konfigurationer, og det gør vi ved at klikke på konfiguration og klikke på spider og derefter sikre os, at det er basic fanebladet, som er valgt. I de første fire punkter, kan I se, at jeg har valgt at sætte et flueben i, og det er fordi, jeg gerne vil have at spideren gennemlæser alle billeder, alle CSS filer, alle Javascript filer og eventuelt alle flashfiler, hvis man må bruge dem, for jeg vil nemlig rigtig gerne vide, om der er fuldstændig styr på den på mit website, og at der ikke er nogle af dem, der mangler, eller at der ikke er nogle af dem, der er døde.

Så er der punktet her, som jeg også har sat et flueben i, og det er nemlig ”check external links”, og det betyder ikke at spideren går ud og crawler de pågældende links, den går bare ud og tjekker, om de er levende eller om de er døde, og vi vil jo helst linke ud til nogle gode, relevante ting, så derfor er det godt at vide, om vi giver både brugeren og Google bot en god oplevelse ved at bruge vores udgående links.

Så er der det her punkt, som jeg også har sat et flueben i, og det hedder ”check links outside folder”, og den hænger tæt sammen med den indstilling, der er her nede, som jeg også har sat et flueben i, som hedder ”crawl outside of start folder”. Lad os starte med den hernede først.

Det med at man ”crawler outside of start folder”; lad os antage at du eksempelvis har sat dit site op til at du kun vil crawle et sproglag eller at du kun vil ligge en undermappe, der hedder /DA, fordi der har du alt dit danske indhold i og du ønsker ikke at den skal tage nogle af de andre sproglag, det skal bare være for den mappe og dybere. Det kan godt være, at du alligevel gerne vil have, at spideren tjekker om, hvis der nu bliver linket til det tyske sproglag eller til det engelske sproglag, linker den så til sider, der er levende og i orden. Det tjekker du ved at sørge for, at der også er flueben i det her oppe, der hedder ”check link outside folder”. Vær omhyggelig med at tjekke, at der står ”check links” ved de her konfigurationspunkter eller om der står ”crawl”, så er man med det samme med på, hvad det er, de betyder.


De næste to, som jeg også har valgt at sætte flueben i, det er ”Follow internal nofollow” og ”Follow external nofollow”, og det vi selvfølgelig vil spare dig for her, det er selvfølgelig også at crawle de filer og sider, som nofollow måtte pege på. Det er rigtigt, at som udgangspunkt, så siger man til en spider eller en Google bot, at den ikke skal følge de her sider, men det er alligevel vigtigt at få vores spider til at følge dem, for der kan være mange andre links, der peger ind på de sider, som ikke har nofollow, og så finder Google dem alligevel, skal vi sige ”ad bagveje” og får dem indekseret, så det skal vi sørge for at gøre på samme måde ved at sætte flueben i de to.

Så er der ”crawl all subdomains”, som jeg også har sat flueben i fordi vi vil egentlig gerne vide om der er subdomæner på det her, og om det er noget, der ligesom hænger sammen med hele det website, eller hele den webshop, jeg nu har sat op her, og jeg skal selvfølgelig have fat i alle elementer, også det indhold, der ligger på subdomæner.

Så er det den næstsidste, der har jeg sat flueben i den der hedder ”crawl canonicals”. Det er vigtigt, at du crawler canonicals, fordi lad os antage, at spideren først finder eksempelvis en webshop, hvor du har en masse varianter for hvert produkt, hvis jeg nu sparer dig og først finder varianterne, dem ønsker du måske ikke at få indekseret, men du ønsker at få indekseret hovedvarekortet, som varianterne peger på via canonical, jamen så skal du sørge for at sætte et flueben ved ”crawl canonicals”, så hvis spideren finder varianterne først, så får de også crawlet hovedvarekortet, for det er jo den, du gerne vil have indekseret.

Den sidste, den har jeg ikke markeret med flueben, det er ”ignore robots.txt”. Du skal kun sætte flueben i den indstilling, hvis du ved, at det site du crawler nu, ingen robots.txt har, og så er der jo ingen grund til at lade dig spare nogle ressourcer på at gå op og læse den og finde ud af, at den ikke er der. Det var de ting, der havde med basiskonfigurationerne at gøre.

Nu har vi så klaret basiskonfigurationerne, så er det næste punkt at gå ind og kigge på det her faneblad, der hedder advanced i de indstillinger, der er herinde. Det første punkt, er det, der hedder ”allow cookies” og ”allow cookies” det er jo at sætte din spider til at kunne fungere ligesom eksempelvis en browser eller scoverter(?)support for session cookies, det er det der eksempelvis fungerer sådan at du kan lægge varer i en kurv. Der er desværre nogle webshops, der så er gammeldags, så det er sådan at hvis der ikke er support for session cookies, jamen så sætter de en session ID op i URLen i stedet for, og problemet er så bare, at når spideren så kommer forbi, så får den en ny session ID hver gang, og så kan man få massive problemer med dobbelt indhold. Derfor, hvis du lader være med at sætte flueben i lige præcis den her indstilling, så får du din screamfrog spider til at afsløre det for dig med det samme. Det næste punkt det er request authentication, der har jeg ikke sat noget flueben i, fordi jeg ved, at det næste site jeg skal arbejde på, der er der ikke nogle steder hvor der er områder, der blokerer med et log-in. Det her er en indstilling, der er relevant, hvis du skal i gang med at gennemlæse et website, der ligger på et udviklingsdomæne, som godt kan være beskyttet af passwords for at andre ikke skal kunne komme ind og snuse, eller for at man ikke vil have Google bot til at indeksere det, for det skal være hoveddomænet, der skal indekseres i stedet for.

Det næste punkt det er ”pause on high memory usage”. Det har jeg ikke sat flueben i her, men det kan være nødvendigt, hvis man ved, at det er et kæmpestort website, man crawler. Årsagen til det her er, at screaming frog er lavet på en måde, hvor den ikke kører med en understøttende database, og derfor er den enormt RAM forbrugende, så hvis man har en computer med en begrænset mængde RAM i, så kan man komme ud for, at screaming frog ikke kan crawle det hele, så for at det giver et så gnidningsfrit crawl som muligt, så kan man så vælge at sætte flueben i den.

Det næste punkt det hedder ”always follow redirects”. Det har jeg valgt at sætte flueben i. Det kan jo godt være, at man har nogle interne links, som går via et redirect og dem skal man selvfølgelig i første omgang lade spideren følge, så man også får indekseret de sider, de peger på.
Så kommer vi til de næste to punkter, hvor jeg har valgt at sætte flueben i ”respect noindex” og ”respect canonicals” og det betyder, at hvis der er nogle sider, som du har blokeret mod indeksering enten ved at sætte metarobots til noindex eller hvis du har en side, hvor der er canonical på, der peger på en anden som værende originalen; som udgangspunkt så skal de sider jo ikke indekseres, men vi skal have spideren til at gennemlæse dem, og så finde ud af at ”hov, de er blokerede” og så kommer de så ikke med i det endelige testresultat, du har. Det der er vigtigt med at spare dig for gennemlæsning alligevel, det er, at der jo kan være links på de sider – selvom de blokerer mod indeksering – der peger på andet indhold, som man til gengæld godt vil have med.
Så kommer vi så til de tre punkter hernede og det er ”response time” og det er screaming frogs interne pause, den vil vente på at noget indhold bliver leveret af websøgeren, og den har jeg sat til 30 sekunder. Herved giver man den websøger man crawler rimelig tid til at svare tilbage og omvendt så står screaming frog spideren heller ikke og venter i evigheder og så man aldrig får gennemført et crawl helt.
Så er der den, der hedder 5xx, det er jo de her status eller response koder, 500 fejl, og hvis du har en side der svarer tilbage med det – det kan lige kort være midlertidigt for din websøger at belaste, så har jeg sat den til 1 her, og det er fordi, jeg synes at spideren lige skal give den side en chance mere, men så heller ikke mere, for hvis den svarer tilbage med status 500 2 gange i træk, så er det altså fordi der er noget galt med den pågældende side på serveren.

Det sidste punkt hernede det er ”max redirects to follow”. Den kan I se, at hvis jeg klikker her, så kan den ikke gå højere end 20, og jeg synes du skal sætte den til maximum. Det kan godt være, at du har en kæde af interne redirects, der er rigtig, rigtig lange, men jeg synes du skal sørge for at spare dig for at crawle enhver af dem, som de måtte ende med at pege på, også selvom at spare dig måske skal helt igennem 20 interne redirects inden den finder den pågældende side, som redirectet det peger på. Og det er så de punkter, der er relevante her i den avancerede konfiguration.

Lad os nu antage, at vi har gennemlæst vores website mange gange, og vi har nu fået fuldstændig styr på alle billeder, Javascript filer, CSS filer og så videre, og dem ønsker vi ikke længere at gennemlæse. Det første vi så gør, det er at gå tilbage til basiskonfigurationerne og så fjerner vi de 4 flueben her ud fra billeder, CSS, Javascript og Flash. Der er så bare det ved det, at det ikke tilstrækkeligt for at være sikker på at spideren ikke gennemlæser alle billeder og CSS og Javascript filer. Årsagen til det, det er, at når en spider læser en side, en HTML side for eksempel og når den læser et billede, det kunne være et JPG billede, der ender med .jpg, så er det faktisk ikke det en spider, eller en browser for den sags skyld, kigger på når de skal vurdere, hvad indholdet er for noget. De kigger i stedet på noget, der hedder Mimetype og Mimetypen kan du se her for 2 forskellige ting, som jeg lige vil fremhæve. Det første det er ”application Javascript”, så kan du se, at Mimetypen siger fra websøgeren ud til browseren eller til din spider: ”det her, det er Javascript kode, der ligger her”. Hernede der kan du se, der står ”image/png” og det betyder at den pågældende fil her indeholder et billede. Jeg ved ikke, om du har set, at der er nogle billeder, der for eksempel ender på ”id”, der står ikke ”.jpg” eller ”png”, men browseren kan eksempelvis godt vise billedet alligevel. Det er fordi Mimetypen fortæller til browseren eller spideren, at her er der et billede. Der er så bare det, at nogle websøgere ved en fejl ikke oplyser en browser eller en spider om den her Mimetype, den vil bare være blank og så ved spideren ikke, hvad det er for noget, og så tager den det med alligevel. Der findes et godt trick til at sørge for at de ikke bliver læst med alligevel, vi vil i hvert fald nå hovedparten, og det gør vi ved at gå op i ”configuration” og vælge ”exclude”. Og inde i ”exclude”, der gør vi så det at vi kan paste de her filtre ind. Her kan du se, at det alt sammen er kendte filendelser for billeder. Javascript, CSS og for PDF. Du kan indtaste dem, du måtte ønske heri. Så har vi – ligesom at vi går med livrem og seler – både fjernet faneblade og tidligere basiskonfigurationer. Lad være med at kigge på de her elementer, for det behøver vi ikke, dem har vi styr på. Hvis vi sætter disse filtre ind, så er vi altså helt sikre på, at der er ingen af dem, der bliver læst med. Men husk, det er kun noget du skal gøre, hvis du er helt sikker på at du har styr på alt med billeder, CSS og javascript. Det, du er klar til at fokusere på nu, det er at få 100% styr på dine HTML sider.

Det vi skal kigge på nu, det er hvor hurtigt vi kan få screaming frog til at læse det website vi skal lave analyse på uden at vi nødvendigvis kommer til at lægge websitet ned på grund af overbelastning. Det gør vi ved at klikke ”configuration” og dernæst ”speed”. Den primære årsag til om et website kan gennemlæses hurtigt eller ej, det er altså hvor god en båndbredde og hvor godt hardware det pågældende website har og kan svare tilbage. Her kan I se, at screaming frog som standard er sat op til at køre med 5 samtidigt kørende tråde. Det vil så sige at den kan læse 5 sider på samme tid og det vil jeg altid anbefale dig at starte op med. Hvis du så kan se, når du starter op, at siderne de triller ind til spideren og at de svarer tilbage med måske max 1 sekund, jamen så kan du godt stoppe spideren og så gå ind og hæve antallet af sider den læser samtidigt og dermed få det til at gå hurtigere. Går det til gengæld langsomt – det tager måske 2-3 sekunder – så vil jeg ikke hæve antallet, for så risikerer du bare at lægge det site ned, som du er ved at gennemlæse, på grund af overbelastning.

Det næste vi skal kigge på, det er user agent. Det får man frem ved at klikke på configuration og så finde user agent. User agent, det er den besked som en browser eller en spider sender tilbage til websøgeren om ”hvem er jeg”. En firefox browser vil fortælle websøgeren at det er en firefox browser og eksempelvis det samme for en chromebrowser, og det samme gælder så, når en Google bot kommer forbi, så vil den også fortælle ”hvem er jeg” og den vil fortælle at det er Google bot. Så er der så bare det, at nogle websøgere de er indstillede sådan at de kun vil levere indhold, hvis det er en kendt browser – hvis det er en firefox, chrome eller en internet explorer. De kan sagtens være sat op til, at de ikke aner hvem Google bot eller nogle andre er, og der kan du så teste, at dit website ikke har den har den indekseringsbarriere. Du går herind og vælger forskellige typer Google bots, og der kan du prøve dem af for at se at du altid får det samme indhold tilbage uanset om du vælger den ene eller anden. Her vil jeg anbefale dig, at du ikke kun vælger én, eksempelvis en helt standard Google bot, men at du også nogle gange går ind og vælger den der hedder ”custom”. Her kan du skrive lige, hvad du har lyst til i de her felter. Du kan prøve i hvert fald de to af og sikre dig at websøgeren svarer tilbage med det, den skal uanset om du vælger den ene eller den anden.

Det vi skal kigge på nu, det er mulighederne for via extraction, som du finder under ”configuration”, ”custom” og ”extraction” og her at opsætte alle de filtre, man måtte ønske for at foretage yderligere analyser på det HTML kode, som spideren gennemlæser. Det jeg eksempelvis viser her, det er en måde hvorpå, man kan få oplysninger om pagination og om nofollow, som sidder på interne links. Hvis du eksempelvis har en kategoriside, som sidder i en serie, så kan du via pagination sørge for at Google opfatter – selvom det er mange kategorisider, der sidder i forlængelse af hinanden – at det er opfattet som en lang kategoriside, og det reducerer klikdybden på dit website. Det er også en rigtig god idé at finde alle de steder på dit website, hvor du bruger nofollow på interne links, fordi hvis du gør det, så smider du bare noget af din interne pagerank i skraldespanden og det er det ikke nogen grund. Den måde jeg har sat det op på, kan du se her. De to første linjer de er for ”next” og ”previous” som er sat op i hovedsektionen for en side med pagination, og det næste det er to måder at opsætte filtre på, hvordan man kan få nofollow på interne eller eksterne links. Det er så op til dig, der må lave en nærmere analyse af om de pågældende links er interne eller eksterne og så fjerne dem, hvor de er på interne. Den måde du finder dem på bagefter, det er ved at klikke herovre og finde ”custom” kolonnen og så går du over i filter, her kan se jeg kan vælge forskellige, men jeg vælger ”extraction”. Så kan du se at kolonnerne heroppe, her kan du finde de sider, hvor du har pagination, hvor der står ”next” på og hvor jeg har pagination, hvor der står ”previous” på og her er der så også konkrete eksempler på, hvor der er fundet 2 forskellige links på sitet, hvor der er sat nofollow på. Her kan du se, hvor jeg har musen lige nu, at der står rel=nofollow, så det er så link, hvis de er interne, hvor du skal sørge for at få nofollow fjernet.

Her til slut, der skal vi lige prøve at kigge på det, der hedder ”file” og så bagefter ”default config” og ”save current configuration as default”, nu lader jeg den lige stå et øjeblik. Det der er vigtigt ved det her punkt, det er at nu har du så siddet og lavet en hel masse detaljerede konfigurationer af din screaming frog spider, og den konfiguration vil du måske gerne gemme til mange forskellige websitesprojekter som du arbejder på og så er det rart at du ikke skal sidde og lave de indstillinger igen, igen og igen, og de kan du sikre dig ved at du går ind under ”file”, ”default config” og ”save current configuration as default” og så husker den lige præcis de indstillinger til næste gang, så det er et godt afsluttende tip til konfiguration af din screaming frog SEO spider.

Det var så mine forslag til konfiguration af screaming frog, jeg håber du fik noget ud af dem. Husk, du kan hente mine anbefalinger som en tjekliste via linket under videoen. Har du spørgsmål eller input til de ting, jeg har gennemgået, så vil jeg meget gerne høre fra dig, så brug endelig kommentarfeltet.

Tak fordi du så med!

Læs mereSkriv en kommentar

3 svar til “Kom godt i gang med teknisk SEO: Screaming Frog konfiguration

  1. Det skal jeg love for at det er en ordentlig gennemgang af Screaming Frog konfiguration.

    Det vil så sige at man kan bruge Screaming Frog til andet, end kun det med meta-titel og Meta-beskrivelsen.

    Super gennemgang 5 stjerner til dig (y)

  2. Hold nu op! jeg har set den her video mange gang efterhånden, og jeg lærer noget nyt HVER gang!

    Det er virkelig en god guide 🙂

    Jeg har dog et spørgsmål omkring, ‘filter’ på den pågældende webshop som der bliver crawlet af seo spideren..

    Min spider er nået op på 22.900 sider som skal crawles og det er stadig stigende. Er der en funktion som gør at den ikke tage alle filter siderne med, som Google alligevel ikke crawler? (så vidt jeg ved)

    PS: Jeg ønsker mig en opdateret ny video som denne, den er guld værd ! og der er sikkert kommet rigtige mange nye funktioner / elementer i kan snakke om 😀

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Tip a friend
Felter markeret med en * skal udfyldes

NYESTE VIDEOER

Grosen Friis
I DENNE VIDEO
Grosen Friis

Grosen Friis er en af danmarks dygtigste SEO-eksperter, og med en baggrund som programmør er teknisk SEO en af Grosens stærkeste sider.

MERE OM GROSEN FRIIS