SEO
/
Crawlers

Crawlers

(Web)crawlers spelen een cruciale rol in de wereld van SEO. Crawlers worden ook wel spider, of spiderbot genoemd. De crawlers waarover we spreken hebben als doel om pagina's op het internet te vinden en te indexeren. De belangrijkste crawler waar waarover we het hebben is Googlebot

Wat zijn crawlers?

Crawlers zijn stukjes software die geprogrammeerd zijn om automatisch informatie op het web te vinden en te verwerken. Binnen SEO worden er aandachtig naar crawlers gekeken omdat deze informatie verzameld die mogelijk kan worden weergegeven in zoekmachines. Veel website-eigenaren doen dan ook hun uiterste best de website zo toegankelijk mogelijk te maken voor deze crawlers.

Hoe werken crawlers?

Crawlers gaan op zoek naar informatie en gegevens op websites en in mindere maten mobiele applicaties. Een crawler begint met een website URL of een lijst aan URL's. Een crawler bezoekt deze URL's en scant de inhoud van website achter deze URL's. Tijdens het bezoek zoekt de crawler naar linkjes en slaat deze op aan een "te bezoeken" lijst om deze pagina's in de toekomst te bezoeken. Tijdens het bezoeken van de pagina's slaat een crawler de gevonden informatie op, vaak om het zoeken binnen de betreffende pagina's in de toekomst te vereenvoudigen.

Crawlers worden bijna altijd ingezet door zoekmachines. Verschillendde algoritmes sturen de crawlers aan en vertellen naar welke informatie ze moeten zoeken. Je kunt een crawler zien als iemand die door een hele collectie boeken struint en belangrijke informatie arceert met een marker. Zo kan iemand op een later moment vliegensvlug gebruik maken van deze nuttige informatie zonder zelf het boek te moeten lezen.

Een crawler werkt als vogt:

  • Kies een startpunt (bestaande webpagina of lijst aan pagina's: sitemap)
  • Bekijk de pagina en sla belangrijke informatie op
  • Volg de links op de pagina en ontdek nieuwe pagina's om te crawlen

Het crawlen van het web is erg kostbaar. Er zijn miljoenen websites actief. Crawlers zijn dag en nacht bezig al deze informatie op te slaan en te verwerken. Om te zorgen dat ze dit op de meest effieciente wijze doen werken ze volgens bepaalde regels.

Niet alle pagina's zijn even relavant. Pagina's met weinig content of pagina's die nauwelijks bezocht worden zijn niet interessant.

Sommige pagina's zijn juist erg interessant en worden regelmatig geupdatet. De crawler moet in dit geval periodiek terugkomen om de updates te verwerken.

Waarom crawlers belangrijk zijn voor SEO?

Simpel: als Google je website niet weet te vinden, kunnen ze deze ook niet weergeven. Je wil zorgen dat Google jouw pagina's ziet en opslaat. Over het algemeen gaat het proces van crawlen en weergeven automatisch. Je hebt hier geen invloed op, maar hoeft je er ook geen zorgen over te maken.

Verifiëren of Google je pagina's kan crawlen

Om te verifieren of Google je pagina's succesvol kan crawlen heb je een account bij Search Console nodig.

Op deze pagina wordt uitgelegd wat Google Search Console precies is en hoe het werkt.

Search console homepagina

Na het inloggen bij Search Console klik je in het linkermenu op "Coverage"

Coverage tab searchconsole

Je ziet een scherm met vier knoppen

Uitleg per onderdeel:

  • Error
    In deze tab worden alle pagina's weergegeven waarop errors gevonden zijn. Onder errors vallen pagina's die een statuscode in de range 500–599 teruggeven. Bijvoorbeeld een "500 Internal Server Error"
  • Valid with warnings
    Hieronder verschijnen waarschuwing die gaan over het indexeren van je pagina's en/of de content daarvan. Een voorbeeld is een waarschuwing over missende eigenschappen wanneer je structured data of rich snippets wil opnemen.
  • Valid
    Onder valid komt een overzicht met alle pagina's die goed door Google zijn gecrawld. Een melding die je hier tegen kunt komen is als volgt: "Indexed, not submitted in sitemap". Dit betekent in het kort dat Google meer pagina's heeft gevonden dan je aan hebt gegeven in je sitemap. Dit is geen reden tot zorg. Echter een hint op je sitemap even onder de loep te nemen.
  • Excluded
    De "excluded" tab is belangrijk. Hieronder zie je alle pagina's die NIET door Google worden geïndexeerd. Dit kan zijn omdat de pagina niet gevonden wordt (404), de pagina duplicate content bevat of dat de content om andere manieren niet voldoet om in zoekresultaten te verschijnen.
Screenshot from 2022 01 24 11 31 11

Kort samengevat

Kort samengevat heb je gelezen wat crawlers zijn, dat crawlers voornamelijk door zoekmachines worden ingezet en heb je gelezen hoe crawlers te werk gaan. Heb je vragen over crawlers of wil je meer weten over zoekmachine optimalisatie? Bekijk al onze content. We vertellen je alles over zoekmachine optimalisatie en hoe je je website beter vindbaar maakt in Google.

list