Google (of eigenlijk moederbedrijf Alphabet) is een groot bedrijf met veel medewerkers. Met de jaarwisseling naar 2019 had Alphabet ongeveer 100.000 mensen in dienst. Geen van die medewerkers bezoekt websites om te bepalen welke positie een website moet hebben in Google Search. Wel zijn er mensen die bekijken welke websites een straf moeten hebben en gedevalueerd worden, maar dat is voor een ander blog. Ondanks het ontbreken van directe menselijke input ‘begrijpt’ Google wat een website is, wat er wordt geschreven, wat er wordt getoond en hoe actief een website wordt bijgewerkt. Het bezoeken van websites door zoekmachines is volledig geautomatiseerd en gebeurt door zogenoemde robots, of eigenlijk “search engine crawlers”. Het interessante is dat die robots zoveel mogelijk menselijk bezoek na moeten bootsen, terwijl ze een website niet letterlijk zien. Hoe dat werkt en waarom ze die taak goed van mensen kunnen overnemen, beschrijf ik in dit blog.

Typisch menselijk gedrag

Een persoon die vanuit Google Search een website bezoekt heeft bijvoorbeeld naar een lease auto. Er zijn uiteraard meerdere sites die organisch en via advertenties een antwoord op die vraag hebben en door Google getoond worden. Kortom: er worden 10 organische resultaten en 8 advertenties vertoond. De persoon klikt op een resultaat en gaat naar de desbetreffende website. Daar spelen ineens veel zaken, waaronder gevoel. Zeker bij een nieuwe (lease) auto, waar het om grote uitgaven en lange looptijden gaat. Het gevoel moet dus goed zijn en de website moet tenminste betrouwbaar ogen. Er zijn ook opties nodig om verder door te klikken en bij specifieke auto’s terecht te komen. Daarnaast leest een mens teksten, begrijpt de betekenis en ziet relevante afbeeldingen. Dit draagt allemaal bij aan de gebruikerservaring, die uniek is voor mensen.

Een zoekmachine is geen biologisch wezen

Wanneer de zoekmachine crawler het internet afgaat zijn er aanzienlijke verschillen. De crawler is een emotieloze robot die enorm gestructureerd te werk gaat. Een zoekmachine robot gaat het internet link voor link af en ontdekt zo pagina’s op een website, maar ook pagina’s naar andere websites. Terwijl een robot een site bezoekt wordt alles daarop gelezen en geïnterpreteerd. Denk daarbij aan koppen, teksten, afbeeldingen, witruimtes, kleuren, links, et cetera. Door via links de pagina’s te doorlopen ‘ontdekt’ een robot steeds nieuwe pagina’s op internet en wordt de index van Google bijgewerkt.
Een zoekmachine robot werkt daarbij met een set regels om te leren en ‘verzint’ niet zelf nieuwe regels. Wél legt een robot verbanden.

Waarom crawlen een taak voor robots is

Ondanks dat een robot geen mens is zijn er best veel overeenkomsten. Het volgen van links om tot nieuwe pagina’s te komen is een grote overeenkomst tussen mens en robot. In tegenstelling tot een mens kan een robot dat heel snel en heel zuiver. Een robot zoekt in de code van een website naar links. Een link die er dus uitziet als reguliere tekst zal een robot wel meteen opvallen. Tijdens het volgen van de links wordt meteen de content in kaart gebracht, de focus daarvan bepaald en opgeslagen. Die taak verricht een robot in een fractie van een seconde voor vele pagina’s tegelijk en zo wordt het internet afgegaan.

Echter, crawlen is pas effectief als er doorlopend gecrawld wordt. Door een website steeds opnieuw te crawlen is ontwikkeling te zien. Komen er pagina’s bij, zijn er aanpassingen in de informatie op een pagina en zijn er (nieuwe) links die naar de pagina verwijzen? Een mens kan informatie op die schaal onmogelijk zo snel en zo zuiver verwerken als een robot.

Hoe robots steeds ‘menselijker’ worden

Ondanks de verschillen, worden robots ingezet om mensen te bedienen van de beste antwoorden op hun zoekopdracht. Dat lukt enkel als menselijk gedrag zo goed mogelijk gesimuleerd kan worden. Door gedrag te volgen en te interpreteren worden robots steeds beter in menselijke taken, zoals dingen ‘zien’ en beoordelen. Denk daarbij bijvoorbeeld aan afbeeldingen.

In de beginjaren van het internet was de relevantie van afbeeldingen bij een zoekopdracht matig, maar ondertussen vrij goed. Waar geen feitelijke informatie over een afbeelding wordt meegegeven (denk aan de alt-tag en afbeeldingnaam) wordt gedrag door mensen gebruikt. Eigenlijk ook steeds meer als de alt-tag en afbeeldingsnaam onjuist is of nietszeggend. Een robot brengt afbeeldingen in kaart, maar kijkt ook naar de context van de afbeelding. Zaken die meegenomen worden, is de tekst op de pagina waarop de afbeelding staat en of soortgelijke afbeeldingen op pagina’s met soortgelijke tekst staan. Naast de inhoud van een afbeelding lezen aan de context worden afbeeldingen ook steeds beter inhoudelijk beoordeeld.

facebook gezichtsherkenning

Een praktisch en herkenbaar voorbeeld is de gezichtsherkenning in Facebook die eind 2017 zijn intrede deed. Het is niet dat Facebook mensen kent, want in principe zijn foto’s met gezichten niets anders dan gerangschikte pixels die de contouren van een gezicht vormen. Wanneer technologie dat leert kan het gezichten herkennen en in principe kan dat met alle objecten. Overigens is Facebook een makkelijk en herkenbaar voorbeeld, maar alle grote partijen (Microsoft, Google, Amazon, et cetera) zijn met gezichtsherkenning bezig. Zo zullen ook zoekmachines nog beter worden in het tonen van de juiste afbeeldingen bij zoekopdrachten en afbeeldingen beoordelen zonder de kracht van menselijke interpretatie, maar met hetzelfde resultaat.