U kijkt naar de website van NRC Handelsblad gedurende de periode 1995-2001. Bezoek ook de de huidige site.
    M E D I A  
NIEUWS  | TEGENSPRAAK  | SUPPLEMENT  | AGENDA  | ARCHIEF  | ADVERTENTIES  | SERVICE 

  NIEUWSSELECTIE  
  KORT NIEUWS  
  RADIO & TELEVISIE  
  MEDIA  

Zoekprogramma Hits schiet weggebruiker intelligent te hulp


Alles wat iemand ook maar zou willen weten is op het web te vinden, de grote vraag is alleen: waar? De zoekmachines die een gebruiker door middel van steekwoorden in staat stellen op zoek te gaan naar het antwoord, bestrijken lang niet alle beschikbare pagina's. Desondanks kan een eenvoudige zoekopdracht honderden, zo niet duizenden hits opleveren. Hoe moet je daar de meest relevante uitvissen?

Jon Kleinberg, een hoogleraar computerwetenschappen van Cornell University denkt de oplossing gevonden te hebben. Hij ontdekte dat het beter is eerst een analyse te doen van de manier waarop de verschillende pagina's met elkaar verbonden zijn. De reden daarvoor is simpel: naarmate een webpagina meer nuttige informatie bevat - gezaghebbender is - zullen er des te meer andere websites naar verwijzen. Aan de andere kant zijn er ook pagina's die zelf weinig informatie bevatten, maar wel doorverwijzen naar de juiste 'autoriteiten'. Dit zijn de 'richtingaanwijzers' en ook die kunnen heel nuttig zijn. Om de belangrijkste richtingaanwijzers en autoriteiten op elk gebied te kunnen selecteren, ontwikkelde Kleinberg een eigen zoekprogramma - HITS, Hyperlink Induced Topic Search. Op de zevende WWW-conferende in Brisbane, Australië, presenteerde hij de resultaten van de eerste praktijkproef.

HITS werkt in twee stappen. Allereerst wordt met behulp van een gewone zoekmachine een basisset van zo'n tweehonderd webpagina's verzameld, die de gevraagde steekwoorden bevatten. Daar worden ook nog eens alle pagina's aan toegevoegd die verwijzen naar een van de pagina's uit de oorspronkelijke basisset, plus de pagina's waarnaar verwezen wordt. Zo wordt de basisset ruwweg tien keer zo groot. Vervolgens wordt in een iteratief proces aan elke pagina een autoriteitsscore en een verwijsscore toegekend. De pagina's met de hoogste scores zouden voor een gebruiker dus het meest relevant moeten zijn. Die werden dan ook aan een gebruikerspanel voorgelegd die ze moest vergelijken met de oorspronkelijke door de zoekmachine geleverde resultaten.

Kleinberg's methode bleek superieur. Zo was zij zelfs in staat om in het geval van woorden die meer betekenissen hebben, de juiste pagina's bij elkaar te zetten. Een zoektocht met HITS naar het woord jaguar leverde eerst verwijzingen op naar de inmiddels verdwenen computer van Atari, vervolgens naar de American football-club uit Jacksonville, dan naar de auto en tenslotte het dier zelf. Gevraagd naar pagina's over abortus, werden zelfs de pro-choice en pro-life pagina's netjes gescheiden.

Rob van den Berg

NRC Webpagina's
23 MEI 1998


    Bovenkant pagina

NRC Webpagina's © NRC HANDELSBLAD (web@nrc.nl)