Supplement: Surfers, spinnen en 'smart agents' scheppen orde in gigantisch web

U kijkt naar de website van NRC Handelsblad gedurende de periode 1995-2001. Bezoek ook de de huidige site.

ZOEKMACHINES

YAHOO!
ALTAVISTA
HOTBOT
INFOSEEK
LYCOS
WEBCRAWLER
EXCITE
OPENTEXT
DEJANEWS
ILSE

Zoek zoek zoek
Surfers, spinnen en 'smart agents' scheppen orde in gigantisch web

door Hans Steketee

Zestig miljoen Web-sites strijden om de aandacht van de gebruikers van het World Wide Web. Menselijke en elektronische bibliothecarissen proberen orde te scheppen in de chaos van de overdaad. De snelle groei van het Web noopt tot steeds geavanceerdere zoekinstrumenten.

EEN STROOMSTORING IN Silicon Valley is een belevenis. ,,Dit is wel héééél ongebruikelijk'', zegt Maury Zeff met dunne stem in het pikkedonker van een vensterloze vergaderkamer in een kantoorkolos aan een Californische snelweg. ,,Dit is helemáál niet goed voor een computerbedrijf.''

Zeff is senior producer bij Yahoo!, een piepjong maar razendnel expanderend bedrijf dat een onderwerpcatalogus bijhoudt van bezienswaardigheden op het World Wide Web, het populairste deel van het Internet. Wie zoekt naar de jongste beelden van Mars, historische voetbaluitslagen, statistiek over galstenen of een leuk handboek over tuinieren, kan er muisklikkend door de lijsten bladeren tot hij - met een laatste klik - Yahoo! verlaat en uitkomt bij de plek op het Web van zijn keuze.

Per maand slaan Internetgebruikers gezamenlijk meer dan een miljard keer een pagina van de Yahoo!-website op. Evenzovele keren krijgen ze daarbij een duurverkochte advertentie voorgeschoteld. Yahoo! mag dan begonnen zijn als geintje van twee studenten aan de universiteit van Stanford, inmiddels werken er meer dan tweehonderd mensen en omvat de Yahoo!-catalogus 'klikbare verwijzingen', links, naar zo'n driehonderdduizend websites. In 1996 ging Yahoo! naar de beurs, een manoeuvre die oprichters David Filo en Jerry Jang, toen respectievelijk 29 en 27 jaar oud, in één dag multimiljonair maakte en het bedrijf een waarde gaf van 848 miljoen dollar. Bij zo'n gestegen aspiratieniveau passen geen stroomstoringen.

In de kantoortuin achter de deur gaat een gejuich op. Daar werken de zestig surfers die websites beoordelen en - als ze de selectie passeren - toevoegen aan de lijsten. Maar even wordt er niet gesurft. In het halfduister van de ruimte beklimmen de surfers, merendeels jong en studentikoos, de halfhoge afscheidingswanden van hun werkhokken om bij het licht van aanstekers en zaklampjes met hun buren te rumoeren. De beeldschermen, die als zij niet slapen hun dagelijks uitzicht vormen, zijn eventjes zwart. Later zal Zeff zeggen dat de computers van Yahoo! zó beveiligd zijn dat zij ,,zelfs een luchtaanval kunnen overleven'', maar op dat ogenblik weet hij nog niet zeker of de productie van die dag niet verloren is gegaan (achteraf valt het mee).

Op een of andere manier illustreert de stroomstoring het hopeloze karwei van Yahoo! en geestverwante ondernemingen op het Internet. Zo nijver als zij zijn, het blijft vechten tegen de bierkaai. Want elke poging om met menskracht het nog steeds exponentieel groeiende World Wide Web volledig in kaart te brengen is bij voorbaat futiel. De Library of Congress in Washington, de grootste bibliotheek ter wereld, heeft zeventien miljoen boeken op de plank staan. Het Web omvat nu al zeker zestig miljoen 'unieke documenten'. Per dag komen er tussen de vijftig en honderd nieuwe websites bij, elk met steeds meer pagina's en het tempo lijkt vooralsnog alleen toe te nemen.

Yahoo! heeft nu minder dan vijf procent van het Web gerubriceerd. Die achterstand zal alleen maar oplopen. Om iets van een overzicht te behouden moeten de categorieën en sub-categorieën van Yahoo! zich bovendien steeds verder vertakken tot in de meest subtiele betekenisnuances. Onafwendbaar nadert voor Yahoo! het punt waar ook de Franse geleerde Denis Diderot (1713 - 1784) moest opgeven, toen hij besefte dat zeventien delen encyclopedie niet voldoende zijn om het totaal van menselijke kennis in te passen.

,,Wat moeten wij als het Web blijft uitdijen?'', vraagt Maury Zeff zichzelf in het donker retorisch af. ,,Wij weten het niet. Stel dat het zo is, al is dat moeilijk voor te stellen, dan zijn er maar twee mogelijkheden: óf wij moeten onze werkwijze radicaal veranderen, óf er staat hier een pakhuis vol surfers, allemaal met een eigen specialisme.'' Dat is het dilemma. Om er meteen aan toe te voegen: ,,Wij hebben niet de illusie volledig te zijn. Wij zijn alleen een navigatie-hulpmiddel. Wij houden een menselijk gezicht. Wat heb je aan 25.000 returns bij elke zoekopdracht.''

Door mensen samengestelde directories van het type Yahoo! vissen met een hengel in het Internet. Dan zijn de computergestuurde search engines, of 'zoekrobots' die aan de ander zijde van het spectrum opereren eerder trawlers, die een reusachtig net door het World Wide Web slepen. Een vangst van vijfentwintigduizend treffers bij één zoekpoging is daar geen uitzondering.

Search engines, waarvan AltaVista, Excite, HotBot, Open Text, Webcrawler, Infoseek en Lycos de bekendste zijn, scannen automatisch elke bereikbare Web-pagina en houden daarvan een (trefwoorden)register bij. 'Zoeken op het Web' met behulp van een search engine is in werkelijkheid zoeken in de database van de search engine.

Niemand heeft iets aan 25.000 treffers. De zekerheid dat het gezochte erbij zit wordt meestal teniet gedaan door het werk om het te vinden. Toch is het mogelijk om de ene goudkorrel uit het zand te toveren, zegt Paul Flaherty, de ingenieur die aan de wieg stond van AltaVista. Deze search engine, in 1995 gebouwd om de nieuwste generatie ultrasnelle computers van Digital Equipment Corporation een showcase te geven, was niet de eerste op het Web, maar is met een index van 151 Gigabyte (151 miljard tekens) op basis van 31 miljoen afzonderlijke Web-documenten wel de grootste. En met gemiddeld 4.000 zoekopdrachten per seconde ook de populairste.

,,Stel je voor'', zegt een trotse Flaherty op het dakterras van zijn lab in Palo Alto, de thuisbasis van AltaVista en op een steenworp afstand van de Stanford-universiteit, waar hij nog niet zo lang geleden als computerkundige afstudeerde: ,,Een stapel A-4'tjes van vele kilometers hoog waar je met een naald binnen een seconde doorheen kunt prikken om elk woord en elke combinatie van woorden aan te wijzen. Dat had nog niemand voor elkaar gekregen.''

Daartoe moeten gewone gebruikers van search engines als AltaVista zich overigens wel een aantal verfijnde zoektechnieken eigenmaken, om mogelijke documenten in- en andere juist uit te sluiten. Naarmate het Web en daarmee de database van de engines groter worden, luistert het opstellen van zulke filters steeds nauwer.

Documenten op het Web zullen in de toekomst steeds vaker 'dynamisch' zijn: met het oog op de wensen van aanbieder en individuele consumenten veranderen zij met behulp van een hele reeks nieuwe technieken voortdurend van vorm en inhoud. Dat zal een steeds groter deel van het Web voor search engines als AltaVista, die uitgaan van 'statische' documenten en die elke site nu niet veel vaker dan eens per maand indexeren, ontoegankelijk maken.

En ook nu al is er veel 'ruis'. Zo laten search engines zich vrij eenvoudig manipuleren. Volgens Flaherty besteden de systeembeheerders van AltaVista onevenredig veel tijd aan het met de hand uitwieden van ,,Web-pagina's die zich met oneigenlijke middelen in de index naar voren werken'', bijvoorbeeld door de duizend meest frequent gebruikte woorden uit de Engelse taal op te nemen. Websites van porno-uitgevers verwerven zich op die manier een hoge plek in de zoekresultaten van iemand die braaf naar gekke koeien zoekt. Op een steeds wijder Web zal ook die taak er niet lichter op worden.

Directories en search engines in hun huidige vorm voldoen op termijn geen van beiden, dat staat wel vast. Sommige onderzoekers hebben hun hoop gevestigd op een nieuwe generatie hulpmiddelen: zogeheten smart agents. Dat zijn computerprogramma's die kennis opbouwen over de voorkeuren van hun baas - één mens achter een PC - en daarmee zelfstandig het Web uitkammen op zoek naar relevante informatie. Het is een oude droom, maar recente vorderingen op het gebied van artificial intelligence (AI), vooral het vermogen om patronen in natuurlijke taal te herkennen, hebben die een stuk dichterbij gebracht.

Andere onderzoekers zoeken hun heil vooral in een ingrijpende verbetering van de huidige zoek-instrumenten. Marti Hearst, stafmedewerkster van het toonaangevende Palo Alto Research Center (PARC) van Rank Xerox, is zo iemand. ,,De huidige zoek-instrumenten gaan uit van de Web-pagina's zoals ze oorspronkelijk zijn gemaakt'', zegt zij. ,,Voor lousy zoekopdrachten zijn ze prima geschikt, maar niet voor serieuze research. Nieuwe zoek-instrumenten moeten veel meer rekening houden met de vaardigheden en de specifieke wensen van degene die zoekt. We moeten een stap terug doen en ons afvragen waarin zoeken op het Internet nu eigenlijk verschilt van traditionele manieren van zoeken. Soms gebruik je het Web als naslagwerk, zoals een telefoonboek of een encyclopedie, maar als je research doet over een bepaald onderwerp ga je heel anders te werk. Dan wil je bepaalde uitkomsten tussentijds kunnen bewaren, bijvijlen en combineren met andere uitkomsten.''

PARC probeert traditioneel de gebruiksvriendelijkheid van computers te verhogen. Dat is opnieuw goed te zien in de twee prototypes van een user centered interface die Hearst demonstreert in de kelders van PARC. Beide gaan - in tegenstelling tot de Yahoo!'s en de Altavista's - niet langer uit van 'platte' pagina's tekst en lijsten met trefwoorden, maar gebruiken ruimtelijke voorstellingen. In plaats van te onthouden waar je mee bezig was, kun je nu zien wat je doet.

Zo maakt het PARC-programma Virtual books van het platte beeldscherm een kantoorruimte met een bureau en boekenkasten. Het boek op het tafelblad is de uitkomst van een zoekopdracht aan Yahoo! of AltaVista. Je kunt dat boek doorbladeren door de pagina's om te slaan en je kunt het even wegzetten in een kast, als je een nieuw 'boek' wilt bekijken.

Iets soortgelijks doet het programma Information Visualizer, dat de zich steeds fijner vertakkende 'informatie-boompjes' van Yahoo! op het beeldscherm omzet in een reeks virtuele Rolodex-adressen-molens, die je kunt ronddraaien met de muis waarbij het 'label' van je keuze vooraan komt te staan, maar zonder dat de andere compleet verdwijnen.

Een ander programma, dat Scatter/Gather heet, combineert de traditionele search engines, nieuwe vormgeving en AI-technieken. Het stelt de gebruiker in staat om de uitkomst van een zoekactie opnieuw te sorteren op grond van betekenis-overeenkomsten tussen verschillende trefwoorden. Zo komen documenten waarin het woord 'ster' in combinatie met 'planeet' of 'astronomie' voorkomt, in een andere groep te staan dan die waarin 'ster' bij 'Elvis' of 'Greta Garbo' in de buurt staat. Dat maakt selecteren van relevante treffers een stuk eenvoudiger.

Het programma draait nog slechts in een proefopstelling, maar Xerox heeft al octrooi en een dochterbedrijfje van de kopieer-reus zal het binnen een paar jaar op de markt brengen. Zulke technieken vragen vooralsnog snellere modems en meer rekenkracht dan waarover de huidige PC-bezitter meestal beschikt, maar ze zijn onderweg. De nieuwe zoekmiddelen van PARC zijn niet ,,het universele interface'', zegt Hearst. ,,Je moet het zo zien: als je een fiets wilt repareren heb je ook verschillende stukken gereedschap nodig.''

Catalogus of trefwoordenlijst

Zoeken op het World Wide Web kan grofweg met twee soorten hulpmiddelen: de zogeheten directories, waarvan Yahoo! de bekendste en meest gebruikte is, en de search engines, waarvan AltaVista de bekendste is.

Directories worden door mensen samengesteld en zijn vergelijkbaar met de onderwerpcatalogus van een bibliotheek, met een steeds fijner vertakte onderverdeling van hoofd- naar subcategorieën. Wie bij Yahoo! bijvoorbeeld websites wil vinden die zijn gewijd aan de recente Mars-landing moet vanuit de hoofdcategorie Science afdalen in de subcategorie Astronomy en van daaruit verder naar Solar System, The Planets en vervolgens naar Mars. Maar naar de Mars-sites is zoveel vraag dat Yahoo! die óók bovenin de hoofdrubriek News heeft neergezet.

Directories zijn niet uitputtend, en soms twijfelachtig van indeling, maar wel vriendelijk voor de gewende gebruiker. Yahoo! probeert van elke gebruiker een vaste klant te maken, onder meer door het inrichten van afzonderlijke Yahoo!'s voor (Amerikaanse) grote steden, voor speciale doelgroepen (vrouwen, bejaarden, sportfans, kinderen) en voor verschillende culturen en talen in de wereld. Zo is er een Spaanstalige, een Japanse, een Duitse en een Franse Yahoo!. De rubriek 'koken' staat in dat laatste land overigens onder 'cultuur' en niet, zoals op de andere Yahoo!'s, onder 'hobby'. En de als te speels ervaren vormgeving van de Amerikaanse Yahoo! werd voor de Duitse site ingrijpend vergründlicht. Een Nederlandstalige Yahoo! is in de maak.

In tegenstelling tot de directories werken search engines met een automatisch samengestelde database. Wie de search engine van AltaVista bijvoorbeeld vraagt naar 'Pathfinder' krijgt aanvankelijk ruim 70.000 treffers; dat wil zeggen documenten die allemaal ten minste één keer dat woord bevatten; dus niet alleen het ruimteschip, maar ook de Nissan Pathfinder en Harold Washington Pathfinder, de 42ste burgemeester van Chicago. Door het opgeven van 'filters' (bijvoorbeeld: 'pathfinder' in combinatie met de woorden 'Mars' en 'july 1997') is die stortvloed terug te brengen tot beter hanteerbare proporties.

Alle search engines bestaan uit drie onderdelen: de robot, de indexer en de eigenlijke search engine-software. De robot, ook wel crawler, worm of spider genoemd, bezoekt volgens een vast patroon alle hem bekende websites en maakt een verse kopie (of samenvatting) van alle pagina's in die site. Als hij daar een verwijzing naar een nog onbekende site vindt, zal hij ook die bezoeken en kopiëren (of samenvatten). Vervolgens ontleedt de indexer die kopieën onder meer in trefwoorden en houdt daarvan een lijst bij, met een verwijzing naar het oorspronkelijke document. Wie de search engine om 'Mars' vraagt krijgt alle treffers uit de index op een rij. Het 'aanklikken' van de verwijzingen (de links) in de lijst brengt je vanuit de search engine bij het oorspronkelijke document op het Web.

Zoekpogingen kunnen razendsnel uitpakken door de techniek van de inversed index. Dat is een (zeer grote) tabel met trefwoorden in de rijen en documenten in de kolommen (of omgekeerd). Als een bepaald document een bepaald woord bevat, verschijnt op de kruising van beide een 1, zo niet een 0. De vraag in welke documenten een bepaald woord, of een bepaalde combinatie van woorden voorkomt, wordt zo gereduceerd tot relatief simpele binaire operaties.

Verschillende search engines geven verschillende resultaten. Dat wordt veroorzaakt door relatief kleine verschillen in de manier waarop zij informatie vergaren, rangschikken, wegen en presenteren.

Het onderscheid tussen de twee categorieën vervaagt. Met het oog op inkomsten uit advertenties proberen veel zoek-sites beide methodes toe te passen. Veel directories bevatten ook een venster voor het intypen van een zoeksleutel. Yahoo! verwijst aan het eind van een zoekopdracht zelfs automatisch door naar AltaVista. Tegelijkertijd geeft de beginpagina van veel search engines tegenwoordig een Yahoo!-achtige rubriek met onderwerpcategorieën te zien. Technische nieuwigheidjes zoals de mogelijkheid om vorm en inhoud van de pagina aan te passen aan de eigen smaak of het in beeld laten meelopen van een ticker met nieuws of sportuitslagen, moeten de gebruiker bewegen juist déze pagina tot zijn vaste vertrekpunt te maken voor uitstapjes over het World Wide Web.

Voorbeelden van de PARC-prototypes zijn te vinden op www.parc.xerox.com/istl/projects/ia/default.shtml.

(NRC HANDELSBLAD / WETENSCHAP & ONDERWIJS, 26 JULI 1997)

NRC Webpagina's
26 juli 1997

Bovenkant pagina