|
|
|
NIEUWSSELECTIE Northern Light Nature (gratis registratie vereist)
De hele krant op NRC's Webeditie voor het buitenland
|
Zoekmachines houden groei van het web niet bij
Zoekend verzuipen
Karel Knip
Combineert men vandaag de dag de zoekresultaten van de elf belangrijkste zoekmachines, dan komt de dekking niet hoger dan 42 procent. Dat blijkt uit een uitputtend onderzoek van Steve Lawrence en C. Lee Giles dat donderdag in Nature (8 juli) is gepubliceerd. De onderzoekers zijn verbonden aan het in 1988 opgerichte NEC Research Institute in Princeton, een dochter van NEC Corporation. Het recente onderzoek is een uitbreiding van een vergelijkbare studie waarover op 3 april 1998 in Science werd gepubliceerd. Zoekmachines zijn geen machines, maar computerprogramma's die dag en nacht het Internet afzoeken naar informatie op nieuwe websites, of nieuwe informatie op oude websites, en het aldus gevonden nieuw materiaal toevoegen aan een reusachtige trefwoorden-catalogus. (Er zijn ook zoekmachines die tegelijk een systematische catalogus aanleggen, een hiërarchische structuur.) De trefwoorden kunnen als 'search term' in een speciaal vakje op de Internet-pagina van de machine worden ingevuld. Het aantrekkelijke van de zoekmachines is dat zoektermen kunnen worden gecombineerd (met behulp van een +teken of het woordje 'AND') of kunnen worden uitgesloten (NOT x). Ook kan naar vaste woordcombinaties, zoals 'Klaas Vaak', worden gezocht. De op aanvraag gevonden lijst artikelen (internet-pagina's) wordt vaak gepreseneerd in volgorde van relevantie (althans zoals de computer dat ziet) of in volgorde van populariteit.
Een deel van het werk van de NEC-onderzoekers bestond eruit te bepalen hoeveel servers (computers) informatie aanbieden aan het net, en hoeveel dat per server is. Web-servers werden gevonden door gebruik te maken van hun zogenoemde Internet Protocol-adres. Het IP-adres, dat schuilt onder de URL (zoals http://www.nrc.nl) die de meeste Internet- gebruikers beter kennen, is voor elke server een unieke getallencombinatie: vier groepen getallen variërend van 0 tot 255 (bijvoorbeeld: 188.23.157.12). In totaal zijn 256 van zulke combinaties mogelijk, dat is 2,94 miljard. De NEC-onderzoekers hebben lukraak 3,6 miljoen getallencombinaties getest en hadden in 1 op de 269 keren beet. Er zijn dus ruwweg 16 miljoen servers aanspreekbaar. Een geautomatiseerde 'trial-and-error' procedure leerde dat daarvan maar 17,5 procent publiekelijk toegankelijk is: 2,8 miljoen servers. In een volgende stap is van 2.500 lukraak gekozen servers onderzocht hoeveel openbare pagina's werden aangeboden. Gemiddeld waren dat er 289. De meeste servers bieden veel minder aan, maar er zijn er een paar (zoals Geocities) die het gemiddelde ver opvoeren: de verdeling is scheef. Er zijn vandaag dus 809 miljoen Internet-pagina's per zoekmachine opvraagbaar. Northern Light, dat de meeste pagina's indexeert en zelf steeds bijhoudt hoeveel het er zijn, vindt er maar 128 miljoen. Dat is 16 procent. Voor velen is het vergelijk van de prestaties van de zoekmachines het interessantst. Die prestaties zijn gemeten met ruim duizend reële zoekopdrachten, zoals die bij het NEC Research Institute zelf in de praktijk opkwamen. De gevonden lijsten met antwoorden zijn zo eerlijk mogelijk vergeleken: dubbele vermeldingen (mirror pages) werden eruit gehaald. Ook pagina's die de ingetikte zoekterm niet bevatten (dat komt voor), of waarvoor betaald moest worden (de special collection van Northern Light) deden niet mee. Het opmerkelijk resultaat was dat de rangorde van vijf beste zoekmachines, die eind 1997 nog was: HotBot, AltaVista, Northern Light, Excite en Infoseek duchtig is verschoven. Hij is nu: Northern Light, Snap, AltaVista, HotBot en Microsoft (MSN). Algemeen bekend is dat niet, uit statistiek van Media Metrix blijkt dat wereldwijd juist de mindere zoekmachines Yahoo, Infoseek (Go), Excite en Lycos het meest worden geraadpleegd. Verheugend is dat er nog steeds weinig overlap is tussen de machines: ze opereren kennelijk tamelijk onafhankelijk, ook al gebruiken de meeste systemen die door Inktomi zijn geleverd. Het heeft dus zin meerdere zoekmachines te raadplegen. (De ook in het Nature-artikel geprezen MetaCrawler, die resultaten van verschillende machines combineert, presteert in de praktijk bedroevend.) Hoger dan 40 procent zal de dekking niet gauw worden en daaruit blijkt dat Internet aan zijn eigen succes ten onder gaat. Dat blijkt ook uit de waarneming dat nieuwe pagina's steeds langzamer worden gevonden. De negen beste zoekmachines vinden een nieuwe Internet-pagina tegenwoordig gemiddeld pas na zes maanden. (De mediaan is lager, twee maanden, sommige pagina's zijn kennelijk na een jaar nog niet gevonden.) De NEC-onderzoekers tonen aan dat de kans dat een webpage gevonden wordt rechtstreeks samenhangt met de frequentie waarmee hij wordt vermeld (via hyperlinks) op andere pagina's. Zij zien daarin een gevaar: op den duur verschijnen in de lijsten met zoekresulaten alleen nog de populaire artikelen.
|
NRC Webpagina's
10 JULI 1999
|
Bovenkant pagina |