U kijkt naar de website van NRC Handelsblad gedurende de periode 1995-2001. Bezoek ook de de huidige site.
W E T E N S C H A P
NIEUWS  | TEGENSPRAAK  | SUPPLEMENT  | AGENDA  | ARCHIEF  | ADVERTENTIES  | SERVICE 

Voorbeeld
Een manipulatie van een gesproken zinnetje.

De eerste (0 ms) is onbewerkt, bij de tweede wordt ieder opeenvolgend stukje van 50 ms achterstevoren afgespeeld. Bij de volgende is dat 100 ms en 200 ms.

Na openen van het venster ziet u de desbetreffende geluidsgolven. Na enkele seconden is ook het bijbehorende spraakfragment te horen.

Omkeren van fonemen heeft amper effect op verstaanbaarheid

Hendrik Spiering
Het vermogen om menselijke spraak te verstaan, kan wel tegen een stootje. Geluiden van een paar milliseconden (ms) kunnen soms al een betekenisverschil in een woord veroorzaken, maar op grond van de context kan het menselijk brein heel veel gaten opvullen in het waargenomen geluid. Ook als iemand met volle mond praat of lispelt, is hij of zij vaak nog redelijk te verstaan, ook al komt er net een trein langs of hoest iemand er net doorheen. Zelfs als twee mensen door elkaar praten is een van hen meestal goed te volgen, met enige concentratie.

Een bioloog en een psycholoog van het California Institute of Technology (Caltech) bedachten een simpel maar ingenieus experiment om te kijken hoe ver die verstoring van gewone spraak kan gaan zonder dat het volkomen onbegrijpelijk wordt. Het blijkt dat pakketjes van 50 ms zonder veel problemen konden worden gestoord. De belangrijkste betekenisdragende veranderingen bevinden zich op het niveau van 125 tot 300 ms, aldus de onderzoekers. (Nature, 29 april). De onderzoekers zien in de uitslag van hun experiment ondersteuning voor de theorie van Steven Greenberg, van de Universiteit van Californië, Berkeley. Volgens Greenberg is niet de foneem (de kleinste onderscheidbare klankeenheden van een taal) de informatiedragende eenheid, maar de lettergreep: de syllabe. Fonemen blijken gemakkelijk te verstoren zonder dat de begrijpelijkheid minder wordt.Greenberg meent dat dit principe belangrijke implicaties heeft voor de huidige systemen van spraakherkenning, zoals Freespeech van Philips, die in principe gebaseerd zijn op foneemherkenning. Overigens zou volgens de New Scientist (24 april) de Belgische firma Lernout & Hauspie al een spraakherkenningssysteem (voor callcentres) hebben ontwikkeld dat wel gebaseerd is op ‘langere klanken'.

De Caltech-onderzoekers verdeelden een spraakfragment onder in pakketjes van 50 ms, en draaiden telkens die pakketjes om. Het fragment bleek goed te begrijpen, hoewel in het fragment onderverdeeld in telkens omgedraaide stukjes van 50 ms in feite alle klanken achterstevoren werden afgespeeld. Volledig in één keer achterstevoren afgespeelde spraak is volkomen onbegrijpelijk, maar de per 50 ms omgekeerde spraak klinkt hooguit een beetje haperend. Toch is 50 ms in spraak geen verwaarloosbare tijdseenheid. Integendeel, stukjes spraak van 50 ms (juist afgespeeld) zijn vaak goed te herkennen als een bepaalde klank.

Kennelijk ligt de informatieve inhoud van spraak niet in het gebied van 50 ms. Als de lengte van de omgekeerde pakketjes langer werd dan 50 ms, daalde de begrijpelijkheid van de tekst snel. Bij 130 ms scoorden de zeven luisteraars in het Caltech-experiment nog een begrijpelijkheid van 50 procent, bij 150 ms was die nog maar 25 procent en als de omkeringen plaatsvonden in brokken van 200 ms was er geen touw meer aan vast te knopen. Opmerkelijk was dat herhaalde blootstelling aan spraakfragmenten met omkeringen van 100 ms leidde tot een verbeterde begrijpelijkheid, vergelijkbaar met de gewenning aan een vreemd accent.

Ook andere manipulaties gaven eenzelfde beeld te zien: wanneer pakketjes van 50 ms niet werden omgedraaid maar 100 of 150 ms werden opgeschoven in het spraakfragment, leidde dat niet tot problemen. Het Caltech-experiment is overigens op vrijwel iedere multimediacomputer die voorzien is van microfoon en ‘wave-studio' na te doen.

NRC Webpagina's
1 MEI 1999


    Bovenkant pagina

NRC Webpagina's © NRC HANDELSBLAD (web@nrc.nl)