Beszédfelismerés
A beszédfelismerés célja, az emberi beszéd gép által kezelhető, szöveges
formára alakítása, végső célként, a nyelvfeldolgozással
egyesítve a beszélt nyelv gépi megértése.
Fontos szempot a beszélő felismerése, a beszélőkre jellemző paraméterek kinyerése és azonosítása alapján.
Kezdeti eredmény lehet a szűk szókincs több beszélő esetén, vagy ugyanazon
beszélő esetén nagyobb szókincs felismerése. Az emberi nyelvek kb. 50 fonémát,
beszédhangot különböztetnek meg. Ezek kombinációinak feldolgozása azonban
szinte lehetetlen feladatnak tûnik. Nehézségek adódhathat abból, hogy a
beszéd szavai egybefolynak, vagy hogy a fonémák és a szavak leírására használt
betűk között nincs mindig teljesen egyértelmű megfeleltetés.
Természetes nyelvek feldolgozása első lépcsőjeként célként lehet kitűzni az emberi nyelv (írott formájának) megértését.
Ennek megoldására természetes nyelvű interfészeket kell kidolgozni.
Olyan számítógépes alkalmazásokat kell készíteni mely képes a szavak, mondatok kezelésére.
Ehhez természetesen egy jól strukturált adatbázisra van szükség.
Az eddig elért eredményekben a gépi fordítást elsőként valósította meg az
ELIZA nevű program (Joseph Weizenbaum, MIT, 1966). Ez a program egy pszichológust
utánoz, aki megpróbálja megérteni az ember problémáit, az ember válaszainak kulcsszavait
érzékelve típusszöveget, egyszerű mintaillesztésen alapuló szövegrész-cserét
alkalmaz. Ez a program csak szintaktikai szinten értette a páciens válaszait.
Egy másik megvalósításban SHRDLU (Terry Winograd, 1972) említhetjük, ami egy
mértani testekből (kockák, gúlák, stb.) álló mikrovilág, melynek elemeit egy
robot az ember írásos parancsainak megfelelően manipulálhatta.
A hangjelek feldolgozása terürelét célként tűzhetõ ki az információ
csökkentése és a jellemzők kiemelése.
Ennek lépései:
- mintavételezés, kvantálás
- jellemzők kinyerése, keretekben, azonos időintervallumokban
- vektorkvantálás: a keretek jellemzővektorait a jellemzők hiperterének régióihoz
rendelik.
A szavak egyértelmű felismeréséhez további statisztikai, valószínűségi adatok
szükségesek. Ezeket általában betanítással adják meg. A legjobb rendszerek a
szavak több mint 95%-át jól ismerik fel.