Creat un sistema visual per interpretar llengües de signes

El CVC ha desenvolupat un sistema de visió per computador per interpretar llengües de signes i que es pot integrar en punts d’informació públics. Actualment diferencia de manera fiable més de vint signes de la llengua de signes espanyola.

02/06/2010

La llengua de signes espanyola és utilitzada per més de 100.000 persones amb discapacitat auditiva i està formada per centenars de signes. Els investigadors de la Universitat de Barcelona adscrits al CVC-UAB Sergio Escalera, Petia Radeva i Jordi Vitrià n'han seleccionat més de vint per desenvolupar un nou sistema visual que els interpreta i permet a les persones amb sordesa realitzar consultes usant el seu llenguatge natural.

Els signes sofreixen alteracions introduïdes pels usuaris. Els investigadors del projecte també les han tingut en compte realitzant assajos amb diferents persones per a que el sistema "aprengui" aquesta variabilitat. La vintena de signes que pot reconèixer permet a les persones amb sordesa mantenir una conversa bàsica, com sol·licitar ajuda per ubicar-se o preguntar sobre indrets turístics. "És una manera de comunicació no artificial per a elles, i alhora els permet comunicar-se amb individus que no entenguin la llengua dels signes, ja que realitza una traducció de signe a paraula en temps real", comenta Sergio Escalera.

El hardware disposa d'una càmera de vídeo que enregistra seqüències d'imatges quan percep la presència d'un usuari que vol realitzar la seva consulta. Seguidament, un sistema de visió per computador i d'aprenentatge automàtic detecta els moviments del rostre, de les mans i dels braços, així com el seu desplaçament en la pantalla, i els incorpora a un sistema de classificació que identifica cada moviment amb la paraula associada al signe corresponent.

Un aspecte destacable del sistema és la seva capacitat d'adaptació a qualsevol llengua de signes, atès que la metodologia emprada és general. L'únic que caldria fer seria canviar els signes apresos pels de la llengua a utilitzar. És també escalable, quant a quantitat de signes que pot reconèixer, tot i que, a mesura que incorpora més dades, els investigadors reconeixen que augmenta també la dificultat per discriminar-les.

Aplicacions aquesta requereixen d'una precisió extrema en la fase d'identificació dels signes i són molt difícils de dur a terme de manera robusta, perquè han d'estar treballant en un entorn obert, amb canvis d'il·luminació i oclusions, diferents fisonomies dels individus i distintes velocitats de realització dels signes.

Amb anterioritat, hi ha hagut diversos intents de realitzar projectes similars, però la majoria ha fracassat o funciona de manera poc fiable perquè la variabilitat dels entorns no controlats és altament complexa. Per a l'èxit d'aquest projecte, ha estat fonamental la fixació de la posició en la qual els individus realitzen els signes, que evita que pugui haver diversos punts de vista en els enregistraments.

El sistema acaba de ser presentat com a prototipus en la fase final d'un projecte nacional i els investigadors ja treballen en noves vies de continuació, com ara usar dues càmeres per reconèixer signes més complexos i complementar el reconeixement incloent-hi característiques facials.