domingo, 26 de enero de 2020

Innovación en el reconocimiento del habla a través de la Inteligencia Artificial

Innovación en el reconocimiento del habla a través de la Inteligencia Artificial
Evento accesibilidad en Google Spain, 12/12/2019

Mary Luz Mosteiro, GDG Santiago
Andreu Ibàñez, GDG Lleida
GDG Spain



El pasado diciembre Mary Luz y Andreu atendieron la llamada de la central de Google en España, desde su departamento de comunicación, para colaborar en un evento muy especial sobre accesibilidad.

En dicho evento se contó con la presencia de Dimitri Kanevsky, científico de Google que tiene problemas auditivos, Enhamed Enhamed, nadador paralímpico con problemas de visión, y Manel Alcaide, CEO de Visualfy, una empresa tecnológica orientada hacia la accesibilidad para personas sordas.


Dimitri presentó tres proyectos centrados en reconocimiento del habla y uno en el reconocimiento de imágenes: Live Transcribe, que permite transcribir todo el audio de una conversación en tiempo real; Euphonia, cuyo objetivo es mejorar el reconocimiento de voz en el caso de personas que no tienen un acento o pronunciación estándar; Parrotron que se centra en convertir los diálogos o audio de personas con una pronunciación no estándar a estándar, permitiendo a su vez que los usuarios puedan interactuar con normalidad con los asistentes de voz habituales y Lookout, un clasificador de imágenes en tiempo real que describe mediante audio los objetos enfocados por la cámara del dispositivo móvil.



Enhamed Enhamed y Manel Alcaide participaron en un panel presentado por Mary Luz donde se abordaron cuestiones como la importancia de la tecnología a la hora de hacer el mundo actual más accesible o los principales retos de desarrollar una idea empresarial alrededor de la accesibilidad.




Por último, los asistentes tuvieron la oportunidad de montar su propio altavoz inteligente con un AIY Voice Kit guiados por Andreu.





Mary Luz
Durante el evento pudimos ver y escuchar ejemplos de cómo la tecnología hace accesible el mundo a más personas y permite que cualquiera pueda acceder a las mismas oportunidades independientemente de sus condiciones físicas. Por ejemplo, la intervención de Dimitri Kanevsky transcurrió con total normalidad gracias a estas tecnologías: teniendo en consideración que no solo existía la barrera del idioma, sino también la barrera de la pronunciación y el acento, con la ayuda de Euphonia (que ha sido entrenado con 25 horas de diálogos de Dimitri) y Live Transcribe, todos los asistentes han sido capaces de atender a la charla con total normalidad. Así pues, tal y como comentó Enhamed Enhamed, en su experiencia el poder contar con un dispositivo que describa el texto que aparece en algún cartel, como las pantallas del aeropuerto, le permite ser autosuficiente a la hora de tener que tomar un vuelo.

Creo que es importante tener en mente la diversidad de necesidades que existen a la hora de diseñar o desarrollar nuevos productos y servicios, y mucho más si se trata de tecnología. Si bien puede suponer una mayor inversión en coste y tiempo, es nuestra responsabilidad como desarrolladores, programadores, y tecnólogos en general, poner nuestra pequeña aportación a los avances que se está teniendo lugar en el mundo de la tecnología y accesibilidad.


Andreu
Comparto con Mary Luz su pensamiento final, y es que la accesibilidad, pariente cercana de la usabilidad, sigue quedando muchas veces fuera del scope de nuestros proyectos, y eso debería de cambiar

Por otro lado tecnologías como la voz natural, con el soporte de la Inteligencia Artificial y el Machine Learning, junto a la super interesante característica de poder bajar el tamaño de los modelos de IA a que funcionen en un smartphone cualquiera, nos dan un poder diría infinito. Google con Tensorflow Lite y con sus nuevas Edge TPU van a permitir el desarrollo de nuevas aplicaciones, nuevos casos de uso generales para cualquier industria, pero como en el caso de los proyectos de Dimitri, orientarlos a dar soporte a problemas específicos de las personas es poner la tecnología a trabajar de verdad.

Y una forma también muy acertada de acercar estas tecnologías a la sociedad, es con los kits que Google dispone en tiendas para “makers y tinkerers”, aquellas personas, jóvenes o mayores, tecnólogas o nó, que quieren probar y aprender. Así el AIY Voice Kit permite construirte tu mismo una especie de Google Home, pero en una cajita de cartón, y por qué no, crear nuevos diseños y conceptos y usarlos en proyectos.

Aquí os quiero mostrar por ejemplo los modelos que he desarrollado junto a compañeros del GDG Lleida y los mil y un proyectos que trabajamos cercanos a Google, donde hemos creado unos modelos impresos en 3D que sirven para el sector educativo, enlazando con la plataforma geográfica que desde Lleida gestionamos para todo el mundo a través del proyecto open source Liquid Galaxy, y en su versión educativa LGxEDU (vídeo presentación del proyecto)
















Y aquí podéis ver el clipping de impactos en medios conseguido por el equipo de comunicación de Google Spain:

TVE (20/01/2020) Zoom Net
Fanáticos del Hardware (12/12/2019) Building for everyone: Google and accessibility
Ideal Gallego (print) (13/12/2019) Artificial intelligence favors inclusion
Diario de Ferrol (print) (13/12/2019) Artificial intelligence favors inclusion
Diario de Bergantiños (print) (13/12/2019) Artificial intelligence favors inclusion
Diario de Arousa (print) (13/12/2019) Artificial intelligence favors inclusion