Presentación de PowerPoint
Transcripción
Presentación de PowerPoint
Hacia una cultura más accesible mediante los sistemas de diálogo y los dispositivos móviles David Griol Barres José Manuel Molina López Araceli Sanchis de Miguel Departamento de Informática Universidad Carlos III de Madrid 14-11-2014 Un micrófono y un altavoz en todo momento = nuevas oportunidades para sistemas conversacionales Google Mobile Voice Use Study http://googleblog.blogspot.com.es/2014/10/ omg-mobile-voice-survey-reveals-teens.html Más de la mitad de los adolescentes (amarillo) y el 41% de los adultos (azul) usan las búsquedas de voz diariamente Voice Actions Meteorología • ¿Va a llover este fin de semana? • ¿Qué tiempo hace en Collado Villalba? • ¿Qué tiempo hará el domingo? • ¿Cuándo volverá a llover? Voice Actions Lugares y direcciones • ¿Hay algún restaurante japonés cerca? • Museos cercanos • ¿Dónde está la facultad de bellas artes? • ¿Cómo se llega a la Gran Vía? • ¿Qué distancia hay entre Leganés y Colmenarejo? • Ir a Madrid • Llévame a Valencia Voice Actions Deportes • ¿Ganó el Atlético de Madrid el último partido? • ¿Cómo va el Barcelona en la liga? • ¿Cuándo juega el Levante? Voice Actions • Multimedia: – Escuchar “Paquito el Chocolatero” – Ver el trailer de “Her” – Enséñame fotos del pantano de El Atazar • Enviar mensajes: – Enviar mensaje a José Manuel – Enviar email a Carmen Fernández • Alarmas – Despiértame a las siete – Recuérdame sacar la basura Voice Actions • Calculadora y conversión de medidas – 23 entre 5 – 6 euros en dólares – ¿Cuántas millas son 20 kilómetros? • Reloj – ¿Qué hora es? – ¿Qué hora es en Kioto? – ¿A qué hora sale el sol? Voice Actions • Respuestas – ¿Cuánto mide el Peñalara? – ¿Cuántos habitantes tiene Collado Villalba? – ¿Cuál es la montaña más alta de la Sierra de Guadarrama? – ¿Dónde nació Joaquín Sorolla? – ¿Cuándo murió Manuel Machado? – ¿Quién pintó “Las Meninas”? – ¿Quién escribió “La Barraca”? – ¿Qué es la informática? – ¿Qué significa “interfaz”? – ¿Cuál es la capital de Zimbabue? • Traducciones – “Ordenador” en inglés – ¿Cómo se dice “algoritmo” en alemán? Tecnología: reconocimiento del habla • Modelo acústico: Modelo de los sonidos que componen las palabras en un idioma que contempla la frecuencia con que se suceden para calcular qué combinación es más probable que corresponda al audio que recibe el sistema. ¿A veces te parece escuchar castellano cuando hablan en otro idioma? ¡tu modelo acústico está entrenado para el castellano! P.ej. “Momento teniente” bebiendo schweppes como mejor http://cadenaser.com/ser/2004/06/10/audios/10868 18416_660215.html Tecnología: reconocimiento del habla • Modelo lingüístico: Modelo del lenguaje que contempla la frecuencia con que unas palabras se suceden a otras y permite calcular cuál es la más probable. Idea similar: Tecnología: reconocimiento del habla ¿Por qué ha mejorado tanto esta tecnología? • Muchos datos: • Modelo acústico de Google: 2 años cada día en 27 idiomas – Modelo del lenguaje de Google: millones de palabras https://code.google.com/p/1-billion-word-language-modeling-benchmark/ • Algoritmos: – Gestionar gran cantidad de datos – Hacia modelos no supervisados – Deep learning Reconocimiento de habla en dispositivos Android Clases SpeechRecognizer y RecognizerIntent http://developer.android.com/reference/ android/speech/SpeechRecognizer.html • Recognizer Intent es sencillo de utilizar para reconocer y obtener una lista de posibles resultados. • SpeechRecognizer es más potente ya que implementa la interfaz RecognitionListener que indica métodos abstractos que gestionan un amplio rango de eventos ligados al reconocimiento. Síntesis de habla en dispositivos Android Clase TextToSpeech http://developer.android.com/reference/android/speech/tts/TextToS peech.html La voz eufórica: https://translate.google.com/#es/en/Yo%20siempre%20estoy%20muy%20contenta ¿No te gusta la voz de Android? Prueba otras: P.ej. Ivona: http://www.ivona.com/en/for-developers/ ¿Cómo evita el problema? Usando etiquetado de prosodia: SSML Velocidad Volumen Pausas Pronunciaciones… Tecnología: knowledge graph https://www.youtube.com/watch?v=mmQl6VGvX-c Google usa tus búsquedas ¡y lo sabes! Asistentes: p.ej. Google now Android 4.1 (JellyBean) https://www.youtube.com/watch?v=2vT0AWDq3DE Líneas de trabajo del GIAA – UC3M Líneas de trabajo del GIAA – UC3M Ruptura de la brecha digital • Para personas con discapacidad visual: – Aplicaciones con un mayor grado de interacción oral. • Para personas con problemas de comunicación oral: – Terapia. – Comunicación aumentativa. Ruptura de la brecha digital Ruptura de la brecha digital • Para personas mayores: – Ayuda en el manejo de los dispositivos móviles. – Ejercitar la memoria. – Tratamiento de enfermedades neurodegenerativas (Alzhéimer). Ruptura de la brecha digital Asistente para el teléfono móvil Registro Configuración Ruptura de la brecha digital Asistente para el teléfono móvil Contactos Frecuentes Mensajes de Texto Ruptura de la brecha digital Asistente para el teléfono móvil Contactos Añadir Contacto Editar Contacto Ruptura de la brecha digital Asistente para el teléfono móvil Mensajes instantáneos Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital Ejercicios de ayuda para el tratamiento del Alzhéimer Ruptura de la brecha digital • Provisión de información y servicios: – Entrada y salida multimodal. – Información y servicios personalizados. – Recomendaciones teniendo en cuenta las preferencias y requerimientos. Ruptura de la brecha digital Información actualidad personalizada Ruptura de la brecha digital Información actualidad personalizada Ruptura de la brecha digital Información actualidad personalizada Ruptura de la brecha digital Información actualidad personalizada Ruptura de la brecha digital Información actualidad personalizada Ruptura de la brecha digital Servicio de guiado y recomendación Ruptura de la brecha digital Servicio de guiado y recomendación Ruptura de la brecha digital Servicio de guiado y recomendación Ruptura de la brecha digital Servicio de guiado y recomendación Ruptura de la brecha digital Servicio de guiado y recomendación Ruptura de la brecha digital Asistente de viajes personalizado Ruptura de la brecha digital Asistente informático Ruptura de la brecha digital Aplicaciones Preguntas – Respuestas : Fútbol Ruptura de la brecha digital Información Cine – Televisión Ruptura de la brecha digital Información Cine – Televisión Ruptura de la brecha digital Información Cine – Televisión Ruptura de la brecha digital Ruptura de la brecha digital Ruptura de la brecha digital Líneas de trabajo del GIAA – UC3M Gestión de la conversación Google: CONVERSACIÓN = 1-shot Referencias entre preguntas: ¿Quién es Berlanga? ¿Dónde nació? Gestión de la conversación Principales alternativas actuales: • Control de eventos Android • Utilizando un enfoque estadístico: • Actos del diálogo • Aprendizaje automático Con el reconocimiento del habla hablábamos de idioma ahora de contexto o dominio de aplicación Gestión de la conversación Principales alternativas actuales: • Utilizando lenguajes de etiquetas (e.g. AIML) Pandorabots PlayGround: AIML <category> <pattern>HELLO</pattern> <template>Hi there!</template> </category> <category> <pattern>HI</pattern> <template><srai>HELLO</srai></template> </category> <category> <pattern>WHOISHE *</pattern> <template>He is <get name="he"/>.</template> </category> Líneas de trabajo del GIAA – UC3M Modelado del usuario La voz no sólo son palabras… Otros usos: reconocimiento biométrico, reconocimiento de emoción… … y además podemos complementarla Otros usos • Considerando nuevas entradas junto con la voz del usuario: – P.ej. Computación afectiva Reconocimiento biométrico de emoción: –Ritmo cardíaco –Conductividad de la piel –EEG Modelado Otros del usuario: actividad usos Líneas de trabajo del GIAA – UC3M Comunicación con robots Ejemplo de un proyecto sencillo con un robot NAO y Google Speech Recognition: http://www.youtube.com/watch?v=oSVd1HGfKlo Comunicación con robots Otros usos Hacia una cultura más accesible mediante los sistemas de diálogo y los dispositivos móviles ¡Muchas gracias por su atención! David Griol Barres José Manuel Molina López Araceli Sanchis de Miguel Departamento de Informática Universidad Carlos III de Madrid 14-11-2014