Presentación de PowerPoint

Transcripción

Presentación de PowerPoint
Hacia una cultura más accesible
mediante los sistemas de diálogo
y los dispositivos móviles
David Griol Barres
José Manuel Molina López
Araceli Sanchis de Miguel
Departamento de Informática
Universidad Carlos III de Madrid
14-11-2014
Un micrófono y un altavoz en todo momento =
nuevas oportunidades para sistemas conversacionales
Google Mobile Voice Use Study
http://googleblog.blogspot.com.es/2014/10/
omg-mobile-voice-survey-reveals-teens.html
Más de la mitad de los adolescentes
(amarillo) y el 41% de los adultos (azul)
usan las búsquedas de voz diariamente
Voice Actions
Meteorología
• ¿Va a llover este fin de semana?
• ¿Qué tiempo hace en Collado
Villalba?
• ¿Qué tiempo hará el domingo?
• ¿Cuándo volverá a llover?
Voice Actions
Lugares y direcciones
• ¿Hay algún restaurante japonés cerca?
• Museos cercanos
• ¿Dónde está la facultad de bellas
artes?
• ¿Cómo se llega a la Gran Vía?
• ¿Qué distancia hay entre Leganés y
Colmenarejo?
• Ir a Madrid
• Llévame a Valencia
Voice Actions
Deportes
• ¿Ganó el Atlético de Madrid el
último partido?
• ¿Cómo va el Barcelona en la liga?
• ¿Cuándo juega el Levante?
Voice Actions
• Multimedia:
– Escuchar “Paquito el Chocolatero”
– Ver el trailer de “Her”
– Enséñame fotos del pantano de El Atazar
• Enviar mensajes:
– Enviar mensaje a José Manuel
– Enviar email a Carmen Fernández
• Alarmas
– Despiértame a las siete
– Recuérdame sacar la basura
Voice Actions
• Calculadora y conversión de
medidas
– 23 entre 5
– 6 euros en dólares
– ¿Cuántas millas son 20 kilómetros?
• Reloj
– ¿Qué hora es?
– ¿Qué hora es en Kioto?
– ¿A qué hora sale el sol?
Voice Actions
• Respuestas
– ¿Cuánto mide el Peñalara?
– ¿Cuántos habitantes tiene Collado Villalba?
– ¿Cuál es la montaña más alta de la Sierra de
Guadarrama?
– ¿Dónde nació Joaquín Sorolla?
– ¿Cuándo murió Manuel Machado?
– ¿Quién pintó “Las Meninas”?
– ¿Quién escribió “La Barraca”?
– ¿Qué es la informática?
– ¿Qué significa “interfaz”?
– ¿Cuál es la capital de Zimbabue?
• Traducciones
– “Ordenador” en inglés
– ¿Cómo se dice “algoritmo” en alemán?
Tecnología: reconocimiento del habla
• Modelo acústico:
Modelo de los sonidos que componen las palabras en un idioma
que contempla la frecuencia con que se suceden para calcular
qué combinación es más probable que corresponda al audio que
recibe el sistema.
¿A veces te parece escuchar castellano
cuando hablan en otro idioma?
¡tu modelo acústico está entrenado para
el castellano!
P.ej. “Momento teniente” bebiendo
schweppes como mejor
http://cadenaser.com/ser/2004/06/10/audios/10868
18416_660215.html
Tecnología: reconocimiento del habla
• Modelo lingüístico:
Modelo del lenguaje que contempla la frecuencia con que unas
palabras se suceden a otras y permite calcular cuál es la más
probable.
Idea similar:
Tecnología: reconocimiento del habla
¿Por qué ha mejorado tanto esta tecnología?
• Muchos datos:
• Modelo acústico de Google: 2 años cada día en 27
idiomas
– Modelo del lenguaje de Google: millones de palabras
https://code.google.com/p/1-billion-word-language-modeling-benchmark/
• Algoritmos:
– Gestionar gran cantidad de datos
– Hacia modelos no supervisados
– Deep learning
Reconocimiento de habla en dispositivos Android
Clases SpeechRecognizer y
RecognizerIntent
http://developer.android.com/reference/
android/speech/SpeechRecognizer.html
• Recognizer Intent es sencillo de
utilizar para reconocer y obtener una
lista de posibles resultados.
• SpeechRecognizer es más potente ya
que implementa la interfaz
RecognitionListener que indica
métodos abstractos que gestionan un
amplio rango de eventos ligados al
reconocimiento.
Síntesis de habla en dispositivos Android
Clase TextToSpeech
http://developer.android.com/reference/android/speech/tts/TextToS
peech.html
La voz eufórica:
https://translate.google.com/#es/en/Yo%20siempre%20estoy%20muy%20contenta
¿No te gusta la voz de Android? Prueba otras:
P.ej. Ivona: http://www.ivona.com/en/for-developers/
¿Cómo evita el problema? Usando etiquetado de prosodia: SSML
Velocidad
Volumen
Pausas
Pronunciaciones…
Tecnología: knowledge graph
https://www.youtube.com/watch?v=mmQl6VGvX-c
Google usa tus
búsquedas ¡y lo
sabes!
Asistentes: p.ej. Google now
Android 4.1 (JellyBean)
https://www.youtube.com/watch?v=2vT0AWDq3DE
Líneas de trabajo del GIAA – UC3M
Líneas de trabajo del GIAA – UC3M
Ruptura de la brecha digital
• Para personas con discapacidad visual:
– Aplicaciones con un mayor grado de interacción
oral.
• Para personas con problemas de
comunicación oral:
– Terapia.
– Comunicación aumentativa.
Ruptura de la brecha digital
Ruptura de la brecha digital
• Para personas mayores:
– Ayuda en el manejo de los dispositivos móviles.
– Ejercitar la memoria.
– Tratamiento de enfermedades
neurodegenerativas (Alzhéimer).
Ruptura de la brecha digital
Asistente para el teléfono móvil
Registro
Configuración
Ruptura de la brecha digital
Asistente para el teléfono móvil
Contactos Frecuentes
Mensajes de Texto
Ruptura de la brecha digital
Asistente para el teléfono móvil
Contactos
Añadir Contacto
Editar Contacto
Ruptura de la brecha digital
Asistente para el teléfono móvil
Mensajes instantáneos
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
Ejercicios de ayuda para el tratamiento del Alzhéimer
Ruptura de la brecha digital
• Provisión de información y servicios:
– Entrada y salida multimodal.
– Información y servicios personalizados.
– Recomendaciones teniendo en cuenta las
preferencias y requerimientos.
Ruptura de la brecha digital
Información actualidad personalizada
Ruptura de la brecha digital
Información actualidad personalizada
Ruptura de la brecha digital
Información actualidad personalizada
Ruptura de la brecha digital
Información actualidad personalizada
Ruptura de la brecha digital
Información actualidad personalizada
Ruptura de la brecha digital
Servicio de guiado y recomendación
Ruptura de la brecha digital
Servicio de guiado y recomendación
Ruptura de la brecha digital
Servicio de guiado y recomendación
Ruptura de la brecha digital
Servicio de guiado y recomendación
Ruptura de la brecha digital
Servicio de guiado y recomendación
Ruptura de la brecha digital
Asistente de viajes personalizado
Ruptura de la brecha digital
Asistente informático
Ruptura de la brecha digital
Aplicaciones Preguntas – Respuestas : Fútbol
Ruptura de la brecha digital
Información Cine – Televisión
Ruptura de la brecha digital
Información Cine – Televisión
Ruptura de la brecha digital
Información Cine – Televisión
Ruptura de la brecha digital
Ruptura de la brecha digital
Ruptura de la brecha digital
Líneas de trabajo del GIAA – UC3M
Gestión de la conversación
Google:
CONVERSACIÓN = 1-shot
Referencias entre preguntas:
¿Quién es Berlanga?
¿Dónde nació?
Gestión de la conversación
Principales alternativas actuales:
• Control de eventos Android
• Utilizando un enfoque estadístico:
• Actos del diálogo
• Aprendizaje automático
Con el reconocimiento del
habla hablábamos de
idioma ahora de contexto o
dominio de aplicación
Gestión de la conversación
Principales alternativas actuales:
• Utilizando lenguajes de etiquetas (e.g. AIML)
Pandorabots PlayGround: AIML
<category>
<pattern>HELLO</pattern>
<template>Hi there!</template>
</category>
<category>
<pattern>HI</pattern>
<template><srai>HELLO</srai></template>
</category>
<category>
<pattern>WHOISHE *</pattern>
<template>He is <get name="he"/>.</template>
</category>
Líneas de trabajo del GIAA – UC3M
Modelado del usuario
La voz no sólo son palabras…
Otros usos: reconocimiento biométrico,
reconocimiento de emoción…
… y además podemos complementarla
Otros usos
• Considerando nuevas entradas junto con la
voz del usuario:
– P.ej. Computación afectiva
Reconocimiento biométrico de emoción:
–Ritmo cardíaco
–Conductividad de la piel
–EEG
Modelado Otros
del usuario:
actividad
usos
Líneas de trabajo del GIAA – UC3M
Comunicación con robots
Ejemplo de un proyecto sencillo con un robot NAO y
Google Speech Recognition:
http://www.youtube.com/watch?v=oSVd1HGfKlo
Comunicación
con
robots
Otros usos
Hacia una cultura más accesible
mediante los sistemas de diálogo
y los dispositivos móviles
¡Muchas gracias por su atención!
David Griol Barres
José Manuel Molina López
Araceli Sanchis de Miguel
Departamento de Informática
Universidad Carlos III de Madrid
14-11-2014

Documentos relacionados