Guión y bibliografía básica
Transcripción
Guión y bibliografía básica
Las tecnologías del habla Joaquim Llisterri, Universitat Autònoma de Barcelona LIAAC, Laboratório Integrado de Análise Acústica e Cognição, Pontifícia Universidade Católica de São Paulo, 25 de agosto de 2005 Las tecnologías del habla JOAQUIM LLISTERRI Departament de Filologia Espanyola Universitat Autònoma de Barcelona [email protected] http://liceu.uab.es/~joaquim Materiales en la web: http://liceu.uab.es/~joaquim/speech_technology/PUCSP_05/PUCSP_05.html http://homepage.mac.com/joaquim_llisterri/speech_technology/PUCSP_05/P UCSP_05.html GUIÓN 1. LAS TECNOLOGÍAS DEL HABLA La interacción oral con los ordenadores. Nuevas necesidades y nuevas tecnologías. Salida vocal: conversión de texto en habla; entrada vocal: reconocimiento del habla; interacción con el usuario: sistema de diálogo. El papel de la lingüística: conocimiento de la interacción oral humana, de la percepción y producción del habla, y del sistema lingüístico. 2. LA CONVERSIÓN DE TEXTO EN HABLA La conversión de texto en habla. Esquema general de un conversor. Etapas en la conversión de texto en habla: procesamiento previo del texto, transcripción fonética automática, análisis lingüístico, asignación de elementos prosódicos –duración, intensidad, pausas y entonación-, selección de unidades de un diccionario de unidades de síntesis y conversión en valores de parámetros acústicos. 3. EL RECONOCIMIENTO DEL HABLA Las etapas en el reconocimiento del habla: entrenamiento, parametrización de la señal y comparación con modelos almacenados. Conocimiento fonético: selección de locutores para el entrenamiento del sistema, segmentación y transcripción del corpus de entrenamiento, diccionarios de pronunciación. 4. LOS SISTEMAS DE DIÁLOGO Módulos de un sistema de diálogo: reconocimiento de habla, analizador, base de datos , generador de unidades lingüísticas, síntesis del habla. Conocimiento lingüístico: estudio de corpus de interacciones naturales entre personas, estudio de corpus de interacciones ficticias entre personas y sistemas informáticos, diseño de estrategias de diálogo, adecuación pragmática del diálogo, corrección lingüística del sistema. Guión y bibliografía básica 1 Las tecnologías del habla Joaquim Llisterri, Universitat Autònoma de Barcelona LIAAC, Laboratório Integrado de Análise Acústica e Cognição, Pontifícia Universidade Católica de São Paulo, 25 de agosto de 2005 BIBLIOGRAFÍA BÁSICA LAS TECNOLOGÍAS DEL HABLA ARASA, S. (2001) "Entrevista a Xuedong Huang, Director mundial de tecnologías del habla de Microsoft: 'La próxima revolución será la de la voz'", Quark. Ciencia, Medicina, Comunicación y Cultura 21: 103-108. http://www.imim.es/quark/21/021103.htm BERNSEN, N.O. (2002) Speech-related technologies. Where will the field go in 10 years?", in KRAUWER, S. (Ed.) Towards a Roadmap for Multimodal Language Resources and Evaluation. Workshop Proceedings. LREC 2002, Las Palmas de Gran Canaria, 2nd June 2002. Paris: ELRA, European Language Resources Association. pp. 24-42. http://www.nis.sdu.dk/~nob/publications/elsnet-bs-nob-v426.3.pdf COLEMAN, J. (2005) Introducing Speech and Language Processing. Cambridge: Cambridge University Press (Cambridge Introduction to Language and Linguistics) (+CD-ROM). CORTÁZAR, I.- RODRÍGUEZ, M.A.- GARRIDO, J.M.- CAMINERO, F.J.- BERNAT, J.RELAÑO, J.- GARIJO, F.J.- HERNÁNDEZ, L.A. (2002) "Últimos desarrollos en tecnologías del voz y del lenguaje", Comunicaciones de Telefónica I+D 24: 25-64. http://www.tid.es/presencia/publicaciones/comsid/esp/24/art2.pdf HOLMES, J.N..- HOLMES, W. (2001) Speech Synthesis and Recognition. London: Taylor & Francis, 2nd edition. HUANG, X.- ACERO, A.- HON, H.-H.- REDDY, R. (2001) Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New Jersey: Prentice Hall. JURAFSKY, D.- MARTIN, J.H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall. http://www.cs.colorado.edu/~martin/slp.html KELLER, E. (Ed.) (1994) Fundamentals of Speech Synthesis and Speech Recognition. Basic Concepts, State of the Art and Future Challenges. Chichester: John Wiley & Sons. LLISTERRI, J. (2001) "Les tecnologies de la parla", in MARTÍ, M.A. (Coord.) Les tecnologies del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). pp. 239-272; trad. cast.: "Las tecnologías del habla", in MARTÍ, M.A. (Coord.) Tecnologías del lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003. pp. 249-281. O'SHAUGHNESSY, D. (1987) Speech Communication. Human and Machine. Reading, Mass.: Addison Wesley. Second Edition: IEEE Press, 2000. PARDO, J.M. (2004) "Tecnología del Habla: Debate sobre retos pendientes y perspectivas", Procesamiento del Lenguaje Natural 32: 37-42. http://www-gth.die.upm.es/research/documentation/AN-44Tec-04.doc VILLARRUBIA, L.- GARRIDO, J.M.- RELAÑO, J.- CAMINERO, J.- ESCALADA, J.G.RODRÍGUEZ, M.C.- HERNÁNDEZ, L.A. (2002) "Productos de tecnología del habla para Latinoamérica", Comunicaciones de Telefónica I+D 27: 53-72. http://www.tid.es/presencia/publicaciones/docs_comtid/numero27.p df VILLARRUBIA, L.- RODRÍGUEZ, A.- RELAÑO, J.- GARIJO, F.J.- BERNAT, J.HERNÁNDEZ, L.A.- TAPIAS, D.- MARÍA, L.A. (2003) "Tecnología del habla para Guión y bibliografía básica 2 Las tecnologías del habla Joaquim Llisterri, Universitat Autònoma de Barcelona LIAAC, Laboratório Integrado de Análise Acústica e Cognição, Pontifícia Universidade Católica de São Paulo, 25 de agosto de 2005 aplicaciones multilingües, multiservicio y multiplataforma", Comunicaciones de Telefónica I+D 30: 47-78. http://www.tid.es/presencia/publicaciones/docs_comtid/numero30.p df CONVERSIÓN DE TEXTO EN HABLA ALLEN, J.- HUNNICUTT, M.S.- KLATT, D.H. (with R.C. ARMSTRONG and D. PISONI) (1987) From Text to Speech: The MITalk System. Cambridge: Cambridge University Press (Cambridge Studies in Speech Science and Communication). CARLSON, R.- GRANSTRÖM, B. (1997) "Speech Synthesis", in HARDCASTLE, W.J. LAVER, J. (Eds.) The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers (Blackwell Handbooks in Linguistics, 5). pp. 768-788. COLE, R. (Ed.) (1997) "Spoken Output Technologies", in COLE, R.A.- MARIANI, J.USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. http://cslu.cse.ogi.edu/HLTsurvey/ch5node2.html#Chapter5 DUTOIT, T. (1997) "High-Quality Text-to-Speech Synthesis : an Overview", Journal of Electrical & Electronics Engineering, Special Issue on Speech Recognition and Synthesis, 17: 1: 25-37. http://tcts.fpms.ac.be/publications/regpapers/1997/ieeea97_td.zi p DUTOIT, T. (1999) A Short Introduction to Text-to-Speech Synthesis, TCTS Lab, Faculté Polytechnique de Mons. http://tcts.fpms.ac.be/synthesis/introtts.html DUTOIT, T. (1997) An Introduction to Text-to-Speech Synthesis. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 3). http://tcts.fpms.ac.be/publications/books/introtts/ DUTOIT, T.- STYLIANOU, Y. (2003) "Text-to-speech synthesis", in MITKOV, R. (Ed.) The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press. pp. 323-338. JAVKIN, H.R. (1996) "Speech analysis and synthesis", in LASS, N.J (Ed.) Principles of Experimental Phonetics. St Louis: Mosby. pp. 245-276. LLISTERRI, J. (2001) "La conversión de texto en habla", Quark. Ciencia, Medicina, Comunicación y Cultura 21: 79-89. http://liceu.uab.es/~joaquim/publicacions/Quark2001/Llisterri_20 01.html NARAYANAN, S.- ALWAN, A. (Eds.) (2005) Text To Speech Synthesis: New Paradigms and Advances. Indianapolis: Prentice Hall PTR (IMSC Press Multimedia Series). OLIVE, J.P. (1998) "'The Talking Computer': Text to Speech Synthesis", in STORK, D.G. (Ed.) Hal's Legacy: 2001's Computer as Dream and Reality. Cambridge, Mass.: The MIT Press. http://mitpress.mit.edu/e-books/Hal/chap6/six1.html SPROAT, R. (Ed.) (1997) Multilingual Text-to-Speech Synthesis: The Bell Labs Approach. Dordrecht: Kluwer Academic Publishers. RECONOCIMIENTO DEL HABLA AINSWORTH, W.A. (1997) "Some Approaches to Automatic Speech Recognition", in HARDCASTLE, W.J. - LAVER, J. (Eds.) The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers (Blackwell Handbooks in Linguistics, 5). pp. 721-743. Guión y bibliografía básica 3 Las tecnologías del habla Joaquim Llisterri, Universitat Autònoma de Barcelona LIAAC, Laboratório Integrado de Análise Acústica e Cognição, Pontifícia Universidade Católica de São Paulo, 25 de agosto de 2005 BERNSTEIN, J.- FRANCO, H. (1996) "Speech recognition by computer", in LASS, N.J (Ed.) Principles of Experimental Phonetics. St Louis: Mosby. pp. 408-434. COLE, R.- ZUE, V. (Eds.) (1997) "Spoken Language Input", in COLE, R.A.- MARIANI, J.USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 1-70. http://cslu.cse.ogi.edu/HLTsurvey/ch1node2.html#Chapter1 DEROO, O. (1999) A Short Introduction to Speech Recognition. TCTS Lab, Faculté Polytechnique de Mons. http://tcts.fpms.ac.be/asr/intro.php JELINEK, F. (1998) Statistical Methods for Speech Recognition. Cambridge: The MIT Press (Language, Speech and Communication Series). KURZWEIL, R. (1998) "When Will HAL Understand What We Are Saying? Computer Speech Recognition and Understanding", in STORK, D.G. (Ed.) Hal's Legacy: 2001's Computer as Dream and Reality. Cambridge, Mass.: The MIT Press. http://mitpress.mit.edu/e-books/Hal/chap7/seven1.html LAMEL, L.- GAUVAIN, J.L. (2003) "Speech recognition", in MITKOV, R. (Ed.) The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press. pp. 305-322. LEVINSON, S.E.- LIBERMAN, M.Y. (1981) "Speech Recognition by Computer", Scientific American 244: 64-76; trad. cast. de R. Cerdà: "Reconocimiento del habla por medio de ordenadores", Investigación y Ciencia, 1981. pp. 38-51; in AGULLÓ, J. (Ed.) (1989) Acústica musical. Barcelona: Prensa Científica (Libros de Investigación y Ciencia) pp. 106-121. MARIÑO, J.B.- NADEU, C. (2004) "La representación de la voz para el reconocimiento del habla", in MARTÍ, M. A. – LLISTERRI, J. (Eds.) Tecnologías del texto y del habla. Barcelona. Edicions de la Universitat de Barcelona – Fundación Duques de Soria (UB, 72). pp. 187-224. NADEU, C. (2001) "Representación de la voz en el reconocimiento del habla", Quark. Ciencia, Medicina, Comunicación y Cultura 21: 63-71. http://www.imim.es/quark/21/021063.htm Speech-Enabled Interactive Voice Response Systems. Web ProForum Tutorials, International Engineering Consortium. http://www.iec.org/online/tutorials/speech_enabled/index.html SISTEMAS DE DIÁLOGO DAHL, D. (Ed.) (2004) Practical Spoken Dialog Systems. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 26). GIACHIN, E. (1997) "Spoken Language Dialogue", in COLE, R.A.- MARIANI, J.USZKOREIT, H.- ZAENEN, A.- ZUE, V. (Eds.) Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge University Press. pp. 241-244. http://cslu.cse.ogi.edu/HLTsurvey/ch6node6.html GIBBON, D.- MERTINS, I.- MOORE, R. (Eds.) (2000) Handbook of Multimodal and Spoken Dialogue Systems. Resources, Terminology and Product Evaluation. Dordrecht: Kluwer Academic Publishers (Kluwer International Series in Engineering and Computer Science, 565). HEISTERKAMP, P. (2003) "“Do not attempt to light with match!”: Some thoughts on progress and research goals in Spoken Dialog Systems", Towards a Roadmap for Speech Technology, ELSNET Special Session. Eurospeech'03 - Interspeech 2003. 8h European Conference on Speech Communication and Technology. Geneva, Switzerland, 1-4 September, 2003. http://www.elsnet.org/dox/heisterkamp.pdf Guión y bibliografía básica 4 Las tecnologías del habla Joaquim Llisterri, Universitat Autònoma de Barcelona LIAAC, Laboratório Integrado de Análise Acústica e Cognição, Pontifícia Universidade Católica de São Paulo, 25 de agosto de 2005 KUPPEVELT, J. van - SMITH, R.W. (Eds.) (2003) Current and new directions in discourse and dialogue. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 22). LÓPEZ-CÓZAR DELGADO, R. - ARAKI, M. (2005) Spoken, Multilingual and Multimodal Dialogue Systems: Development and Assessment. Chichester: John Wiley & Sons. McTEAR, M.F. (2004) Spoken dialogue technology: toward the conversational user interface. London; Springer Verlag. http://www.infj.ulst.ac.uk/%7Ecbdg23/book/topresources.htm MINKER, W.- BENNACEF, S. (2004) Speech and Human-Machine Dialog. Dordrecht: Kluwer (The Kluwer International Series in Engineering and Computer Science, 770). MINKER, W.- BÜHLER, D.- DYBKJAER, L. (Eds.) (2005) Spoken Multimodal HumanComputer Dialogue in Mobile Environments. Dordrecht: Springer (Text, Speech and Language Technology, 28). STOCK, O.- ZANCANARO, M. (Eds.) (2005) Multimodal Intelligent Information Presentation. Dordrecth: Springer (Text, Speech and Language Technology, 27). TAPIAS, D. (2002) "Interfaces de voz con lenguaje natural", in MARTÍ, M.A.- LLISTERRI, J. (Eds.) (2002) Tratamiento del lenguaje natural. Tecnología de la lengua oral y escrita. Barcelona: Edicions Universitat de Barcelona - Fundación Duques de Soria (Biblioteca de la Universitat de Barcelona, Manuales, 53). pp. 189-207. TAPIAS, D.- HERNÁNDEZ, L.A. (2004) "Los sistemas de diálogo en los servicios telefónicos: evolución y consideraciones de diseño", in MARTÍ, M. A. – LLISTERRI, J. (Eds.) Tecnologías del texto y del habla. Barcelona. Edicions de la Universitat de Barcelona – Fundación Duques de Soria (UB, 72). pp. 225-253. WAIBEL, A. (2001) "Los sistemas integrales completos del habla, del lenguaje y la interfaz humana", Quark. Ciencia, Medicina, Comunicación y Cultura 21: 95-102. http://www.imim.es/quark/21/021095.htm ZUE, V. (1999) "Talking with your computer", Scientific American, August 1999. pp. 40-41. http://www.sciam.com/article.cfm?articleID=0009D2B7-F2E6-1C729B81809EC588EF21&catID=2 CONOCIMIENTO LINGÜÍSTICO Y TECNOLOGÍAS DEL HABLA BARRY, W.J.- van DOMMELEN, W.A. (Eds.) (2005) The Integration of Phonetic Knowledge in Speech Technology. Dordrecht: Springer (Text, Speech and Language Technology, 25). FANT, G. (2004) "More than half a century in phonetics and speech research", in FANT, G. Speech Acoustics and Phonetics. Dordrecht: Kluwer Academic Publishers (Text, Speech and Language Technology, 24). pp. 1-14. http://www.speech.kth.se/~gunnar/halfcentury.pdf LLISTERRI J. (2002) "Las tecnologías del habla: Entre la ingeniería y la lingüística", Congreso Internacional La Ciencia ante el Público. Cultura humanística y desarrollo científico y tecnológico. Universidad de Salamanca, Salamanca, 28-31 October 2002. CD-ROM Edition. pp. 51-74. http://liceu.uab.es/~joaquim/publicacions/TecnolHab_Salamanca_02 .pdf LLISTERRI, J. (2002) “Lingüística y tecnologías del lenguaje”, Lynx. Panorámica de Estudios Lingüísticos (Departament de Teoria dels Llenguatges, Universitat de València) (en prensa) http://liceu.uab.es/~joaquim/publicacions/TecnoLing_Lynx02.pdf Guión y bibliografía básica 5 Las tecnologías del habla Joaquim Llisterri, Universitat Autònoma de Barcelona LIAAC, Laboratório Integrado de Análise Acústica e Cognição, Pontifícia Universidade Católica de São Paulo, 25 de agosto de 2005 LLISTERRI, J.- CARBÓ, C.- MACHUCA, M. J.- de la MOTA, C.- RIERA, M.- RÍOS, A. (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla", in CASAS GÓMEZ, M. (Dir.) - VARO VARO, C. (Ed.) VII Jornadas de Lingüística. Cádiz: Servicio de Publicaciones de la Universidad de Cádiz. pp. 137-191. http://liceu.uab.es/publicacions/Linguistica_TH_Cadiz02.pdf LLISTERRI, J.- CARBÓ, C.- MACHUCA, M. J.- de la MOTA, C.- RIERA, M.- RÍOS, A. (2004) “La conversión de texto en habla: aspectos lingüísticos”, in MARTÍ, M. A. – LLISTERRI, J. (Eds.) Tecnologías del texto y del habla. Barcelona. Edicions de la Universitat de Barcelona – Fundación Duques de Soria (UB, 72). pp. 145-186. http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf LLISTERRI, J. - MACHUCA, M.J.- de la MOTA, C.- RIERA, M.- RÍOS, M. (2003) "Entonación y tecnologías del habla", in PRIETO, P. (Ed.) Teorías de la entonación. Barcelona: Ariel (Ariel Lingüística). pp. 209-243. http://liceu.uab.es/~joaquim/publicacions/Ariel_Aplicaciones.pdf Guión y bibliografía básica 6