Los distintos corpus en fonética
Transcripción
Los distintos corpus en fonética
Profesor Nelson Rojas Fonética II Los distintos corpus en fonética 1) 2) 3) 4) Habla espontánea y habla controlada. Importancia del corpus en el trabajo fonético. La recolección del corpus: selección de los informantes y tipo de grabación. Diferencias entre habla espontánea y habla controlada: tipos de información que suministra cada tipo de habla. 5) Problemas en la recolección del corpus de cada tipo de habla. 6) Los corpus para aplicaciones tecnológicas: problemas en su recolección Antes de empezar cualquier disertación sobre los corpus es esencial entender de qué se tratan, por eso dedicaré algunas líneas a su definición, aunque no esté previsto en el programa. ¿Qué es un corpus? Toda ciencia necesita extraer datos empíricos en los que pueda basar sus hipótesis. En lingüística estos datos derivan de los indicios que los enunciados de la lengua le proporcionan, por lo que los corpus en esta disciplina están compuestos por estos enunciados o “conjunto de datos sobre la lengua” Fontanals et al (2003)1. Estos datos pueden variar dependiendo de la disciplina lingüística que los enfoque; en el caso de la morfología será el léxico, en el de la sintaxis serán las frases u oraciones y en el de la fonética el conjunto de sonidos lingüístico, bien a nivel segmental o suprasegmental. Sin embargo para que pueda ser útil, este “conjunto de datos sobre la lengua” requiere de una selección y un ordenamiento que responden a unos criterios bien explícitos, que serán determinados por el tipo de estudio para el que serán usados. Sinclair (1996)2 define un corpus como: “ una colección de elementos lingüísticos seleccionados y ordenados de acuerdo con criterios lingüísticos bien explícitos, con la finalidad de ser usada como muestra de la lengua.” Tipos de corpus: a. Textuales: Por fines prácticos no se profundizará en este apartado, sólo se hará una enumeración de este tipo de corpus. Para empezar puede decirse que existe una diversidad de corpus textuales que se pueden clasificar según diferentes criterios: i. según el porcentaje y distribución de los textos: corpus grande, equilibrado, priramidal, monitor, paralelo, comparable, multilingüe y oportunista. ii. Según la especificidad de los textos: general, especializado, genérico, canónico, periódico y diacrónico. 1 Tecnologías del lenguaje. Barcelona. Editorial UOC. 2003 Preliminary Recomendations of Corpus Typology. EAGLES Documets EAG-TC WG – CTYP/P, May 1996. Publicación electrónica en el ULR: http://www.ilc.pi.cnr.it/EAGLES96/corpustyp.html 2 iii. Según la cantidad de texto que se recoge de cada documento: textual de referencia y léxico. iv. Según la codificación y la anotación: simple y codificado. v. Según la documentación que acompaña el texto: documentado y no documentado. b. Orales: este punto si se desglosará, pues es aquí donde se concentran los tipos de corpus que ocupan a la fonética. Este tipo de difiere de los anteriores por el hecho de que se basa en registros acústicos o en representación transcrita de ese material. Este tipo de corpus se clasifica a su vez en tres variedades: i. Corpus para la descripción fonética de la lengua: consiste en grabaciones tomadas “en condiciones acústicas óptimas” que permiten su posterior análisis en un laboratorio. Aquí podemos distinguir los corpus de habla controlada y los de habla espontánea. Según Torruella et al. (1999)3 “lo que caracteriza a este tipo de corpus es un cuidadoso diseño del contenido basado en el inventario de elementos segmentales y suprasegmentales de la lengua y un tamaño relativamente reducido, debido a que no suele realizarse en un número elevado de hablantes.” ii. Corpus para el desarrollo de sistemas en el ámbito de las tecnologías de habla: estos corpus conllevan un diseño aun más específico dependiendo del fin para el que van a ser usados, bien en síntesis de voz, reconocimiento de habla o traducción automática. En el caso de la síntesis de voz, por ejemplo, se requiere un inventario grabado de unidades fónicas llamadas difonos. Estos difonos deben estar inmersos dentro de una frase portadora que evita la influencia de ciertos contextos que se quieren evitar, como por ejemplo, la posición inicial o final que afectarían notablemente la duración, la intensidad o la frecuencia. Un ejemplo de un tipo de frase portadora sería la siguiente: Él dijo fotografía. Yo sé que el dijo fotografía. En este caso interesa extraer el difono [af], cuya posición en la frase es la más estable, tanto en su duración como en su frecuencia, permitiendo así extraer una unidad lo más neutral posible y que pueda concatenarse con otra sin diferencias extremas. iii. Transcripciones ortográficas de la lengua hablada: 1. Habla espontánea y habla controlada: De acuerdo al objetivo planteado, en los estudios fonéticos se suele recurrirse a dos modalidades de habla que brindarán diferentes tipos de información: el habla espontánea y el habla controlada o de laboratorio. ¿Pero qué entendemos por cada una de estas modalidades de habla? Para definir objetivamente cada modalidad es necesario tomar en cuenta algunas 3 Torruella, J- Llisterry, J. (1999) “Diseño de corpus textuales y orales”. Publicación electrónica en el ULR: http://liceau.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf variables relacionadas con algunos elementos del circuito de la comunicación (mensaje, emisor-receptor y contexto-canal) Aguilar et al.4 , estas variables suelen ser: 1. El tipo de corpus: si es planificado, parcialmente planificado o no planificado 2. La relación emisor receptor: si el investigador está presente o si hay receptores. 3. La procedencia de la grabación: si es de un laboratorio, de un medio de comunicación o del entorno natural. Podemos basarnos en estos factores para determinar la modalidad de habla, por ejemplo, si queremos delimitar el habla espontánea, el tipo de corpus no debe ser planificado, debe haber una relación emisor receptor, bien entre el investigador o el informante o entre el informante y otro u otros receptores. Por otra parte la procedencia de la grabación debería ser en un entorno natural (la casa, la oficina, etc.). Por su parte para delimitar el habla controlada el corpus debe ser planificado, puede o no haber presencia del investigador, generalmente hay ausencia de un receptor, la grabación tiene como lugar un laboratorio. Muestras de habla espontánea sería, por ejemplo, una conversación, una entrevista, un debate o un discurso. Y muestras de habla controlada sería, por ejemplo, una lista de palabras, de frases, textos leídos, mapas de tareas, inducción de estímulos para conseguir preguntas o respuestas, entre otros. 2. La Importancia de los corpus en el trabajo fonético: Cuando se daba la definición de corpus al inicio de este escrito, se hacía referencia a que todas las ciencias requieren de datos empíricos sobre los cuales sustentar sus hipótesis; en el caso de la fonética, esos datos se derivan de los sonidos del habla, material efímero, cuya forma más común de estudio es mediante la medición y el análisis de esos sonidos, que son registrados en grabaciones acústicas que pueden llegar a conformar un corpus. En la investigación fonética los corpus son indispensables, ya que de ellos es que se extrae los fenómenos mensurables que serán objeto de estudio. Es imposible hacer un estudio de entonación, por ejemplo, sin un registro acústico del cual se puedan generar los diferentes datos. 3. La recolección del corpus: La recolección de un corpus fonético puede variar dependiendo de l objetivo que se persiga y la hipótesis, sin embargo esbozaremos los aspectos generales de la recolección que todo corpus en fonética requiere. 1. Antes de la recolección debe pensarse en algo que muchas veces se omite, pero que puede traer ciertas repercusiones importantes en el trabajo de investigación; se trata de un aspecto relacionado con la bioética. No debemos olvidar que la fonética, y la lingüística en general, trabajan con material humano, por lo tanto debe pensar en lo que esto implica. Es por ello que, al comenzar la recolección de cualquier clase de 4 Problemas para la definición y categorización de los estilos de habla. http://liceu.uab.es/~maria/Investigacion/aesla_94.pdf corpus, debe tomarse en cuenta el consentimiento informado del entrevistado, de hecho este es un requisito actualmente exigido por el CDCHT. El fin de éste es que la persona entrevistada autorice por escrito al investigador para usar su registro de voz con fines científicos, por lo que el investigador debe haber informado a la persona que va a entrevistar del objetivo de su trabajo. 2. El segundo paso que debe darse en la recolección de un corpus es plantearse el objetivo que persigue el trabajo para el cual será diseñado. A este respecto Llisterry (1991) menciona algunas variables que se deben tomar en cuenta al momento de constituir un corpus. Estas variables son: i. De elocución: el idioma, el informante, el orden de la grabación y la velocidad de elocución. Por lo general el investigador tiene control sobre ellas y debe tratar de que sean lo más equilibradas posible. ii. Fonéticas: la situación en el conjunto del enunciado, de la curva melódica y de la sílaba, la acentuación y los sonidos adyacentes. Estos son factores contextuales que pueden alterar de una u otra forma el corpus. El investigador también tiene cierto control sobre estas variables de modo que puede diseñar el corpus para evitarlos o generarlos. iii. Lingüísticas: el valor funcional, la estructura del enunciado o la intuición ortológica suelen ser factores que influyen en los sonidos por lo que deben ser tomados en cuenta. iv. La variación estilística: la forma culta de habla, la semiculta o la familiar, factores que pueden influir también de manera significativa sobre el habla. 3. Un tercer paso en la recolección es la selección de los informantes, para lo cual se pueden tomar en cuenta algunas variables intrínsecas o extrínsecas i. Intrínsecas: edad y sexo. ii. Extrínsecas: nacionalidad, clase social, nivel socioeconómico, nivel educativo, procedencia o base dialectal (rural o urbano). Muy importante también es que el informante no presente ningún tipo de alteración en el tracto vocal o a nivel cerebral (falta de dentición, patologías como labio y paladar hendido o algún tipo de afasia). A no ser que se estudie algún tipo de estos problemas, no debe tomarse a un informante que presente alteraciones de este tipo. 4. Es bastante conocido que los trabajos en fonética requieren grabaciones de muy alta calidad. Por eso en el cuarto paso de la recolección de un corpus se debe tomar en cuenta las condiciones e instrumentos de grabación. Enumeremos estos pasos de la siguiente manera: i. Condiciones ambientales: se refiere al nivel de ruido y eco que pueda tener una grabación. Estará determinado por el objetivo del estudio, pues la grabación de un corpus para síntesis de voz, por ejemplo, exige niveles de ruido más bajos, tal vez, un corpus para el análisis de la duración. Para ello se cuenta con salas de grabación, cabinas insonorizadas o incluso cámaras anecoicas que anulan efectos como el eco o la reverberación. 5. 6. 7. 8. ii. Instrumentos: También es importante el tipo de instrumentos usados en la grabación; usar micrófonos profesionales de diadema sería lo ideal, sobre todo en aquellos estudios que pretendan centrarse en la intensidad, pues es uno de los factores que sufre mayor alteración en una grabación, y con un micrófono fijo en la boca del informante se minimizan estas alteraciones, por otra parte estos micrófonos son unidireccionales, es decir que su captación es localizada concentrándose así en la voz del informante y aislando gran parte del sonido externo; no es recomendable usar el micrófono que trae incorporado algunos aparatos de grabación, pues estos, al ser omnidireccionales, recogen una gran cantidad de ruido ambiental. Por otra parte, actualmente se privilegian los sistemas de audio digitales por sobre los analógicos de casete, ya que con ellos se omite el proceso de digitalización que implicaría una señal analógica. Estos equipos de audio suelen ser grabadoras profesionales de gran fidelidad e inclusive computadores con tarjetas de sonido de alta calidad. Ficha de datos personales. Instrucciones para la grabación y presentación del corpus. Familiarización con el corpus Control y prueba de la grabación. 4. Problemas en la recolección de cada tipo de habla 5. Los corpus para aplicaciones tecnológicas Estos corpus son esenciales en esta disciplina, pues de ellos se extraen, tanto las unidades lingüísticas usadas para el entrenamiento de los reconocedores, como las unidades de concatenación en la síntesis de voz, entre otros. Se caracterizan por ser de habla controlada en extremo, ya que todo es planificado, desde la cantidad de fenómenos lingüísticos que debe contener (palabras, fonos, difonos), cuya proporción debe ser equilibrada; el tipo de hablante, cuya voz debe cumplir determinados requisitos acústicos; condiciones ambientales de grabación óptimas. El diseño de estos corpus debe cumplir fines muy específicos dependiendo de la rama de la tecnología a la que estén dirigidos, por ejemplo, en la conversión de texto a habla, se requiere un corpus con todos los sonidos de una lengua determinada y todas las posibilidades de combinación, los cuales conformarán el diccionario de difonos de una lengua determinada. A demás puede estar diseñado con miras a la inteligibilidad del sistema, aspecto segmental, o a la naturalidad, que es un aspecto prosódico. En reconocimiento de habla, por ejemplo, los corpus son esenciales para la creación del léxico que utilizarán los reconocedores, para obtener datos que permitan caracterizar a uno o varios hablantes. El diseño de los corpus es tan específico, que si se quiere orientar hacia las telecomunicaciones, requiere de corpus telefónicos que recojan las condiciones reales de ese canal. Y justamente los problemas de la recolección vienen dados por la gran especificidad que conlleva la recolección de estos corpus.