Los distintos corpus en fonética

Transcripción

Los distintos corpus en fonética
Profesor Nelson Rojas Fonética II
Los distintos corpus en fonética
1)
2)
3)
4)
Habla espontánea y habla controlada.
Importancia del corpus en el trabajo fonético.
La recolección del corpus: selección de los informantes y tipo de grabación.
Diferencias entre habla espontánea y habla controlada: tipos de información que
suministra cada tipo de habla.
5) Problemas en la recolección del corpus de cada tipo de habla.
6) Los corpus para aplicaciones tecnológicas: problemas en su recolección
Antes de empezar cualquier disertación sobre los corpus es esencial entender de qué se
tratan, por eso dedicaré algunas líneas a su definición, aunque no esté previsto en el
programa.
¿Qué es un corpus?
Toda ciencia necesita extraer datos empíricos en los que pueda basar sus hipótesis. En
lingüística estos datos derivan de los indicios que los enunciados de la lengua le proporcionan,
por lo que los corpus en esta disciplina están compuestos por estos enunciados o “conjunto de
datos sobre la lengua” Fontanals et al (2003)1. Estos datos pueden variar dependiendo de la
disciplina lingüística que los enfoque; en el caso de la morfología será el léxico, en el de la
sintaxis serán las frases u oraciones y en el de la fonética el conjunto de sonidos lingüístico,
bien a nivel segmental o suprasegmental.
Sin embargo para que pueda ser útil, este “conjunto de datos sobre la lengua” requiere de una
selección y un ordenamiento que responden a unos criterios bien explícitos, que serán
determinados por el tipo de estudio para el que serán usados.
Sinclair (1996)2 define un corpus como: “ una colección de elementos lingüísticos
seleccionados y ordenados de acuerdo con criterios lingüísticos bien explícitos, con la finalidad
de ser usada como muestra de la lengua.”
Tipos de corpus:
a. Textuales: Por fines prácticos no se profundizará en este apartado, sólo se hará una
enumeración de este tipo de corpus. Para empezar puede decirse que existe una
diversidad de corpus textuales que se pueden clasificar según diferentes criterios:
i. según el porcentaje y distribución de los textos: corpus grande,
equilibrado, priramidal, monitor, paralelo, comparable, multilingüe y
oportunista.
ii. Según la especificidad de los textos: general, especializado, genérico,
canónico, periódico y diacrónico.
1
Tecnologías del lenguaje. Barcelona. Editorial UOC. 2003
Preliminary Recomendations of Corpus Typology. EAGLES Documets EAG-TC WG – CTYP/P, May 1996.
Publicación electrónica en el ULR: http://www.ilc.pi.cnr.it/EAGLES96/corpustyp.html
2
iii. Según la cantidad de texto que se recoge de cada documento: textual
de referencia y léxico.
iv. Según la codificación y la anotación: simple y codificado.
v. Según la documentación que acompaña el texto: documentado y no
documentado.
b. Orales: este punto si se desglosará, pues es aquí donde se concentran los tipos de
corpus que ocupan a la fonética. Este tipo de difiere de los anteriores por el hecho de
que se basa en registros acústicos o en representación transcrita de ese material.
Este tipo de corpus se clasifica a su vez en tres variedades:
i. Corpus para la descripción fonética de la lengua: consiste en
grabaciones tomadas “en condiciones acústicas óptimas” que
permiten su posterior análisis en un laboratorio. Aquí podemos
distinguir los corpus de habla controlada y los de habla espontánea.
Según Torruella et al. (1999)3 “lo que caracteriza a este tipo de corpus
es un cuidadoso diseño del contenido basado en el inventario de
elementos segmentales y suprasegmentales de la lengua y un tamaño
relativamente reducido, debido a que no suele realizarse en un
número elevado de hablantes.”
ii. Corpus para el desarrollo de sistemas en el ámbito de las tecnologías
de habla: estos corpus conllevan un diseño aun más específico
dependiendo del fin para el que van a ser usados, bien en síntesis de
voz, reconocimiento de habla o traducción automática. En el caso de la
síntesis de voz, por ejemplo, se requiere un inventario grabado de
unidades fónicas llamadas difonos. Estos difonos deben estar inmersos
dentro de una frase portadora que evita la influencia de ciertos
contextos que se quieren evitar, como por ejemplo, la posición inicial
o final que afectarían notablemente la duración, la intensidad o la
frecuencia. Un ejemplo de un tipo de frase portadora sería la
siguiente:
Él dijo fotografía. Yo sé que el dijo fotografía.
En este caso interesa extraer el difono [af], cuya posición en la frase es
la más estable, tanto en su duración como en su frecuencia,
permitiendo así extraer una unidad lo más neutral posible y que pueda
concatenarse con otra sin diferencias extremas.
iii. Transcripciones ortográficas de la lengua hablada:
1. Habla espontánea y habla controlada:
De acuerdo al objetivo planteado, en los estudios fonéticos se suele recurrirse a dos
modalidades de habla que brindarán diferentes tipos de información: el habla espontánea y el
habla controlada o de laboratorio. ¿Pero qué entendemos por cada una de estas modalidades
de habla? Para definir objetivamente cada modalidad es necesario tomar en cuenta algunas
3
Torruella, J- Llisterry, J. (1999) “Diseño de corpus textuales y orales”. Publicación electrónica en el ULR:
http://liceau.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf
variables relacionadas con algunos elementos del circuito de la comunicación (mensaje,
emisor-receptor y contexto-canal) Aguilar et al.4 , estas variables suelen ser:
1. El tipo de corpus: si es planificado, parcialmente planificado o no planificado
2. La relación emisor receptor: si el investigador está presente o si hay receptores.
3. La procedencia de la grabación: si es de un laboratorio, de un medio de comunicación
o del entorno natural.
Podemos basarnos en estos factores para determinar la modalidad de habla, por ejemplo, si
queremos delimitar el habla espontánea, el tipo de corpus no debe ser planificado, debe haber
una relación emisor receptor, bien entre el investigador o el informante o entre el informante
y otro u otros receptores. Por otra parte la procedencia de la grabación debería ser en un
entorno natural (la casa, la oficina, etc.).
Por su parte para delimitar el habla controlada el corpus debe ser planificado, puede o no
haber presencia del investigador, generalmente hay ausencia de un receptor, la grabación
tiene como lugar un laboratorio.
Muestras de habla espontánea sería, por ejemplo, una conversación, una entrevista, un debate
o un discurso. Y muestras de habla controlada sería, por ejemplo, una lista de palabras, de
frases, textos leídos, mapas de tareas, inducción de estímulos para conseguir preguntas o
respuestas, entre otros.
2. La Importancia de los corpus en el trabajo fonético:
Cuando se daba la definición de corpus al inicio de este escrito, se hacía referencia a que todas
las ciencias requieren de datos empíricos sobre los cuales sustentar sus hipótesis; en el caso de
la fonética, esos datos se derivan de los sonidos del habla, material efímero, cuya forma más
común de estudio es mediante la medición y el análisis de esos sonidos, que son registrados en
grabaciones acústicas que pueden llegar a conformar un corpus.
En la investigación fonética los corpus son indispensables, ya que de ellos es que se extrae los
fenómenos mensurables que serán objeto de estudio. Es imposible hacer un estudio de
entonación, por ejemplo, sin un registro acústico del cual se puedan generar los diferentes
datos.
3. La recolección del corpus:
La recolección de un corpus fonético puede variar dependiendo de l objetivo que se persiga y
la hipótesis, sin embargo esbozaremos los aspectos generales de la recolección que todo
corpus en fonética requiere.
1. Antes de la recolección debe pensarse en algo que muchas veces se omite, pero que
puede traer ciertas repercusiones importantes en el trabajo de investigación; se trata
de un aspecto relacionado con la bioética. No debemos olvidar que la fonética, y la
lingüística en general, trabajan con material humano, por lo tanto debe pensar en lo
que esto implica. Es por ello que, al comenzar la recolección de cualquier clase de
4
Problemas para la definición y categorización de los estilos de habla.
http://liceu.uab.es/~maria/Investigacion/aesla_94.pdf
corpus, debe tomarse en cuenta el consentimiento informado del entrevistado, de
hecho este es un requisito actualmente exigido por el CDCHT. El fin de éste es que la
persona entrevistada autorice por escrito al investigador para usar su registro de voz
con fines científicos, por lo que el investigador debe haber informado a la persona que
va a entrevistar del objetivo de su trabajo.
2. El segundo paso que debe darse en la recolección de un corpus es plantearse el
objetivo que persigue el trabajo para el cual será diseñado. A este respecto Llisterry
(1991) menciona algunas variables que se deben tomar en cuenta al momento de
constituir un corpus. Estas variables son:
i. De elocución: el idioma, el informante, el orden de la grabación y la velocidad
de elocución. Por lo general el investigador tiene control sobre ellas y debe
tratar de que sean lo más equilibradas posible.
ii. Fonéticas: la situación en el conjunto del enunciado, de la curva melódica y de
la sílaba, la acentuación y los sonidos adyacentes. Estos son factores
contextuales que pueden alterar de una u otra forma el corpus. El investigador
también tiene cierto control sobre estas variables de modo que puede diseñar
el corpus para evitarlos o generarlos.
iii. Lingüísticas: el valor funcional, la estructura del enunciado o la intuición
ortológica suelen ser factores que influyen en los sonidos por lo que deben ser
tomados en cuenta.
iv. La variación estilística: la forma culta de habla, la semiculta o la familiar,
factores que pueden influir también de manera significativa sobre el habla.
3. Un tercer paso en la recolección es la selección de los informantes, para lo cual se
pueden tomar en cuenta algunas variables intrínsecas o extrínsecas
i. Intrínsecas: edad y sexo.
ii. Extrínsecas: nacionalidad, clase social, nivel socioeconómico, nivel educativo,
procedencia o base dialectal (rural o urbano).
Muy importante también es que el informante no presente ningún tipo de
alteración en el tracto vocal o a nivel cerebral (falta de dentición, patologías como
labio y paladar hendido o algún tipo de afasia). A no ser que se estudie algún tipo
de estos problemas, no debe tomarse a un informante que presente alteraciones
de este tipo.
4. Es bastante conocido que los trabajos en fonética requieren grabaciones de muy alta
calidad. Por eso en el cuarto paso de la recolección de un corpus se debe tomar en
cuenta las condiciones e instrumentos de grabación. Enumeremos estos pasos de la
siguiente manera:
i. Condiciones ambientales: se refiere al nivel de ruido y eco que pueda
tener una grabación. Estará determinado por el objetivo del estudio,
pues la grabación de un corpus para síntesis de voz, por ejemplo, exige
niveles de ruido más bajos, tal vez, un corpus para el análisis de la
duración. Para ello se cuenta con salas de grabación, cabinas
insonorizadas o incluso cámaras anecoicas que anulan efectos como el
eco o la reverberación.
5.
6.
7.
8.
ii. Instrumentos: También es importante el tipo de instrumentos usados
en la grabación; usar micrófonos profesionales de diadema sería lo
ideal, sobre todo en aquellos estudios que pretendan centrarse en la
intensidad, pues es uno de los factores que sufre mayor alteración en
una grabación, y con un micrófono fijo en la boca del informante se
minimizan estas alteraciones, por otra parte estos micrófonos son
unidireccionales, es decir que su captación es localizada
concentrándose así en la voz del informante y aislando gran parte del
sonido externo; no es recomendable usar el micrófono que trae
incorporado algunos aparatos de grabación, pues estos, al ser
omnidireccionales, recogen una gran cantidad de ruido ambiental. Por
otra parte, actualmente se privilegian los sistemas de audio digitales
por sobre los analógicos de casete, ya que con ellos se omite el
proceso de digitalización que implicaría una señal analógica. Estos
equipos de audio suelen ser grabadoras profesionales de gran
fidelidad e inclusive computadores con tarjetas de sonido de alta
calidad.
Ficha de datos personales.
Instrucciones para la grabación y presentación del corpus.
Familiarización con el corpus
Control y prueba de la grabación.
4. Problemas en la recolección de cada tipo de habla
5. Los corpus para aplicaciones tecnológicas
Estos corpus son esenciales en esta disciplina, pues de ellos se extraen, tanto las unidades
lingüísticas usadas para el entrenamiento de los reconocedores, como las unidades de
concatenación en la síntesis de voz, entre otros.
Se caracterizan por ser de habla controlada en extremo, ya que todo es planificado, desde la
cantidad de fenómenos lingüísticos que debe contener (palabras, fonos, difonos), cuya
proporción debe ser equilibrada; el tipo de hablante, cuya voz debe cumplir determinados
requisitos acústicos; condiciones ambientales de grabación óptimas.
El diseño de estos corpus debe cumplir fines muy específicos dependiendo de la rama de la
tecnología a la que estén dirigidos, por ejemplo, en la conversión de texto a habla, se requiere
un corpus con todos los sonidos de una lengua determinada y todas las posibilidades de
combinación, los cuales conformarán el diccionario de difonos de una lengua determinada. A
demás puede estar diseñado con miras a la inteligibilidad del sistema, aspecto segmental, o a
la naturalidad, que es un aspecto prosódico.
En reconocimiento de habla, por ejemplo, los corpus son esenciales para la creación del léxico
que utilizarán los reconocedores, para obtener datos que permitan caracterizar a uno o varios
hablantes. El diseño de los corpus es tan específico, que si se quiere orientar hacia las
telecomunicaciones, requiere de corpus telefónicos que recojan las condiciones reales de ese
canal.
Y justamente los problemas de la recolección vienen dados por la gran especificidad que
conlleva la recolección de estos corpus.

Documentos relacionados