Cómo - Universidad de Las Palmas de Gran Canaria

Transcripción

Cómo - Universidad de Las Palmas de Gran Canaria
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
Recursos y procedimientos de la evaluación del lenguaje espontáneo
mediante muestras de habla
Proyecto CHILDES de trascripción y análisis de muestras de lenguaje.
Rafael Santana(*), Santiago Torres(**) e Ignacio Moreno-Torres(**)1
6. Proyecto CHILDES de trascripción y análisis de muestras de lenguaje.
6.1 Introducción.
6.2 Procedimiento de transcripción según norma CHAT.
6.2.1. Codificación del encabezado según norma CHAT.
6.2.2. Codificación de líneas principales según norma CHAT.
6.2.3. Codificación de líneas dependientes según norma CHAT.
6.2.4. Comprobación de errores.
6.3 Procedimiento para obtener los datos a partir de una trascripción CHAT.
6.3.1 Cómo instalar el programa CLAN.
6.3.2. Cómo pasar archivos DOC a clan.
6.3.3 Cómo usar el programa CLAN.
6.3.4 Lista de comandos de CLAN.
6.3.5 Ejemplos de comandos CLAN para obtención de datos de una muestra.
Referencias bibliográficas
1
(*)Universidad de Las Palmas de Gran Canaria
(**)Universidad de Málaga
1
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
6. Proyecto CHILDES de trascripción y análisis de muestras de lenguaje.
6.1 Introducción.
En este epígrafe, se ofrece la información relevante respecto al procedimiento de
trascripción de muestras más importante a nivel internacional. Se trata del Proyecto
CHILDES que significa CHILD LANGUAGE DATA EXCHANGE SYSTEM, creado y
desarrollado por el profesor Brian MacWhinney (ver Cuadro 7). Se incluyen materiales de
soporte, tales como: información introductoria, software, manual, plantillas, codificación,
etc. Todo ello, a partir de la base de datos original en inglés.
En castellano, el Equipo de Investigación MOC (Modelo Oral Complementado) ha
realizado la adaptación del sistema de transcripción a las peculiaridades de uso del sistema
de La Palabra Complementada, que utilizamos con sujetos sordos. Más información del
grupo de investigación y de la referencia de la transcripción adaptada en el Cuadro 8. La
adaptación del sistema de codificación CHAT, a las peculiaridades de los sujetos sordos
LPC con los que desarrollamos nuestra investigación, puede consultarse en el apéndice de
este artículo.
The CHILDES Project: Tools for Analyzing Talk . Electronic Edition
The CHAT Transcription Format
Brian MacWhinney, Carnegie Mellon University, August 7, 2007
MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. 3rd
Edition. Mahwah, NJ: Lawrence Erlbaum Associates
http://childes.psy.cmu.edu/manuals/CHAT.pdf.
Cuadro 7. Referencia Proyecto CHILDES
The CHILDES Project
MOCHAT: Sistema de trascripción CHAT adaptado al MOC
(Modelo Oral Complementado)
Autores:
Ignacio Moreno-Torres (Universidad de Málaga),
Santiago Torres Monreal (Universidad de Málaga), y
2
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
Rafael Santana (Universidad de Las Palmas de Gran Canaria)
http://www.uma.es/moc
Cuadro 8. Referencia Proyecto MOC y MOCHAT
6.2 Procedimiento de transcripción según norma CHAT.
El modelo de trascripción que hemos ejemplificado en el punto 5, puede
considerarse un procedimiento “casero”. Nos permite el análisis básico de muestras de
habla, pero no nos permite su utilización con herramientas de análisis de muestras
standarizadas y en uso en otras lenguas. La necesidad de compartir corpus de hablantes en
distintas lenguajes y su codificación según pautas comunes, dio origen al Proyecto
CHILDES (MacWhinney, 2000). Diez-Itza, Snow y MacWhinney (1999) ofrecen una
buena descripción en castellano de todo el proceso de trascripción y codificación de
muestras, según la norma CHAT. Una introducción al mismo se ofrece en este epígrafe, a
partir de la descripción de sus líneas de codificación resumidas en el Cuadro 9.
Lo más cómodo para hacer transcripciones es usar un procesador de textos como
Word. En un archivo vamos a ir escribiendo las líneas que compondrán la muestra.
6.2.1. Codificación del encabezado según norma CHAT.
Los encabezados son las líneas donde se especifican los datos generales de la
trascripción. Siempre deben comenzar con el signo @, como por ejemplo: @Begin,
@Participants:, @Age of XXX:. Después de este signo @ no hay espacio. A excepción de
los siguientes encabezados @Begin, @End, @New Episode, todos llevan dos puntos (:),
un tabulador, y algún texto.
Estructura de las transcripciones
(i) Las líneas de encabezado y cierre: se inician con el signo @; en ellas se especifican los
datos generales de la transcripción
3
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
(ii) Las líneas principales: se inician con el signo *; en ellas se recogen las producciones
emitidas por los participantes
(iii) Las líneas dependientes: se inician con el signo %; en ellas se recogen diversas
anotaciones e información complementaria
Codificación en las líneas principales (ejemplos)
Códigos constantes (en orden sucesivo):
– asterisco
– tres letras que identifican al hablante
– dos puntos
– espacio de un tabulador
– producciones emitidas
– signo de puntuación final
#
pausa
##
pausa prolongada
xxx
material ininteligible tratado como palabra o como secuencia
www fragmento de conversación que se ha decidido no transcribir
()
permite completar las palabras que el informante emite incompletas
[>]
sigue un solapamiento
[<]
precede un solapamiento
[/]
repetición sin corrección
[//]
repetición con corrección
[/?]
repetición indefinida (superior a tres veces)
[?]
aproximación o conjetura
[*]
marca de uso peculiar codificado como error
@o
onomatopeya
@d
forma dialectal
@s
segunda lengua
+
entre las partes de una onomatopeya
+//
el emisor se interrumpe
+/
al emisor lo interrumpen
++
una persona completa la frase que ha iniciado otra
+
una persona completa la frase que ha iniciado él mismo en otro turno
+”/
el siguiente turno es una cita
+”
se inicia una cita
+”.
el turno anterior era una cita
Codificación en las líneas dependientes (ejemplos)
%err: usos peculiares
%act: acción del hablante o del interlocutor
%add: receptor de una emisión
%com: comentarios de cualquier tipo
%spa: imitaciones
Cuadro 9. Codificación de muestra según norma CHAT
@Begin
Debe ser siempre la primera línea de la trascripción.
@Participants:
Esta es la segunda línea del fichero. En ella se encuentra el listado de los participantes de
la entrevista. La estructura de la línea es la siguiente: @Participants: XXX Name Role,
XXX Name Role, ...
XXX corresponde a las tres letras mayúsculas elegidas para
identificar a cada personaje. En el caso de que las tres letras iniciales de dos de los
participantes coincidan, cambiamos una de ellas por las iniciales del rol que desempeñan.
4
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
Ej.:
@Participants: BLA Blanca Target_Child, MOT Blanca Mother
Se utiliza el inglés para identificar el rol. Los roles más comunes son: Target Child,
Mother, Father, Brother, Sister, Teacher e Investigator.
@ID:
Ésta línea tiene una forma fijada:
@ID: language|corpus|code|age|sex|group|SES|role|education|
por ejemplo:
@ID: es|MOC|BLA|1;6.5|female|||Target_Child||
Cada participante tiene su propia línea.
@Birth of XXX:
La estructura de este enunciado es: día, guión, mes, guión, año. Los meses van en letras
mayúsculas y siguiendo las siguientes abreviaturas: JAN, FEB, MAR, APR, MAY, JUN,
JUL, AUG, SEP, OCT, NOV, DEC. Tampoco se pone ningún signo de puntuación al final
de la línea.
@Birth of BLA: 12-ABR-2004
@Coder:
Persona o entidad que realiza la trascripción.
@Coder: Santiago Torres, Ignacio Moreno Torres y Rafael Santana
@Date:
En ésta línea se indica la fecha de grabación de la entrevista, siguiendo el mismo criterio
que en línea
@Date:
ABR-2006
@Location:
@Location: Spain
@Situation:
Esta línea describe la situación general de la interacción, como por ejemplo: jugando en el
baño, conversando en la merienda sentado en la trona…
@Situation:
jugando con los collares ortofónicos
@New Episode
Se utiliza sin: Se emplea para indicar que ha finalizado un episodio y que comienza uno
nuevo. Este encabezado suele ir acompañado de los encabezados: @Situation y @Date.
El cuadro 10 ofrece un ejemplo de codificación de encabezado.
5
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
@Begin
@Languages: es
@Participants:
BLA Blanca Target_Child, MOT madre Mother
@Age of BLA:
03;00.07
@Birth of BLA:
12-JUN-2003
@Coder:
Santiago Torres
@Coder:
Ignacio Moreno-Torres
@Coder:
Rafael Santana
@Sex of BLA:
Female
@ID: 2007.132 m
@Date:
19-JUN-2006
@Location: Domicilio
@Situation: emparejamiento de objetos y tarjetas
(explicación)
@Begin
@Languages: es (es = español)
@Participants:
BLA Blanca Target_Child, MOT madre Mother
(acrónimo de todos los participantes de la muestra: para cada
uno de los participantes, elegir tres letras, en mayúsculas, y
después de un espacio el Nombre. “Target Child” significa que el
nombre que precede es el sujeto a estudio; “Mother”, la madre;
“Father”, el padre; “Uncle”, el tío; “Aunt”, la tía; “Teacher”,
el profesor/a; etc…)
@Age of BLA:
03;00.07 (edad del sujeto que se estudia, en
formato: aa;mm.dd)
@Birth of BLA:
12-JUN-2003 (fecha de nacimiento: dd-MMM-aaaa)
@Coder:
Santiago Torres, Ignacio Moreno-Torres y Rafael Santana
(nombre de la persona que realiza la transcripción)
@Sex of BLA:
Female (género del niño que se estudia: “Male” –
niño- o “Female” –niña-)
@Date:
19-JUN-2006 (fecha en que se realizó la grabación de la
muestra)
@Location: Domicilio (lugar en que se realize la grabación:
“domicilio”, “colegio”, “gabinete”…)
@Situation: juego de emparejamiento de objetos y tarjetas (breve
descripción del tipo de situación comunicativa o de juego)
Cuadro 10. Ejemplo de encabezado
6.2.2. Codificación de líneas principales según norma CHAT.
En estas líneas se trascribe todo lo que los participantes dicen. Cada línea principal
Comienza con un asterisco *. Después siguen las tres letras mayúsculas elegidas para
identificar a cada personaje, dos puntos, un tabulador y el contenido de la línea que
comenzará siempre en minúscula, a no ser que sea un nombre propio. Ejemplo:
*BLA: [tab]dame pan.
En cada línea principal debe haber sólo una oración. En el caso de que una oración ocupe
más de una línea, esta segunda línea debe comenzar con un tabulador (metido
automáticamente por CLAN), no con barra espaciadora . Las líneas principales siempre
deben terminar con uno de los siguientes signos de puntuación final: . ! ?
6
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
- El punto marca el final de oraciones enunciativas. Ejemplo:
*BLA:[tab]no.
- El punto indica final de oración y tras el no se debe seguir escribiendo. Las
abreviaturas y siglas no deben llevar punto. Ejemplo:
*BLA: [tab] la muñeca de W .
- Únicamente se utilizarán las mayúsculas en los nombres propios, las oraciones
comenzarán en minúscula.
*BLA: [tab] la pelota de Iván..
- El signo ? se utiliza para marcar las oraciones interrogativas. No se usa el ¿ o el ¡
*BLA: [tab] me das agua?
- El signo ! se utiliza para marcar las oraciones exclamativas e imperativas.
* BLA: [tab] vete!
6.2.3. Codificación de líneas dependientes según norma CHAT.
Las líneas dependientes van siempre después de la línea principal a la que se
refieren y contienen códigos, comentarios, acontecimientos o descripciones de interés para
el investigador. Todas las líneas dependientes deben empezar con el signo de tanto por
ciento %, seguido de tres letras minúsculas que indican un determinado código, dos puntos
:, un tabulador y el contenido de la línea. No llevan signo de puntuación final .
*BLA: [tab] tengo cole(gio).
%com: hace dos días que asiste al colegio
El cuadro 11 ofrece un ejemplo de codificación de líneas principales y dependientes.
@Begin
@Languages: es
@Participants:
BLA Blanca Target_Child, MOT madre Mother
@Age of BLA:
03;00.07
@Birth of BLA:
12-JUN-2003
@Coder:
Santiago Torres
@Coder:
Ignacio Moreno-Torres
@Coder:
Rafael Santana
@Sex of BLA:
Female
@ID: 2007.132 m
@Date:
19-JUN-2006
@Location: Domicilio
@Situation: emparejamiento de objetos y tarjetas
%tim: 0:00
*MOT: perro.
%com: deja la tarjeta del perro sobre la mesa
*BLA: perro.
%pho: pelo
7
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
*MOT: gu@o.
%com: onomatopeya del pez
*MOT: pez.
*BLA: pez.
%pho: pe
*MOT: 0 .
%gpx: pez
%com: onomatopeya sin sonido
(explicación)
%tim: 0:00 (tiempo de la grabación: minutos:segundos)
*MOT: toma el perro.(la madre dice la frase “toma el perro”)
%com: deja la tarjeta del perro sobre la mesa(es un comentario)
*BLA: perro.(la niña se refiere a la palabra “perro”)
%pho: pelo (la niña pronuncia “pelo” para referirse a “perro”)
*MOT: gu@p. (la madre dice la onomatopeya del pez: “gugu”: como no
es una palabra se pone con @p, es decir, producción ajustada
a la lengua pero no es una Palabra)
*MOT: pez.
*MOT: 0 .
(la madre interviene, pero no dice nada)
%gpx: pez
(la madre hace el gesto de “pez”)
%com: onomatopeya sin sonido (comentario)
Cuadro 11. Ejemplo de transcripción: encabezado + líneas principales y dependientes.
6.2.4. Comprobación de errores.
Una vez realizada la transcripción, debes comprobar sí hay o no errores de
codificación. Para ello se utiliza el comando:
check @
Este comando detecta errores de formato (CHAT) en el archivo. Por ejemplo, la
falta de un punto al final de un enunciado, la falta de BEGIN o END, etc. También se
pueden comprobar errores pulsando ESC-L desde el editor.
Seguimos el siguiente procedimiento:
1) se abre el fichero haciendo doble clic en el fichero elegido (con extensión
CHA)
2) se despliega el menú <mode> de la cabecera del fichero y se elige <check
oponed file>
3) también se puede corregir pulsando <esc>+<L>, el cursor irá saltando de fallo
en fallo y a pie de pantalla hay una leyenda que dice de qué fallo se trata
4) corregir todos los fallos y guardar.
Una vez corregido se graba (conviene grabar muy frecuentemente durante la
corrección, pues se suele colgar el programa) y ya se pueden sacar datos de frecuencias,
MLU, etc.
8
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
6.3 Procedimiento para obtener los datos a partir de una trascripción CHAT.
En primer lugar debe instalarse en el ordenador el Programa CLAN. ¿Cómo hacerlo?
Veamos:
1) Cómo instalar el programa
2) Cómo usar el programa
3) Lista de comandos de Clan
4) Cómo pasar archivos DOC a clan
6.3.1 Cómo instalar el programa CLAN.
1) Descarga el programa CLAN de la página del proyecto CHILDES
(http://childes.psy.cmu.edu/) (ClanU.exe) y lo ejecutas. Es mejor dejar que el programa se
instale en el directorio predeterminado:
c:\childes\clan
2) Descarga los tipos de letra UNICODE (arial_unicode_update.exe) y los instalas.
3) Descarga el archivo DEPFILE.CUT y lo colocas en la misma carpeta:
c:\childes\clan\lib
4) Ya puedes usar el programa. Debes tener un acceso directo en el escritorio.
6.3.2. Cómo pasar archivos DOC a clan.
Antes de utilizar el programa CLAN, es preciso tener un archivo con extensión
“.cha”.. Para pasar el archivo con formato Microsoft Office WORD (en el que has escrito
la trascripción) al formato de CLAN, debes hacer esto:
1) Al guardar el fichero *.DOC elegir la modalidad <texto sin formato>,
2) Antes de <aceptar> cambiar a mano la extensión <txt> por <cha>
3) Al pulsar <guardar> se abre una ventana. En esa ventana seleccionar <otra
codificación> y elegir <unicote (HTF-8)
4) Guardar y cerrar.
6.3.3 Cómo usar el programa CLAN.
Desplegar la ventana <windows> del menú de cabecera del fichero.CHA y pulsar
sobre <command>. En la nueva ventana que se despliega, pinchar en el recuadro donde
está escrito <file in>, seleccionar el fichero deseado y proceder a extraer los datos que
deseas o necesitas (MLU, Freq, etc.)
9
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
6.3.4 Lista de comandos de CLAN.
La mayoría de los comandos y sus parámetros (ver Cuadro 12), tienen la forma siguiente:
COMANDO @ TIERS PARÁMETROS
Dónde:
COMANDO puede ser Freq, MLU, Kwal…
TIER indica a qué tier se aplica. Siempre se pone
+t Æ para indicar que un TIER se incluye
-t Æ para indicar que un TIER no se incluye
Tipo de orden
_ Aparece en primer lugar
_ No va precedido de ningún código
_ Hay cinco tipos básicos:
Freq busca datos de las frecuencias de uso de las palabras
Combo busca datos referidos a palabras o a combinaciones de palabras
Mlu
busca datos referidos al dominio morfológico
Kwal busca datos de las frecuencias de uso de las palabras en el contexto
Gem busca pasajes de la transcripción marcados previamente
Transcripciones
_ Non van precedidas de ningún código
_ Se denominan utilizando el nombre del archivo. Por ejemplo: Blanca027.cha
_ El asterisco permite sustituir cualquier secuencia. Por ejemplo: /*.cha
Informantes
_ Aparecen precedidos de +t
_ Se denominan utilizando el mismo código que en la transcripción: mediante un asterisco y las
tres letras identificativas +t*BLA
_ Se pueden incluir varios informantes en la misma orden +t*BLA +t*IVA
_ El asterisco permite sustituir cualquier secuencia +t*B* / +t*
_ Se pueden excluir hablantes si se cambia el signo + por el – –t*IVA
Secuencia o palabra
_ Aparecen precedidas de +s
_ La secuencia va entrecomillada +s“casa”
_ Si se busca una frase las palabras deben separarse con el signo ^ +s“casa^de”
_ Si se buscan varias palabras puede utilizarse el símbolo + +s“mamá+papá”
_ El asterisco permite sustituir cualquier secuencia +s“cas*”
_ Se pueden excluir palabras si se cambia el signo + por el – –s “casa”
Otros códigos que pueden formar parte de una orden
_ Los informantes y las secuencias no son las únicas especificaciones que pueden introducirse
en una orden.
_ Precedidas del signo + y de una letra, es posible orientar la búsqueda de datos de modo muy
diverso.
_ Las combinaciones de estos constituyentes con los tipos de órdenes está limitado.
_ Para conocer las compatibilidades existentes, basta con teclear un tipo de orden en Commands
y pulsar intro. Inmediatamente se mostrará en CLAN Output toda la información sobre la
combinación de códigos.
Cuadro 12. Comandos CLAN
10
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
6.3.5 Ejemplos de comandos CLAN para obtención de datos de una muestra.
6.3.5.1 Cálculo de frecuencias: freq
Comando
Freq @
Freq @ +t*MOT
Freq @ +t*MOT +t%gls
Descripción
Obtiene un índice de frecuencia de la producción LPC global del
archivo. Cuenta todos los hablantes (sólo TIER principales). O sea,
no cuenta las glosas %gls.
Como el anterior, pero sólo de la madre. Lo usaremos para conocer la
producción complementada de un hablante en particular.
Obtiene un índice de frecuencia de la producción oral de la madre.
Para todos los comandos anteriores (y para todos los demás), podemos hacer que
los resultados se guarden en un archivo. Basta poner al final:
> nombre_archivo.txt
para que se guarden los resultados en un archivo.
Ejemplo:
freq @ > frecuencias.txt
crea un diccionario de frecuencias con los archivos.
6.3.5.2 Cálculo de MLU: longitud media de enunciados.
Comando
MLU @
MLU @ +t*MOT
MLU @ -t* +t%gls
Descripción
Obtiene MLU de la producción LPC desglosado por hablante.
Como el anterior, pero sólo de un hablante, en este caso la madre.
MLU de la producción oral. Lo desglosa por hablante.
6.3.5.2 Comando kwal.
Este comando extrae de un archivo, un conjunto de enunciados. Por ejemplo,
podemos usarlo para extraer la producción del padre, o la producción complementada de la
madre. Podemos usarlo también para extraer los enunciados con una determinada
condición, como que tengan una palabra o grupo de palabras determinado.
Comando
kwal @
kwal @ +t*MOT
kwal @ +t*MOT +t%gls
kwal @ +t*MOT +t%gls +s”ahora”
Descripción
Saca los TIER principales (LPC)
Saca el TIER principal de la madre (LPC)
Como el anterior, pero saca también el TIER gls de la
madre.
Como el anterior, pero se limita a los enunciados que
incluyan la palabra “ahora”.
Referencias bibliográficas
11
Santana & Torres
Recursos y procedimientos de la evaluación del lenguaje espontáneo mediante muestras de habla
Diez-Itza, E., Snow, C., y MacWhinney, B., (1999). La metodología RETAMHE y el
proyecto CHILDES: breviario para la codificación y análisis del lenguaje infantil.
Psicothema, 11, 3, pp. 517-530
MacWhinney, B. (2000). The CHILDES Project: Tools for Analyzing Talk. 3rd Edition.
Mahwah, NJ: Lawrence Erlbaum Associates
12

Documentos relacionados