Clustering Multilingüe basado en el reconocimiento de entidades

Transcripción

Clustering Multilingüe basado en el reconocimiento de entidades
Clustering Multilingüe basado en el reconocimiento de entidades cognadas
Arantza Casillas, Raquel Martínez, Soto Montalvo
El clustering multilingüe parte de un conjunto de documentos escritos en varios idiomas y tiene como
objetivo agruparlos de manera que se puedan obtener clusters o grupos multilingües. Un cluster multilingüe
contendrá aquellos documentos que estén relacionados o traten del mismo tema aunque estén escritos en
diferentes lenguas. Así, en un clustering multilingüe sólo habrá clusters monolingües en el caso en que sólo
haya similitudes entre el contenido de documentos de una misma lengua, en otro caso los clusters serán
multilingües.
Hay diferentes enfoques a la hora de abordar el clustering multilingüe. Por una parte, se pueden traducir los
documentos a una lengua eje, seleccionar rasgos en los documentos y traducir sólo éstos, utilizar rasgos con
más o menos independencia de la lengua con ayuda de recursos multilingües (números, fechas, entradas de
tesauros multilingües, entidades, …). Por otra parte, en algunos trabajos se realiza un clustering previo en
cada una de las lenguas, es decir un clustering monolingüe, para luego establecer relaciones entre los clusters
obtenidos, dando lugar así a los clusters multilingües. En otros trabajos, se plantea desde el principio el
clustering del conjunto completo de los documentos sin una fase previa monolingüe.
Nuestro trabajo explora la realización del clustering multilingue sin utilizar recursos multilingües, pero
partiendo de que los documentos tienen identificadas y clasificadas las entidades nombradas de tipo “strong”.
De cara a establecer los clusters nos basamos en la identificación de entidades cognadas y en fijar umbrales
con respecto al número y tipo de entidades cognadas que tienen que tener en común los documentos del
mismo cluster. No se ha utilizado ningún otro tipo de recurso ni información para establecer los clusters.
La evaluación se ha llevado a cabo con un conjunto de documentos en castellano e inglés extraídos del corpus
recopilado en el proyecto HERMES. Dicho corpus está formado por noticias de agencia y es bien conocida la
importancia que las entidades tienen en este tipo de documentos.
Con el fin de utilizar medidas de evaluación externa, se ha recopilado un subconjunto comparable que ha sido
agrupado manualmente para evaluar la bondad de los resultados. Tras experimentar con otros enfoques
basados en la traducción de rasgos, bien utilizando EuroWordNet o bien utilizando un diccionario, los
resultados obtenidos indican que la identificación de entidades cognadas es un procedimiento simple con el
que se obtienen resultados muy aceptables en el clustering multilingüe de noticias.

Documentos relacionados