Monográfico. Red Temática

Comentarios

Transcripción

Monográfico. Red Temática
Monográfico. Red Temática
T I
MM
Tratamiento de la Información
Multilingüe y Multimodal
MINISTERIO
DE EDUCACIÓN
Y CIENCIA
Procesamiento del Lenguaje Natural, Revista nº 38, Abril de 2007
ISSN: 1135-5948
Editores:
Mª Teresa Martín Valdivia
L. Alfonso Ureña López
Fernando Martínez Santiago
Revisores:
De Pablo, César
Díaz Galiano, Manuel Carlos
Ferrández, Antonio
García Cumbreras, Miguel Ángel
García Vega, Manuel
González, José Carlos
Gonzalo, Julio
Herrera de la Cruz, Jesús
Martín Valdivia, Mª Teresa
Martínez Santiago, Fernando
Montejo Ráez, Arturo
Peñas, Anselmo
Rodrigo Yuste, Álvaro
Rodríguez Hontoria, Horacio
Rosso, Paolo
Sanchís Arnal, Emilio
Ureña López, L. Alfonso
Vicedo, José Luís
Colaboradores:
Arturo Montejo Ráez
Manuel García Vega
Manuel Carlos Díaz Galiano
Miguel Ángel García Cumbreras
ISSN: 1135-5948
Depósito Legal: B:3941-91
Distribuye: Sociedad Española para el Procesamiento del Lenguaje Natural
Editado por la Universidad de Jaén
Prólogo
Este ejemplar de la revista de la Sociedad Española para el Procesamiento de Lenguaje
Natural, en su nº 38, constituye una edición monográfica especial. El propósito de este
monográfico es dar una perspectiva de la investigación en torno al acceso multilingüe y
multimodal. Este monográfico surge a raíz de la Red Temática Nacional de Tratamiento
de la Información Multilingüe y Multimodal –TIMM– (http://sinai.ujaen.es/timm) con
referencia TIN2005-25825-E. La Red pretende difundir, promover y fomentar la
investigación en estas tecnologías.
La producción de información se duplica cada vez más con mayor celeridad. Como
ejemplo, la información en el mundo se duplicó por primera vez en 1750, actualmente la
información se está duplicando en unos 5 años.
Esta ingente cantidad de información que se genera actualmente, se encuentra
disponible electrónicamente, con carácter multimedia (especialmente en Internet). En
este escenario en que el estamos inmersos se pone de manifiesto más que nunca el
escenario multimodal de la Web. Así se han popularizado sitios Web colaborativos para
difusión de vídeos, fotos, música y texto. Todo ello también con el creciente carácter
multilingüe que caracteriza a la Web. Dicha información tiene un carácter multimodal
y/o multilingüe, ya que no sólo se genera texto (como documentos o páginas webs) sino
que además, existen otra gran cantidad de formatos como las imágenes, los videos o las
comunicaciones orales. Ante esta situación surge la necesidad creciente de técnicas y
herramientas para el acceso y búsqueda de de información con estas connotaciones. Un
hecho que denota la importancia del tratamiento de este tipo de información es el
surgimiento de distintos foros (CLEF, TRECvid...) donde intentan mejorar los sistemas
que recuperan información, utilizando técnicas tanto de análisis de contenido (CBIR Content Based Information Retrieval) como multilingües.
Esperamos que sea de interés y que constituya una fuente referente de información para
la comunidad.
Quisiéramos agradecer a la Sociedad Española para el Procesamiento de Lenguaje
Natural su ofrecimiento, disponibilidad y facilidad para publicar este monográfico en su
revista intermedia. También queremos agradecer a los autores su participación.
Finalmente, deseamos expresar nuestra gratitud a los revisores de este monográfico, así
como a todos los que han colaborado en este proyecto.
Los editores
Procesamiento del Lenguaje Natural, Revista nº 38, Abril de 2007
ISSN: 1135-5948
Artículos:
MCR for CLIR
Eneko Aguirre, Iñaki Alegria, German Rigau, Piek Vossen………………………………………… 3
Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web
multilingüe basado en diálogo
Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras………..17
Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI
Sergio Ferrández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno……………………..27
Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe
Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda………………………. 35
QALL-ME: Question Answering Learning Technologies in a multiLingual and multimodal
Envinroment
Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Viñedo, Patricio
Martínez, Armando Suarez………………………………………………………………………………33
Web-based Selection of Optimal Translations of Short Queries
Paolo Rosso, Davide Buscaldi, Matteo Iskra………………………………………………………… 49
Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual
Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar……………………………….. 53
Alineamiento de Entidades con Nombre usando distancia léxica
Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal………………………………………………. 61
Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
M. Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran…………… 67
Multilingualidad en una aplicación basada en el conocimiento
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla………… 77
Ontologías mixtas para la representación conceptual de objetos de aprendizaje
Haliuska Hernández Ramírez, Maximiliano Saiz Noeda…………………………………………… 99
Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
Francisco Carrera García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto
Mata, Manuel Maña López……………………………………………………………………………. 107
Mejora de los sistemas multimodales mediante el uso de ganancia de información
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Raez, L. Alfonso
Ureña López…………………………………………………………………………………………….. 119
La notación del habla en corpus de vídeo
Manuel Alcántara Pla…………………………………………………………………………………..131
Tesis:
Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación Vectorial
Manuel García Vega…………………………………………………………………………………… 143
Integración de técnicas de clasificación de texto y modelado de usuario para la personalización
en servicios de noticias
Alberto Díaz Esteban…………………………………………………………………………………...145
Artículos
MCR for CLIR
Piek Vossen
Irion Technologies
Delftechpark 26
2628XH Delft, Netherlands,
[email protected]
Eneko Agirre, Iñaki Alegria, German Rigau
IXA group
Manuel de Lardizábal, 1
20018, Donostia. Basque Country
{e.agirre,i.alegria,rigau}@si.ehu.es
Abstract: The Multilingual Central Repository (MCR) is based on the design of the
EuroWordNet database. The MCR holds WordNets in various languages (English,
Spanish, Italian, Catalan and Basque), which are interconnected via an Inter-LingualIndex (ILI). In addition, the MCR holds a number of ontologies and domain labels related
to all concepts. This paper describes the integration and evaluation of the MCR in a
cross-lingual information retrieval system, developed by Irion Technologies, as well as a
public exercise for evaluating combined MCR, WSD and CLIR strategies.
Keywords: CLIR, Word Sense Disambiguation, WordNets
1 Introduction
The usefulness of WordNets for Information
Retrieval and for Document Classification is not
commonly accepted. Important evidence for this
belief is a study of Voorhees (1994) that showed
a decrease in scores for a WordNet-based
approach in TREC-5. She claimed that linguistic
techniques are only useful if they perform close
to perfect. She also states that statistic
techniques approximate NLP techniques by
exploiting statistical correlations. A similar
statement is made by Sanderson (1994) who
suggests that WordNet-based approaches are
only useful for retrieval if 90% or higher
accuracy is achieved to detect the appropriate
sense. This study was done by introducing
artificial ambiguity in documents by substituting
randomly chosen word pairs, e.g. banana and
kalashnikov, with artificially ambiguous terms,
e.g. banana/kalashnikov.
We however still believe that there is an
enormous
potential
for
WordNet-based
approaches (also see Gonzalo et al 1998). In this
paper we give evidence that WordNets can be
exploited for generic information retrieval. The
reason why this has not been evident is that the
incorporation of WordNets is not trivial.
WordNets need to be used and integrated in a
proper way to benefit from their richness. We
have tried to achieve this by pursuing the
following goals:
ISSN: 1135-5948
•
to enrich WordNets with more
knowledge that is automatically acquired
from corpora and the WWW;
•
to improve Word Sense Disambiguation
(WSD) using novel techniques in combination
with the acquired knowledge;
•
to develop a rich conceptual
representation of text that is based on
combinations of synsets associated with
linguistic phrases;
The acquired lexical knowledge from various
sources and various languages is stored in the
Multilingual Central Repository (MCR)
(Atserias et al 04), which is based on the design
of the EuroWordNet database (Vossen, 1998).
The MCR holds wordnets in various languages
(English, Spanish, Italian, Catalan and Basque),
which are interconnected via an Inter-LingualIndex (ILI). In addition, the MCR holds a
number of ontologies and domain labels related
to all concepts.
This paper describes the integration and
evaluation of the MCR data in a cross-lingual
information retrieval system, developed by Irion
Technologies. In these applications, text is
represented in the form of combinations of
concepts that co-occur in linguistic phrases and
where concepts are based on the synsets in the
WordNet taken from the MCR. In a sense, the
complete phrase represents a complex concept
as whole, built up of interrelated sub-concepts
consisting of synsets. Similarly, a query is
considered as a phrase, representing one or more
© Sociedad Española para el Procesamiento del Lenguaje Natural
Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen
concepts. A query consisting of multiple
concepts is then compared to phrases with
multiple concepts. We carried out a series of
task-based evaluations on English and Spanish
news collections. The evaluation shows that
both recall and precision are significantly higher
when using the enriched semantic networks in
combination with WSD.
The paper is structured as follows. In the next
section, we briefly explain the conceptual
indexing technology developed at Irion
Technologies. Section 2 describes how the
information in MCR have been integrated in the
Irion system. The following sections describe
the evaluation. Section describes a cross-lingual
retrieval evaluation on the same Reuters data
and Section 3 another CLIR experiment on a
database of news pictures with Spanish and
English captions from the Spanish publisher
EFE. Whereas the Reuters retrieval system used
a classical vector-space document ranking, the
EFE version uses a novel way of ranking based
on the conceptual phrase representation. The
EFE database is also used in an end-user
evaluation task. This is described in Section 5.
In Section 6 we show the use of MCR in public
CLIR evaluations.
2
given where each concept correlates with a
word, a combination of words or a part of a
word, for example:
•
The phrase human rights will represent
a single concept that is lexicalized as a whole.
Likewise it is translated to Dutch and German
as a single word, as mensenrechten and
Menschenrechten respectively. Note that this
concept can still have relations to other
concepts such as the hypernym right (in a
very specific meaning) and human.
•
The phrase animal party will represent
2 concepts, the separate concepts animal and
party that co-occur, and so does party animal
albeit a different combination.
•
The single word profile-based will also
represent two concepts profile and based as a
co-occurring combination.
A conceptual representation of a phrase thus
consists of a co-occurring sequence of synsets
that express a particular relation to each other.
For building up a conceptual representation of a
phrase, the TwentyOne system heavily relies on
a multilingual semantic network, similar to
EuroWordNet and MCR. It uses multiword
lookup, compound decomposition and WSD to
map words within a phrase to concepts. Queries
(user-queries or textual documents) are analysed
in the same way. The TwentyOne system then
uses a range of factors to compare phrases in
documents with query phrases:
Conceptual indexing
Irion Technologies (Delft, The Netherlands)
developed a conceptual indexing technology,
called TwentyOne, that combines statistical and
language-technology approaches. TwentyOne is
a two step system, where first, the relevant
documents are collected using state-of-the-art
statistical engines, and secondly, the best
matching phrases from the relevant documents
are collected. The statistical core-engine of
TwentyOne produces a relevance ranking of
text, using a standard vector-space weighting. It
ensures fast and robust retrieval. The languagetechnology then has two major roles:
1. number of matching concepts between
the query and each phrase,
2. degree of fuzziness mismatch between
the query word and the phrase,
3. degree of derivational mismatch, compounding, etc.,
4. whether or not a synonym is used,
5. whether or not the same language is
used.
The effect is first that documents with
phrases (NPs) that include most concepts are
shown first and, second, that documents with the
same number of concepts but with the most
similar wording with the query are shown first.
The contextual effect of the phrase match is very
powerful, as we will see later.
Because words are mapped to concepts from
a language-specific wordnet that is linked
through the ILI to all the other wordnets, it is
possible to calculate a conceptual score for
1.
Maximize the recall of the statistical
engine so that any document is found
regardless of the wording and regardless of
the query word choice;
2.
Maximize the precision by conceptually
matching queries with phrases in the
documents rather than complete documents;
The conceptual index represents concepts at a
phrase level, which are very loosely defined as
NPs. Within a phrase, a range of concepts is
4
MCR for CLIR
queries in other languages than the index
language. Hence, any index can be queried in
any of the languages that connected to the ILI.
Although other possibilities could be explored
(the use of other ontologies such as SUMO or
the EuroWordNet Top Concept and a large
amount of explicit semantic relations also
integrated into the MCR), WSD was done using
only WordNet domains (version 1.1.1, Magnini
et al 2002) from the MCR. The WSD system has
been implemented as a a text classifier that is
trained with the Spanish and English words
associated with domain labels, e.g. all synonyms
related to the domain “legal”, and assigns a
domain tag to the text. The WSD system first
assigns domain labels to the article as a whole,
based on the complete content: so-called
microworld tags. Next, it also classifies the
separate NPs within each article using a window
of 10 NPs (4 to the left and 5 to right). This
results in one or more so-called nanoworld tags
for each NP. All domains scoring above 60%
confidence are assigned to have sufficient recall.
The disambiguation then consists of the
following process for each word in the NP:
2.1 MCR
The Multilingual Central Repository (MCR)
knowledge base that we developed in the
European 5th FP project MEANING (IST-200134460) (Atserias et al. 2004) 1 , includes
wordnets for English, Spanish, Basque and
Catalan. The wordnets are currently linked via
an Inter-Lingual-Index (ILI) allowing the
connection from words in one language to
translation equivalent words in any of the other
languages. In that way, the MCR is going to
constitute the natural multilingual large-scale
linguistic resource for a number of semantic
processes that need large amount of linguistic
knowledge to be effective tools.
Currently, the MCR consistently integrates
more than 1.6 million of semantics relations
between concepts. This means one order over
the Princeton’s WordNet (138 thousands in
WordNet 1.6). Moreover, the MCR has been
enriched with about 460.000 semantic and
ontological properties.
•
Are there word meanings with domain
labels that match any of the nanoworld tags?
If yes, these meanings are selected.
•
If no, are there word meanings with
domain labels that match the microworld
tags? If yes these meanings are selected.
•
If no all meanings are selected.
2.2 Integrating MCR and the Irion
system
The information in the MCR has been integrated
in the Irion system in two ways:
The concept reduction as a result of the
disambiguation is very effective. For the data
obtained from EFE (see Section 6 below), the
microworld-based reduction is about 48% for
Spanish and 57% for English. In the case of the
nanoworlds, the reduction is even higher: 52%
for Spanish and 65% for English. Most of these
reductions (about 44%) however relate to the
factotum words (Magnini et al 2002). Factotum
words are words such “be”, “begin”, “person”
that are not specific to a domain and often have
a very strongly preferred generic meaning. This
generic meaning is labelled in WordNet
domains and can be used to restrict the
meanings when there is no other specific domain
that applies to these words.For each of the
experiments described below, we built 3 types
of indexes:
1. we replaced the proprietary multilingual
semantic network of Irion by the MCR
database,
2. we developed a WSD system based on
WordNet domains (Magnini et al 2002) which
are integrated into the MCR.
The data from the MCR could be easily
imported in the TwentyOne system because both
the proprietary database of Irion and the MCR
are based on the model of EuroWordNet. Within
the Irion database, we simply replaced the
concepts by the WordNet1.6 concepts and
imported the mapping of the vocabulary for each
language to these concepts from the MCR.
Whereas the proprietary database has wordnets
for English, Dutch, German, Spanish, Italian and
French, the MCR has wordnets for English,
Spanish, Italian, Basque and Catalan.
1
•
NP Indexes with NPs but without using
wordnets: i.e. traditional string-based
indexes.
http://www.lsi.upc.es/~nlp/meaning
5
Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen
•
FULL Indexes using wordnets, but
without WSD: i.e. full expansion to all
possible synonyms and/or translations.
•
WSD Indexes using wordnets and using
word sense disambiguation: i.e. expansion
limited to synonyms and/or translations
within the context of the relevant domains, if
any.
top-ranked documents. Note that this
measurement does not tell you anything about
the quality of the other results. It can thus only
be seen as a crude way to measure the recall of
the system.
We thus automatically extracted NP-based
queries from the indexes. Next, we manually
selected 96 queries with a head and a modifier,
where the head noun exhibits a clear case of
homonymy or synonymy. For example, the noun
cell that has clearly different meanings when
combined with police cell, cell phone, battery
cell, etc. From the complete NPs, two word
queries were extracted 3 . Next the original
queries were modified by replacing the modifier
by another context word that is semantically
related,
sometimes
with
a
similar
disambiguating effect and sometimes more
neutral. An example of this sort of modified
query would be detention cell instead of police
cell. This resulted in about 96 paraphrased
queries in English. Next the original queries
were translated into the other languages
recognized by the system: Dutch, German,
French, Spanish and Italian.
We then run separate tests on the 3 types of
indexes: NP, FULL and WSD, with the original
words as query, the paraphrased English words
or the translations of the originals. The results
are shown in Table 1, where the rows represent
the different indexes and the columns the results
for each set of queries: original words from the
NPs, paraphrased English words and
translations.
We then run separate tests on the 3 types of
indexes: NP, FULL and WSD, with the original
words as query, the paraphrased English words
or the translations of the originals. The results
are shown in Table 1, where the rows represent
the different indexes and the columns the results
for each set of queries: original words from the
NPs, paraphrased English words and
translations. In table 1, each query result column
has 3 sub-columns:
Q = number of queries
R = recall, the number of times that the
document from which the query was
extracted occurs in the top 10 results
% = proportional recall
When we look at the original words used as a
query, we see the best result on the NP index.
An example of an extracted NP is the
following:
<NP ID="22">toxic to nerve cells </NP>
In the case of the NP index, the words are
indexed as they occur (after normalization). In
the case of the, the FULL index, the words
“”toxic”, “nerve” and “cell” are expanded to all
the synonyms for all their possible meanings.
These synonyms will thus also get a pointer to
this document and this NP. In the case of the
WSD index, we only added synonyms for word
meanings that fit the domains assigned to the
document and the NP.
We thus expect that the first type of index
(NP) gives high-precision but lower recall
because we do not generate a mapping through
synonyms. You cannot find any documents with
wordings different from the query 2. The second
type of index (FULL) will have a very high
recall, because any possible mapping and
wording is generated. The precision may drop
because we also generate a lot of noise through
irrelevant expansions. The third index (WSD)
index will have recall and precision rates in
between the others.
3
Cross-lingual retrieval on the Reuters
data
The first experiments on the Reuters collection
were conducted on the English news using the
Irion system with their proprietary knowledge
base (SemNet). The experiment was restricted to
the 23,307 files from a single month August
1996. The Reuters collection comes with
classification codes that are embedded in the
XML structure.
The TwentyOne retrieval system has a
benchmark environment that can extract NPs
from the indexed documents and create queries,
where we measure if the same document from
which the NP is extracted is returned within the
In these experiments, we concentrate on multiword
queries only. Trying to obtain the original documents from
one-word queries proven to be a very difficult task.
3
This is especially the case for smaller two-word
queries, which is more normal for search engines.
2
6
MCR for CLIR
for the NP index. This shows that the type of
query is important to demonstrate the need for a
wordnet-type of expansion. We see here that the
WSD index gives best results.
The FULL index can only generate more noise
by the expansion compared to the original
words. This has pushed good results out of the
top 10. We see that the WSD index has a
positive effect because the recall recovers with
7%. When we look at the paraphrased English
queries, we see that the recall dramatically drops
Table 1: Cross-lingual retrieval results on the Reuters collection
English
original
“police
cell”
Q
%
Q
96 76
79
FULL 96 61
WSD
NP
R
French
Dutch
German
English
Italian
paraphrase “politie- “Polizei- “cellule de “cella
zelle”
police”
della
“detention cel
polizia
cell”
96 68
R
%
Q
R
% Q R
%
Q
R
%
Q
R
%
Q
R
%
96 24
25
96
8
8 96 8
8
95
10
11
94
4
4
96
4
4
64
96 28
29
96
35 36 96 38
40
95
42
44
94
20
21
96
18
19
71
96 30
31
96
34 35 96 30
31
95
36
38
94
17
18
96
15
16
news agency EFE. We received a collection of
29,511 XML records with captions and
corresponding pictures (from EPA and AP).
These captions have 50 words of text on
average. The captions are manually enriched
for monolingual and multilingual access. This
collection can be used to find pictures using
text queries on the captions. Most of the
captions were Spanish (26,546), about 10%
were in English (2,965).
Again, we built the 3 types of indexes NP,
FULL and WSD. In this case, however, we
used the MCR data, which enables us to use
the latest results as well as use other languages
(Basque and Catalan) for querying. In the case
of the NP index, we built indexes for 5
languages: English, Spanish, Catalan, Basque
and Italian. Instead of translating the original
English and Spanish words they were simply
copied to the other indexes for English,
Spanish, Catalan, Basque and Italian. For
example, the Basque index did not contain
Basque translations but the literal Spanish and
English originals. No synonym expansion was
applied for English and Spanish and no
translation for the other languages.
The cross-lingual results can be compared
with the paraphrased results. Obviously, the
NP indexes perform poorest because the words
are not translated at all (i.e. there is no
expansion). The FULL index now has better
results than WSD. Apparently, the noise
generated cross-linguistically by giving all
possible translations has a less negative effect
compared to missing certain translations due to
WSD.
In the above experiment, we used the
proprietary wordnet database from Irion and
we did not yet implement the conceptual
scoring function that re-ranks the relevant
documents on the basis of the overlap of
concepts between the NPs and the queries,
combined with the closeness of expression.
The ranking was here based on the traditional
statistical relevance ranking. In the next
section, we describe a further experiment with
the conceptual re-ranking.
4
4.1
Spanish
“celda de la
policía”
Cross-lingual retrieval on the EFE
data
The goal of the experiment
For this experiment, we indexed part of a
multilingual database of pictures, called
Fototeca, that was provided by the Spanish
7
Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen
Table 2: Retrieval results for multi word queries
NP
Spanish
original
Spanish
paraphrase
Q
R
%
Q
R
%
Q
R
%
Q
R
%
Q
R
%
Q
R
%
105
99
94
94
14
15
105
2
2
105
31
3
104
1
1
105
3
3
English
Catalan
Basque
Italian
p1
60
57
9
1
0
0
21
2
1
1
2
2
p2
30
29
5
5
1
1
8
8
0
0
1
1
p3
9
9
0
0
1
1
2
2
0
0
0
0
FULL
96
91
71
76
39
37
70
67
50
48
39
37
p1
55
52
38
40
16
15
44
42
27
26
19
18
p2
33
31
27
29
17
16
22
21
19
18
15
14
p3
8
8
6
6
6
6
4
4
4
4
5
5
WSD
105
105
94
94
105
105
105
105
104
104
105
97
92
61
65
39
37
68
65
46
44
32
30
p1
60
57
39
41
21
20
48
46
27
26
105
20
19
p2
31
3
18
19
13
12
16
15
15
14
6
6
p3
6
6
4
4
5
5
4
4
4
4
6
6
This resulted in about 105 queries based on the
original expressions extracted from the
captions. From these we created paraphrase
queries by replacing each context word with a
synonym. Finally, the original queries were
translated by native-speakers into English,
Catalan, Basque and Italian.
For indexes FULL and WSD, the Spanish
and English indexes were expanded to
synonyms and translated to English (in case of
Spanish), Spanish (in case of English), and to
Basque, Italian and Catalan (from both English
and Spanish) with wordnets from the MCR. In
the case of index FULL, all the meanings of
the words in the articles have been taken and
have been expanded to all synonyms and/or
translations. In the case of WSD, we first
excluded unlikely meanings using the WSD
system and expanded all the remaining queries.
For all three indexes queries can be made in
any of the 5 languages: Spanish, English,
Basque, Italian and Catalan, while the system
returns both English and Spanish articles as
possible results.
The queries were extracted as described
previously for Reuters (Section 4). In this case,
we automatically extracted Spanish NPs (e.g.
“Una colisión en cadena”) and manually
selected 2-3 word queries (e.g. query “colisión
en cadena”) showing ambiguity or synonymy.
We verified that other meanings and/or
synonyms also occurred in the index, for
example for estrella (star) we checked to make
sure that it was used in both an astronomical
object reading as well as a leading actor
reading. Similarly, with figura we found that it
was used in various different readings
including body, form, figure, character and
statue. Finally, we also looked at the relevance
of the words to the corresponding pictures.
4.2
The results
The results of launching the queries on the 3
indexes are listed in Table 2. The results per
index are given in the rows (NP, FULL and
WSD) and the columns represent the different
query
sets: original Spanish words,
paraphrased Spanish queries and the translated
queries. The sub-columns are the same as
above for Reuters.
The rows are slightly different. Each index
has a row for the total results and three more
rows for the 1st, 2nd and 3rd position (p1, p2 and
p3) in the result list. We marked the best scores
for the totals and for the 1st position (p1). We
did not list the other positions from the top 10
because all the results listed the correct match
in the top 3 or outside the top 10. The ranking
algorithm was changed with respect to the
Reuters experiments. The relevant documents
were re-ranked on the basis of the overlap of
concepts between the query and the NPs in the
documents, as explained in Section 2.
The first thing to be noticed is the high recall.
The best results are for the original Spanish
words on the NP index: 94%. This is inherent
8
MCR for CLIR
to the conceptual phrase search. The search
engine will select NPs that include all the
query concepts and give preference to NPs that
closely match the query. When we do not use
wordnets, as in NP, the most equal phrases are
likely to show up first, especially since the
queries have been derived from the NPs and
there are not that many NPs with all the query
words.
We also see that we hardly lose anything
when we use wordnets. The fully expanded
index (FULL) scores 91% and the
disambiguated index (WSD) scores 92%. This
is a major difference with respect to the results
reported for the Reuters experiments. In
Reuters, the retrieval was based on the page
score and not on the conceptual phrase score.
The conceptual phrase matching thus adds
precision. So even if the wordnets add more
possible hits and more noise, the fact that the
closest wordings are preferred selects the most
appropriate results. This is also clear when we
look at the p1 positions. Here NP and WSD
score equally well.
When we look at the queries where a
synonymous word was used (the 2nd column
group, Spanish paraphrase), we see that the
index without wordnets (NP) drops to 15% but
the FULL index only drops to 76% and the
WSD index drops to 65%. This clearly shows
the usefulness of wordnets for information
retrieval. We also see that WSD apparently
removed certain synonyms that are useful,
hence the difference of 10% between FULL
and WSD. This indicates that the WSD settings
might have been too strict (50% of the
concepts have been excluded).
On the other hand, if we look at the p1
scores, we see that WSD scores better than
FULL. This means FULL generates more
noise that is interfering with the correct results
for the 1st position but the correct results
apparently still end up in the top 10. This also
implies that the total results for FULL can be
worse than WSD if the index is bigger. In a
bigger index there is more competition and the
noisy results will push correct results out of the
top 10. The pattern that we see for the
synonyms also shows up for the cross-lingual
retrieval. FULL mostly has best results and
WSD is very close but scores better for p1. NP
has dramatically bad results. 4
The 1st position results can be seen as a
measurement of precision. The disambiguated
index thus has a better precision than the fully
expanded index. These results are confirmed in
the end-user evaluation that is described in the
next section.
Catalan scores almost as well as the Spanish
synonyms. This shows that the languages are closely
related. The fact that both the WordNets are developed by
the same group may also be a factor.
5
End-user evaluation
5.1
The goal of the experiment
The end-user evaluation was performed in a
real scenario provided by Spanish news agency
EFE, using the Fototeca database, the database
used by EFE to provide pictures that
correspond to news articles. We designed a
complete end-user evaluation framework for
this database following (Walker, et al. 1997).
The design was validated in a pilot test with a
single user. In this pilot test, the user was
asked to perform a set of tasks with different
systems in a limited time. Finally, the user was
asked to fill a questionnaire. With this pilot
test, we planned to check the appropriateness
and correctness of the whole evaluation
framework including the task design, the
questionnaire, the three Irion systems, the log
files, the number of end-users that would be
needed, etc. As a result of the pilot test, we
slightly revised the set-up.
For the end-user evaluation, we used the
same three indexes of the EFE Fototeca
collection that are described in Section 6:
•
•
EFE_NP: no use of wordnets.
EFE_FULL: wordnets with full
expansion, no disambiguation
•
EFE_WSD: wordnets with expansion
after disambiguation.
5.2 The end-user tasks
The end-user final evaluation was performed
by three different users: a, b, c. Each end-user
tested the three different systems: EFE_WSD,
EFE_FULL, EFE_NP, which we have
renamed here A, B and C respectively. Each
end-user had to perform twenty-one different
tasks organized in three test sets (1, 2, 3)
having seven tasks each. Thus, each end-user
performed a total number of twenty-one
different tasks using three different systems.
There is no repetition of a given combination
4
9
Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen
used to express the concept funeral.
Furthermore, entierro is more common (35
occurrences in the database) than sepelio (14
occurrences). That is to say, the most common
words, as opposed to the less common words,
were used in presenting the GOAL and
CONTEXT of each task. Furthermore, some
of the tasks (three in total, to maintain a
proportional volume with respect the corpus
sizes) were designed to locate English captions
instead of Spanish captions. Proper noun
phrase were mostly excluded.
of user, system or test set. The final evaluation
schema was as following:
Test sets
1
2
3
End-users
a
b
A
B
B
C
C
A
c
C
A
B
This schema tries to neutralize undesired
side effects related to the relative performance
of the users (some users are better than others
when locating pictures) and the inherent
difficulty of the tasks (some tasks are more
difficult than other). Furthermore, from the log
files we only took into consideration the total
number of actions performed by the three
systems.
The total time allowed for performing each
test set was twenty minutes. After finishing
each test set, the end-user took an additional
ten minutes to fill out a questionnaire.
Each test set was designed to be selfexplanatory. The end-user was to search for a
set of picture to accompany a set of articles
they were writing using a system located at a
particular web page which provided access to
the EFE Fototeca database. For each task, the
end-user was told that they were preparing a
news article on a given TOPIC with a given
CONTEXT and was then asked to locate a
picture showing some GOAL to serve as a
visual. This is exemplified by News Article 10:
News Article 10
QUERY = entierro medellín
TEXT = sepelio medellín
RESULT = FH_1205173 20040524 and FH_1205172
20040524
CAPTION=
Terrorismo
TRI:JUSTICIA-INTERIORSUCESOS,TERRORISMO
CATEGORÍAS
SUPLEMENTARIAS
:
JUSTICIAINTERIOR-SUCESOS PALABRAS CLAVE : JUSTICE
EXPLOSION DE UNA MALETA BOMBA EN UNA
DISCOTECA DE LA ZONA BANANERA DE URABÁ EN
LA QUE FALLECIERON AL MENOS CINCO PERSONAS
Y 93 RESULTARON HERIDAS , PRESUNTAMENTE
COLOCADA POR LAS FARC , COLOMBIA 2004
FUNERAL VICTIMAS SM
COLOMBIA SEPELIO VÍCTIMA BOMBA APARTADÓ :
BOG302 MEDELLIN( COLOMBIA) 24/ 05/ 04 .- En
el cementerio de San Pedro de Medellín se
realizó el sepelio de la niña de 4 años de
edad , María Fernanda Ramírez , una de las
7 víctimas de la bomba detonada en un
centro nocturno de Apartadó . EFE/EDWIN
BUSTAMANTE
PICTURE=
News Article 10
TOPIC = TERRORISMO
CONTEXT = Sigue la violencia en Colombia y
especialmente en Medellín.
GOAL = Un entierro en Medellín.
In the task of News Article 10, the end-user
is required to locate a picture showing a
funeral in Medellín (GOAL), given the
continuing violence in Colombia and
especially in Medellín (CONTEXT) related to
TERRORISM (TOPIC).
We designed the 21 tasks trying to be
difficult for a regular textual Information
Retrieval System (like EFE_NP). Obviously,
this decision will bias the results, but will also
provide clear insights of the potential of
concept-based CLIR engines on difficult
queries. For example, there are no captions in
the database matching both entierro (funeral)
and Medellín. In fact, there are only two
pictures with sepelio and Medellín, sepelio also
RESULT = FH_1205173 20040524
RESULT = FH_1205172 20040524
10
MCR for CLIR
When the user is not sure, he clicks on a
button labelled “Not sure about this picture”.
We also informed the end-user that if he did
not find an appropriate photo the first time, he
could try modifying the query, adding,
removing or changing words from the original
query. He could also select more than one
picture for each news article. However, the
total time for locating the appropriate pictures
for each test set (seven tasks) was only twenty
minutes.
It is still possible to obtain the above results
in English or Spanish because of the conceptbased Information Retrieval system (like
EFE_FULL and EFE_WSD) because in the
Multilingual Central Repository we already
have the concept: <entierro, sepelio,
enterramiento> which has an equivalent
translation through the ILI to the English
concept <burial>.
After being instructed, the end-user queries
the Fototeca database for an appropriate
photograph using the system we were testing.
When the system returns an ordered list of
snippets (showing only a part of the text) the
user reviews the results in order to select the
most appropriate caption. Once a caption is
selected, the system shows the corresponding
picture. If the image is appropriate, the enduser clicks on a button labelled “This is the
right picture”. If, on the other hand, the picture
is not appropriate, the end-user clicks on a
button labelled “This is the wrong picture”.
5.3
The end-users
Three end-users were requested to perform the
final end-user evaluation. We monitored all the
activities of all the users by means of log files.
All the tests were performed at the central
office building of EFE in Madrid. They carried
out all the activities in their usual workplace
(office, computer, monitor, table, etc.).
Table 3: Summary result figures for the final end-user evaluation
Three end-users
SEARCH
HIGHLIGHT
DISAP.
CONFIRMED
UNDEC.
TOTAL
5.4
NP
110
105
57
20
3
295
FULL
64
55
28
19
6
172
WSD
56
60
27
24
1
168
to carry out the 21 tasks, the end-users made
almost twice as many queries while using a
text-based IR system (NP with 110) in
comparison to a concept-based IR systems
(FULL with 64 and WSD with 56).In other
words, the users effort during search was
reduced by almost half when they used a
concept-based IR system. In addition, the
total number of searches was significantly
better (12.5%) for the system using word
sense disambiguation (WSD with 56) as
opposed to the one without (FULL with 64).
The results
Table 3 summarizes the data we obtained
from the log files. We count the total number
of interactions performed with each system
by the three end-users (TOTAL), the total
number of searches (SEARCH), the total
number of captions highlighted to see the
corresponding picture when reading the
caption text (HIGHLIGHT), the total number
of pictures discarded after selected (DISAP.),
the total number of confirmed pictures after
selected (CONFIRMED) and the total
number of pictures where the end-user was
undecided (UNDEC.). It should be noted that
the end-users had the same total time to
perform the 21 tasks.
With respect to the total number of
searches (SEARCH), we can see that in order
Regarding the total number of highlighted
captions (HIGHLIGHT), we can also see that
the end-users selected almost twice as many
captions when using a text-based IR system
11
Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen
positives, half the rate of rejection, fewer
undecided pictures and half the total number
of interactions. Although the results are
preliminary, there is strong evidence with the
end-user evaluation together with
the
previous Reuters and EFE CLIR experiments
for suggesting that we performed better IR
and CLIR with the help of the Multilingual
Central Repository and appropriate WSD
technology.
Regarding the questionnaire, it is not
surprising that the end-users, who tested
different questions (of variable difficulty)
using different systems (with different
performances),
provided
conflicting
responses in regard to their perception of the
systems’ behaviors. We will not present the
details of their responses here except to
mention that they preferred system A
(EFE_WSD) for future use.
(NP with 105) than when using a conceptbased IR system (FULL with 55 and WSD
with 60). This is because the user obtained
essentially half of the false positives with a
concept-based system. While it appears that
in this case the FULL system outperformed
the WSD system, we will see later that this is
a misleading conclusion.
With respect to the total number of
pictures rejected (DISAP.), we can see that
the end-users discarded twice as many
pictures when using a text-based IR system
(NP with 57) than using a concept-based IR
system (FULL with 28 and WSD with 27).
That is to say, the users looked at half as
many irrelevant pictures in order to locate the
21 desired pictures using a concept-based IR
system. The total number rejected using the
system performing disambiguation (WSD
with 27) was essentially the same as that for
the system without disambiguation (FULL
with 28).
In terms of the total number of pictures
confirmed (CONFIRMED), the three systems
had similar behaviours (NP with 20, FULL
with 19 and WSD with 24). This means that
even with a poor text-based system (NP), the
end-users having enough time were able to
locate almost a complete list of pictures
appropriate to the tasks (20 out of 21).
However, with much less time (as it is
derived from the log files) and half of the
search effort (SEARCH) and total number of
interactions (TOTAL) the end-users were
able to locate an even more extensive list of
appropriate pictures using the concept-based
system with disambiguation.
Furthermore, the total number of pictures
about whose relevance the user was unclear
(UNDEC) was reduced with the WSD system
(only one) in comparison with the other two
systems (FULL with 6 and NP with 3). This
is due in part to an interesting hidden
behaviour, namely, that the WSD system also
provided a better ranking of the captions. In
other words, relevant captions were ranked
higher giving the user greater confidence in
the initial choice of captions and pictures
(more confirmed, less undecided).
In summary, it seems that for difficult
tasks (with synonyms or cross-lingual
retrieval), using a concept-based IR system
with WSD results in half of the searching
effort, more confirmations, half the false
6
Using the MCR in public CLIR
evaluations
The success of the previous experiments was
a motivation to design further experiments on
the interdependence of WSD, large-scale
resources such as the MCR, and CLIR. In
fact, we thought that no single research team
could encompass the large amount of possible
configurations for such a CLIR system, so we
decided that a public evaluation exercise
might be interesting. We envisioned a
evaluation exercise in two phases:
1. We evaluate WSD strategies using a
common sense inventory and expansion
lexicon (the MCR), as well as a specific
IR architecture (the IRION twentyone
system)
2. We evaluate different expansion and IR
strategies given preexistent WSD results
The motivation for this separation is
threefold. First, to be able to allow for both
WSD and CLIR communities to collaborate,
so they don't need to develop a WSD/CLIR
system of their own in order to participate.
Second, to share the resources and allow for
different teams using the results of other
teams.
Lastly, the WSD and community has
long mentioned the necessity of evaluating
WSD in an application, in order to check
which WSD strategy is best, and more
important, to try to show that WSD can make
a difference in applications. Unfortunately, it
12
MCR for CLIR
is often not possible to decouple the strategy
behind a specific WSD system and the
techniques used in the target application,
CLIR in this case (Resnik, 2006). For
instance, we might want to return the best
sense only, or we might prefer to discard the
weakest senses in each case. This might be
related to the expansion strategy (expand the
disambiguated senses by all its synonyms, or
only to the most frequent synonyms, or only
those appropriate in the given context) and
also to the use or not of independently
motivated IR techniques like relevance
feedback. Separating the exercise in two steps
allows
to
better
study
these
interdependencies.
The first part of the evaluation has been
accepted as a Semeval-2007 task, with the
evaluation exercise happening in FebruaryMarch (2007) and a dedicated workshop in
the ACL conference.
Participants disambiguate text by
assigning MCR senses and the system will do
the expansion to other languages, index the
expanded documents and run the retrieval for
all the languages in batch. The retrieval
results will be taken as a measure for fitness
of the disambiguation. The modules and rules
for the expansion and the retrieval will be
exactly the same for all participants.
There will be two specific subtasks:
1. participants disambiguate the corpus, the
corpus is expanded to synonyms and
translations, and we measure the effects
on cross-lingual retrieval. Queries are not
processed.
2. participants disambiguate the queries per
language, we expand the queries to
synonyms and translations and we
measure the effects on cross-lingual
retrieval. Documents are not processed.
The corpora and queries will be obtained
from the ad-hoc CLEF 5 tasks. The scores can
be compared among the Semeval participants
but also with the past CLEF participants.
More specifically we will use the English
CLEF document collection covering 169.477
documents (579 MB), and Spanish and
English topics. The relevance judgments will
be taken from CLEF. This has the
disadvantage of having been produced by
pooling the results of CLEF participants, and
5
might bias the results towards systems not
using WSD, specially for monolingual
English retrieval. A post-hoc analysis of the
participants results will analyze the effects of
this.
The second part of the evaluation will be
defined as a CLEF track in 2008, where CLIR
systems will have the opportunity of using the
annotated data produced as a result of the
Semeval-2007 task.
7 Conclusions
This paper has summarized the results of a
number of evaluations of the MCR and
WordNets. It describes some larger tests with
queries in various languages using the
TwentyOne Search and Classification engine
of Irion Technologies and an end-user
evaluation in a real-world scenario on two
months of captions and pictures from the EFE
Fototeca database.
The integration required the use of the
Spanish, English, Catalan, Basque and Italian
wordnets from the MCR. It also involved the
use of WordNet domains exported from the
MCR and integrated in the WSD system
developed by Irion Technologies. The
disambiguation resulted in the reduction of
50% of the concepts.
With respect to classification, we have
seen that disambiguated expansion can lead
to an increase of 12% in recall, 17% in
coverage and still 2% increase of precision
with respect to the baseline (TEXT). The Fmeasure increased by 7.2%. With respect to
retrieval, we saw significant improvement in
recall for paraphrased queries (5%) and
translated queries (15%-30%) on the Reuters
data when using the MCR (with and without
WSD). However, we lost 8% (using WSD)
and 15% (using full expansion) on queries
literally extracted from the text.
For the EFE database, we modified the
ranking so that the queries are matched with
concept combination in phrases (NPs). We
have seen that the phrase structure helps to
exclude the noise generated by the expansion
with wordnets. Literal queries only dropped
2% and 3% when using wordnets and WSD,
whereas paraphrased queries gained 50% to
60% and translated queries 35% and higher.
In addition, when we took the correctness of
the first result as a measure of precision, the
http://www.clef-campaign.org
13
Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen
though the KNOW project (TIN2006-15049C03-01) and the Basque Country University
(Consolidated Research Group GIU05/52).
WSD approach performed best for all types
of queries.
Finally, we also described the end-user
evaluation framework and the results
obtained, which have been carried out by a
three different users testing three different
systems. This experiment confirmed the
results from the query-based experiments.
The productivity of the end-users doubled
and there was a clear effect in precision for
the WSD-based system.
A concept-based IR system with WSD
appears to beneficiary in difficult tasks (with
synonyms or cross-lingual retrieval). Using
half the search effort, it results in more
confirmed photographs, half the false
positives, half the number of rejected
pictures, fewer uncertain selections and half
the total number of interactions. The bottom
line is that IR and CLIR can be improved
with the help of the Multilingual Central
Repository and appropriate WSD technology.
This end-user evaluation showed that both
WSD and FULL increase productivity when
searching for pictures in the Fototeca
database. However, WSD significantly
outperforms the FULL because the first result
is more often the correct result and, as a
result, users can quickly and correctly finish
their task without going through the full set of
responses.
It is also clear from these findings that a
phrasal representation of the concepts in
wordnets is important in order to achieve
good results. For the future, we therefore
want to further explore the possibilities for
extracting a more detailed representation of
the conceptual relations expressed in phrases.
The current system, for instance, does not
distinguish between animal party and party
animal or between Internet service on Java
and Java Internet Services because it cannot
detect the conceptual relation between the
concepts. This would also require higher
precision WSD and more inferencing and
reasoning which will allow a question such as
Who are the parents of Ghandi? to be
answered by a phrase akin to Ghandi is the
son of ….
References
Atserias, J., L. Villarejo, G. Rigau, E. Agirre,
J. Carroll, B. Magnini, P. Vossen The
MEANING
Multilingual
Central
Repository. In Proceedings of the Second
International WordNet Conference-GWC
2004 pg. 23-30 January 2004, Brno, Czech
Republic. ISBN 80-210-3302-9
Fellbaum, C. (ed) (1998) WordNet. An
Electronic Lexical Database, The MIT
Press.
Gonzalo, J., F. Verdejo, I. Chugur and J.
Cigarrán (1998) Indexing with WordNet
synsets can improve text retrieval.
Proceedings of the ACL/COLING98
Workshop on Usage of WordNet for
Natural Language Processing. Sanda
Harabagiu ed.
Magnini, B. and G Cavagliá (2000)
Integrating subject field codes into
wordnet. Proceedings of the Second
International Conference on Language
Resources and Evaluation LREC’2000,
Athens, Greece.
Resnik, P, Word Sense Disambiguation in
NLP Applications, in Eneko Agirre and
Philip Edmonds (eds.), Word Sense
Disambiguation:
Algorithms
and
Applications, Springer (2006).
Rigau, G., B. Magnini, E. Agirre, P. Vossen
and J. Carroll (2002) Unsupervised word
sense disambiguation rivaling supervised
methods.
Proceedings
of
COLING
Workshop, Taipei, Taiwan.
Rigau, G and E. Agirre and J. Atserias (2003)
The MEANING project. Proceedings of the
XIX Congreso de la Sociedad Espagna para
el Procesamiento del Lenguaje Natural
(SEPLN'03), Alacalte Henares, Spain.
Sanderson, M. (1994)
Word sense
disambiguation and information retrieval.
Proceedings
of
17th
International
Conference on Research and Development
in Information Retrieval, 1994.
Voorhees E, M. (1994) Query expansion
using
lexical
semantic
relations:
Proceedings
of
the
17th
Annual
International ACM_SIGIR Conference on
Acknowledgements
This work has been partially supported by the
European Commission (MEANING IST2001-34460), the Spanish Education ministry
14
MCR for CLIR
Research and Development in Information
Retrieval.
Vossen, P. (ed) (1998) EuroWordNet: A
Multilingual Database with Lexical
Semantic Networks, Kluwer Academic
Publishers, Dordrecht.
Walker, M., D. Litman, C. Kamm, and A.
Abella. (1997) PARADISE: A Framework
for Evaluating Spoken Dialogue Agents.
Proceedings of the 35th Annual Meeting of
the
Association
for
Computational
Linguistics, ACL-97, Madrid, Spain.
15
Representación formal de la estructura lógica de sitios web, y su
aplicación a un navegador web multilingüe basado en diálogo
Fernando Martı́nez Santiago, Arturo Montejo Ráez
y Miguel Ángel Garcı́a Cumbreras
Dpto. de Informática, Universidad de Jaén
Campus de las Lagunillas s/n, 23071 - Jaén
[email protected], [email protected], [email protected]
Resumen: Un problema bien conocido de HTML es el pobre contenido semántico
de sus etiquetas, dejando la tarea de interpretar los distintos elementos y secciones
que conforman el sitio web al usuario. Frente a ello, iniciativas como la web semántica
proponen percibir la web como una red de ontologı́as de manera que el significado
de un sitio web sea computacionalmente accesible. Entre ambos extremos, en este
trabajo se propone un formalismo denominado Web Logic Forms (WLF) que permite
representar de manera formal cómo la información esta estructurada en un sitio
web, pero sin entrar en la representación del contenido textual del sitio. De esta
manera es posible que el sitio web sea presentado de una manera conveniente al
usuario en otros caminos distintos al meramente visual. Es por ello que la aportación
aquı́ propuesta no consiste en permitir realizar nuevas y complejas tareas sobre la
web tal como persigue la web semántica, sino dotar de la formalidad suficiente a una
página expresada en HTML para que permita al navegador u otro software conocer
cómo se distribuye y estructura la información allı́ codificada. En esta lı́nea en se
propone un navegador web basado en diálogo apropiado para personas invidentes o
para su uso en dispositivos portátiles.
Palabras clave: lógica de predicados primer orden (LPO), Web Logic Forms
(WLF), Web Logic Forms Rules (WLFR), HTML, gestor de diálogo, navegador
web
Abstract: HTML tags have poor semantic meaning because the final user of the web
is supposed to be a human being with several skills. The user has understand the web
site by means of natural language, visual features of text and images, etc. Semantic
web deals to create a net of ontogies into the web by describing the meaning of the
site in a more formal way. In this work, we propose a formal representation named
Web Logic Forms (WLF) between HTML and semantic web in order to represent the
logic structure of a web site. Thus, the navigator is able to present the information
of the site in a more appropriate way for a given user. By example, the navigator
was able to present the information without any visual object, by “reading” the
information by using structural aspects of the site such as headings, sections, news,
etc. In order to test WLF, we propose a web navigator based on dialog suitable for
blind persons or navigation by using small portable devices such as PDAs or smart
phones.
Keywords: first order logic, Web Logic Forms (WLF), Web Logic Forms Rules
(WLFR), HTML, dialog manager, web navigator
1.
Introducción
Que la Web ha supuesto una revolución
en el modo de publicar y acceder a la información es algo ya asumido desde hace tiempo. Sin embargo, este trasiego de información
dista de ser universal debido a limitaciones
impuestas en los diversos elementos necesarios para que la comunicación entre el usuario
y sitio web sea posible. En todo acto de comunicación se requiere un emisor, un receptor,
ISSN: 1135-5948
un canal, un mensaje, un código y un contexto. En el caso de la web existen diversas restricciones sobre cada uno de estos elementos
que limitan su acceso. En concreto, el código
imperante en la web (HTML+lenguaje natural+gráficos..) dista de ser universal, pues en
la mayorı́a de los casos asume un perfil determinado de receptor:
Para poder navegar, el receptor debe es© Sociedad Española para el Procesamiento del Lenguaje Natural
Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras
tar capacitado para percibir la estructura del sitio atendiendo a aspectos visuales tales como tamaño del texto, ubicación del texto dentro de la página, etc.
las etiquetas HTML de una manera similar
a como las interpretarı́a una persona cuando
percibe la expresión visual de tales etiquetas.
Por ejemplo, una de tales reglas podrı́a indicar que textos escritos en negrita y de un
determinado tamaño son titulares, o que los
enlaces que se encuentran precedidos de una
determinada etiqueta son secciones.
El resto del presente artı́culo está estructurado como sigue: En la sección 2 se repasa
brevemente diversas tecnologı́as relacionadas
con el problema abordado. En la sección 3 se
presenta con detalle el formalismo propuesto para la descripción formal de la estructura lógica de un sitio web, WLF. A continuación se describe brevemente un navegador web basado en diálogo que hace uso de
WLF+WLFR. Y finalmente, se discuten algunos aspectos relevantes y lı́neas de trabajo
futuras que quedan abiertas a partir de la
presente investigación.
Para poder comprender el mensaje, el receptor debe ser capaz de leer e interpretar el código utilizado en la redacción del
mensaje, primordialmente lenguaje natural e imágenes.
Si de lo que se trata es de ampliar el tipo
de receptores capacitados para interpretar el
contenido del mensaje, por ejemplo cuando
el receptor es un programa de ordenador, entonces es la comunidad dedicada al estudio
y desarrollo de la web semántica la que se
ocupa de ello1 (Berners-Lee, Hendler, y Lassila, 2001). Si, por el contrario, la limitación
no la impone la capacidad cognitiva del receptor, si no la imposibilidad, por un motivo
u otro, de percibir la información codificada
en el sitio web, entoces es un aspecto investigado dentro del área de accesibilidad web
o WAI (web accessibility iniciative) 2 . Esta
iniciativa anima al diseño de sitios web que
sean más fácilmente accesibles por personas
con algún tipo de discapacidad. Sin embargo, son pocos los sitios que tienen en cuenta
las recomendaciones más básicas en cuanto a
accesibilidad.
En este trabajo se propone un enfoque
original para superar la limitación que
supone el “aspecto” de la mayorı́a de los sitios
web. Este enfoque requiere añadir el grado
de formalismo necesario para que un navegador pueda “conocer” cómo está la información estructurada, aunque finalmente no
sepa de qué se habla allı́. Para ello, se propone un formalismo denominado Web Logic
Forms (WLF) derivado directamente a partir de HTML, y unas reglas que operan sobre
WLF, denominadas WLFR (WLF Rules).
WLF+WLFR permite dotar al navegador de
la información suficiente referente a la estructura del sitio web como para mostrar tal información de la manera que resulte más adecuada al perfil de usuario. La conversión de
un sitio ya existente al formalismo aquı́ propuesto si bien no es automática, es sencilla pues se reduce a acompañar el sitio web
con un conjunto de reglas WLFR que permita al navegador interpretar correctamente
2.
Trabajo relacionado
En la figura 1 se muestran diversos códigos o lenguajes ordenados según su capacidad
expresiva y el coste computacional para la
manipulación automática del mensaje escrito
mediante tal código. En un extremo queda la
descripción de un sitio web expresado exclusivamente en lenguaje natural. Un sitio web
cuyo contenido y estructura lógica sea descrita exclusivamente usando lenguaje natural tiene una gran capacidad expresiva pero
es inviable computacionalmente. Próximo a
este extremo se encuentra el conjunto formado por HTML, junto con todo aquello que no
se corresponde con un elemento de marcado: lenguaje natural, gráficos, sonidos. . . Por
ello, que un algorı́tmo pueda “compreder” la
informción codificada en un sitio web es casi
tan difı́cil como si de texto plano se tratara.
El otro extremo de la cadena quedan aquellos sitios web cuyo significado está exclusivamente codificado en algún lenguaje formal, si
es que ello fuera posible. Esto asegurarı́a que
la semántica de ese sitio web es manejable
en términos computacionales, pero a costa
de severas limitaciones expresivas (Levesque
y Brachman, ). Un equilibrio deseable entre
ambos extremos lo representa RDF y OWL3 .
OWL es el acrónimo del inglés Web Ontology Language, un lenguaje de marcado para
publicar y compartir datos usando ontologı́as
1
Web semántica: http://www.w3.org/2001/sw
Iniciativa para la accesibilidad de la web:
http://www.w3.org/WAI
2
3
RDF:
http://www.w3c.org/rdf,
OWL:http://www.w3c.org/owl
18
Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo
Figura 1: Idoneidad de algunos lenguajes (complementados con lenguaje natural, imágenes...)
utilizados para codificar el significado de un sitio web.
en la Web. OWL, en su versión más popular,
OWL-DL, es una implementación de lógica
descriptiva (Baader et al., 2003) que toma la
sintaxis de un modelo de marcado construido
sobre RDF y codificado en XML. Ası́, un uso
adecuado de OWL permite el razonamiento automático sobre el contenido de un sitio
web, y requiere el diseño de una ontologı́a
que describa los objetos relevantes presentes
en tal sitio Web y relaciones entre éstos. El
problema es que esa ontologı́a tiene que ser
codificada por un experto, y esta tarea dista
mucho de ser trivial.
ploración del sitio web que se desea tratar.
Es en estas reglas justamente donde se codifica la semántica adicional con que se quiere
enriquecer tal sitio, al modo en que, por ejemplo, OWL puede describir el contenido de un
sitio web, sólo que aquı́ la dificultad es menor,
pues no se trata de describir el contenido sino
la estructura lógica del sitio.
Existen diversas propuestas para representar principalmente la estructúra lógica del
sitio web, y es en este ámbito donde mejor encuadra el presente trabajo. Ası́, en (Martı́nezSantiago, Ureña, y Garcı́a-Vega, 2001) se propone una herramienta que permite derivar
a partir de ciertos sitios web un documento
XML con etiquetas tales como “autor”, “tı́tulo”, “sección”. Este modelo requiere describir mediante un conjunto de sencillas reglas
cómo extraer tales etiquetas del sitio web. Un
aspecto destacable es la naturaleza jerárquica
de tales reglas de tal modo que es posible
crear reglas que se aplican a cualquier página web, sólo a las páginas pertenecientes a un
sitio web, a una sección de ese sitio web, o incluso a una página determinada. Por contra,
es una herramienta que queda limitada por el
conjunto de reglas disponible, ası́ como por
su orientación a explorar sitios de contenido
periodı́stico por lo que le presupone una estructuración al sitio bastante rı́gida. En esta lı́nea, el trabajo propuesto en (Chan y Li,
2000) que aporta algo más de flexibilidad gracias al uso de XSL como formalismo principal
para representar aquellas reglas que permiten
extraer información semántica del sitio web.
Nótese que en ambos casos es necesario elaborar un conjunto de reglas mediante la ex-
Por otra parte, existe una amplia variedad de formalismos de representación que
dan soporte a diversos wrappers web tal como WHIRL(Cohen, 2000). Este lenguaje, que
también tiene inspiración logica, tiene una
capacidad expresiva adecuada para obtener
una representación formal de todo el contenido del sitio web, por lo que excede el
objetivo de WLF, y su complejidad. El esfuerzo que requiere escribir y mantener un
wrapper para uno de estos lenguajes es similar al que se requerı́a en una web semántica.
Por ello, existen esfuerzos por conseguir automatizar la escritura de wrappers mediante
técnicas de aprendizaje automático y minerı́a
de datos, pero es difı́cil, con el estado de la
tecnologı́a actual, que una máquina “aprenda” el contenido semántico de una web por
sı́ sola. Sin embargo, dado que WLF se centra en la estructura del sitio, y no en su contenido, el esfuerzo de escribir y mantener uno
de tales wrappers es mucho menor. Por todo ello, el motivo último de WLF es describir un lenguaje computacionalmente asumible, de fácil escritura, y que aún ası́ tenga un
grado de formalismo útil para diversas tareas,
como ADN, el navegador multilingüe basado
en diálogo descrito en la segunda parte de
este artı́culo.
19
Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras
Cuadro 1: Algunas frases y la forma lógica obtenida
Juan vuela desde Tokio hasta Nueva Juan [P](x1 ) volar [V](e1 x1 ) desde [P]( e1 x2 )
York
Tokio [N](x2 ) hasta [P]( x2 x3 ) Nueva York [N](x3 )
John es golpeado por una pelota
John [N](x1 ) golpear [V](e1 x2 x1 ) por [P]( e1 x2 )
pelota [N](x2 )
En vez de alubias comeré pizza
En vez de [P]( x2 x1 ) alubias [N](x1 ) comer [V](e1
x2) pizza [N](x2)
El baloncesto y el tenis son grandes baloncesto [N](x1 ) y [C](x3 x1 x2 ) tenis [N](x2 )
deportes
ser [V](e1 x3 x4) grande [A] (x4) deporte [N](x4 )
El profesor permitió un periodo de profesor [N](x1 ) permitir [V](e1 x1 x3) periodescanso
do [N](x3 ) de [P]( x3 x2 ) descanso [N](x2 )
3.
WLF+WLFR: Descripción
formal de la estructura lógica
de un sitio web
la forma lógica de una página HTML son los
siguientes:
Cada etiqueta HTML se representa mediante un predicado. Cada ocurrencia de
esa etiqueta se identifica mediante una
constante que es el primer argumento del
predicado equivalente. A modo de ejemplo, de la etiqueta < html > obtenemos
la forma lógica html(h1). El significado
de cada argumento que recibe el predicado depende de la posición que éste ocupa:
Web Logic Forms toma su nombre del
formalismo para la representación semántica
del lenguaje natural conocido como identificación de formas lógicas (Rus, 2002). La identificación de formas lógicas es un formalismo
basado en lógica de predicados de primer orden (LPO) que pretende obtener una representación del lenguaje natural situada entre
el nivel sintáctico y semántico partir de un
texto expresado en lenguaje natural. La base
de tal formalismo es la lógica de predicados
de primer orden, de tal manera que a cada
palabra presente en el texto se le asigna un
predicado. A su vez cada predicado puede
tener varios argumentos que representan la
relación de ese predicado con otros elementos de la frase.
La identificación de la forma lógicas es
una tarea compleja que requiere un análisis
sintáctico del texto y, usualmente, un conjunto de reglas que permita interpretar el árbol
sintáctico. Realmente, en el caso de WLF la
tarea es más sencilla al tratarse de un lenguaje formal como es HTML, que además tiene
un sintaxis sencilla y muy homogénea consituı́da básicamente por una secuencia de etiquetas que ocasionalmente incluyen algunos
atributos y o algún texto que acompaña a la
etiqueta y sobre el cual opera. En la tabla 1
se muestran algunos ejemplos de frases junto
a su forma lógica equivalente.
De manera análoga se identifica la forma
lógica de una página HTML. Los elementos
HTML se corresponden con un predicado,
cuyo primer argumento es una constante exclusiva de ese predicado, y que representará a
ese elemento HTML allı́ donde haga falta.
Más detalladamente, los pasos para obtener
1. Constante que representa a una instancia determinada de una etiqueta
HTML.
2. Etiqueta HTML de la que depende
(“none”, si no depende de ninguna).
De esta manera se representa la naturaleza jerárquica de HTML.
3. Indica si se marca el inicio (open) o
fin (close) de una sección.
4. Número de etiqueta. Un número
único que se corresponde con el lugar de aparación de la etiqueta dentro de la página. Realmente, este
argumento es una forma alternativa de referirse a la etiqueta que representa, cuando resulta de utilidad
tener en cuenta el orden relativo entre etiquetas.
Cada atributo HTML se representa mediante, al menos, dos predicados, uno representa el atributo, y otro el valor que
toma. El atributo queda identificado por
la constante que representa a la etiqueta de la cual depende ese atributo, junto
con el nombre del atributo.
El texto entre etiquetas se representa con
el predicado “text”, cuyo identificador se
20
Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo
guntar a la base de conocimiento resultante
son las secciones que se encuentran en la página, el tı́tulo o los productos que se ofertan,
si se tratara de un sitio dedicado al comercio
electrónico.
corresponde con el identificador de la etiqueta HTML que le contiene.
En la tabla 2 se muestran algunos ejemplos de código HTML con su correspondiente forma lógica.
3.1.
Extracción de la estructura
lógica de un sitio web
4.
Ya que la WLF es una reescritura de
HTML utilizando lógica de predicados de
primer orden, el grado de formalismo de la
página original y la derivada es el mismo,
pero con la ventaja de que ahora contamos
con las herramientas propias de la lógica para
manipular ese código y obtener ası́ una base
de conocimiento con información relativa a
la estructura lógica del sitio web. Ası́ pues,
para extraer información sobre aspectos estructurales del sitio web es necesario escribir
reglas que identifiquen los elementos relevantes de la página: tı́tulo, secciones, titulares, enlaces, etc. Nótese que, a diferencia
del lenguaje natural donde la semántica de
una frase queda determinada en buena medida por la sintaxis de ésta (Levin, 1993),
HTML informa escasamente sobre el significado del mensaje codificado mediante su uso
(esto es, cómo se organiza la información almacenada). Ésta es una diferencia primordial entre la identificación de formas lógicas y WLF. Mientras que en la mayorı́a de
los casos, para identificar la forma lógica de
una frase es suficiente con un conjunto finito de reglas (salvo en caso de ambigüedad
sintáctica), en el caso del HTML esas reglas son completamente dependientes de cada página web que se desea manipular, debido a que HTML no está concebido para
informar sobre la estructura lógica del sitio
web que describe. Nótese que para que aplicaciones terceras puedan aprovechar convenientemente la información extraı́da es conveniente que tales reglas sigan alguna ontologı́a
sencilla que enumere y describa los objetos
estructurales de la página y como cómo se
relacionan. En la figura 2 se esquematiza el
proceso. Nótese que la obtención de la forma lógica es independiente del sitio, pero no
ası́ la base de conocimiento, que es el resultado de aplicar a WLF las reglas escritas a tal
efecto mediante algún demostrador de teoremas automático. En el anexo 1 se muestra
el resultado final obtenido a partir de código
HTML real extraı́do de un diario digital. Algunos hechos que tı́picamente se pueden pre-
ADN: Un navegador web
gestor de diálogo basado en
WLF
Presentar la información de un sitio web
mediante el uso exclusivo de voz o texto, sin
apoyo de formato alguno, dista de ser una
tarea trivial. Existen algunos productos comerciales como JAWS (acrónimo de Job Access
With Speech)4 , que permiten al usuario interactuar con un navegador basado en texto
y leer secuencialmente la página web. Claramente, esta forma de navegar resulta pesada cuando se trata de leer o acceder a alguna sección de un sitio web comercial, que
usualmente presenta una gran cantidad de información al usuario, el cual percibe visualmente los diversos componentes de tal página
web, centrándose ası́ rápidamente en aquellos aspectos de su interés (buscar una sección, leer los titulares, la descripción de un
producto, etc). Ya que WLF+WLFR permite
representar formalmente la estructura lógica
de un sitio web, es posible que un navegador aproveche esa información para presentar la página web de una manera ordenada.
Por ejemplo, serı́a posible que en un diario
dado, diera al usuario la opción de leer los titulares o enumerar las secciones disponibles.
Leer, si ası́ lo desea el usuario, la entradilla de algún titular y posteriormente el contenido completo de la noticia, etc. En esta sección a se presenta ADN (del inglés, A
Dialog-based Navigator ). ADN permite gracias al uso de WLF+WLFR navegar de una
manera eficiente sin utilizar para ello cd́igo
visual alguno, tan sólo un uso controlado del
lenguaje natural. Además, el hecho de que
el navegador conozca la estructura del sitio
web permite que la navegación mediante texto pueda realizarse en el idioma del usuario,
siempre que se haya realizado previamente la
localización necesaria.
A continuación se describen los dos módulos principales de que consta ADN: el gestor
de contenidos web y el gestor de diálogo.
4
21
JAWS: http://www.freedomscientific.com
Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras
Cuadro 2: Una porción de código HTML junto con su forma lógica equivalente
HTML
WLF
<html>
html(h1, none, open,1)
<title> Diario Digital </title>
title(h2, h1, open, 2)
text(h2,“Diario Digital”)
title(h2, h1, closed, 3)
<body>
body(h3, h2, open, 4)
<a href=“/opinion/col1.html”>
a(h4,h3,open,5)
attr(“a”,h4)
fullValue(“a”,h4,“/opinion/col1.html”)
Figura 2: Esquema del proceso de extracción de la estructura lógica de un sitio web
4.1.
El gestor de contenido web
4.2.
El gestor de diálogo, que interactúa con
la base de conocimiento en función de las ordenes que reciba del usuario. Más concretamente, el gestor de diálogo sigue un modelo basado en redes de transición aumentadas
o ATNs (Augmented Transition Networks)
(Woods, 1970),(Woods, 1973). Existen varios
ejemplos en la literatura (Levy et al., 1997),
(McTear, 1998), (Robinson et al., 2004), en
los que el gestor de diálogo se basa en un
autómata. Este es un paradigma que permite
modelizar de una manera muy intuitiva aquellos diálogos de carácter imperativo, con un
escenario controlado y un número relativamente pequeño de alternativas en cada momento. Si esto no se cumple, cualquier tipo de
autómata necesario para modelizar un acto
conversacional se vuelve excesivamente complejo, pesado, y finalmente poco manejable.
En nuestro caso, la lógica de una ATN se
adapta muy naturalmente al modo que usualmente navegamos, tal como se describe a continuación.
Una ATN es una red recursiva cuyas
transiciones cuentan con unos registros que
pueden ser leı́dos (operación test) o escritos
(operación action) antes o después de pasar
al siguiente estado. A su vez, una red recursiva es, en esencia, una automáta finito determinista donde se permite que una transición
Este módulo tiene capacidad para descargar páginas web, derivar la forma lógica de
tal página y razonar sobre ella usando las
reglas escritas a tal efecto. En cierta forma,
se comporta como una base de conocimiento
extraı́da de la web mediante el uso combinado de WLF+WLFR junto con algún demostrador de teoremas automático. En este
trabajo el demostrador de teoremas usado es
OTTER5 , que es un completo sistema de deducción automático basado LPO con capacidad para manejar la igualdad mediante demodulación y paramodulación y estrategias
de búsqueda tales como hiperresolución o resolución binaria. Es el demostrador de teoremas basado en lógica de primer orden más extendido en la actualidad. Se ha elegido por estar bien documentado, ser sobradamente potente, y lo bastante rápido como para usarlo
en tiempo real (al menos para las demostraciones aquı́ requeridas).
Finalmente el gestor de contenidos web
también cuenta con una pequeña base de
datos que permite anotar información referente al perfil de usuario, cookies, o cualquier
dato que por un motivo u otro deba almacenarse.
5
El gestor de diálogo
OTTER: http://wwwunix.mcs.anl.gov/AR/otter
22
Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo
Figura 3: Arquitectura del navegador multilingüe ADN.
represente, además de un evento como es usual, un nuevo autómata. La transición se completa en el momento que el nuevo autómata llega a un estado final. De esta manera,
se crea una pila de autómatas conforme se
va transitando a través del ATN, de manera similar a como se apilan los sitios web
en el historial de un navegador web conforme
se visitan nuevos sitios. Ası́, cada autómata
se corresponde con un sitio web, y cada estado representa una página determinada. Finalmente, una transición queda descrita por
los siguientes elementos:
tado que representa una página de identificación, podrı́a almacenarse ahora el
nombre de usuario y la clave facilitada.
En la figura 3 se muestra la arquitectura
propuesta tomando como ejemplo un diario
digital.
La mayor limitación de ADN es que sólo
puede navegar sobre aquellas páginas web
para las cuales se han creado las reglas WLFR pertinentes y, además, se ha diseñado el
automáta que describa el modo de navegar en ese sitio web, si bien es posible crear
autómatas estándar para grupos de sitios
web que compartan una estructura de navegación similar. Por ejemplo, es posible crear
un autómata para diarios, otro para comercio electrónico, otro para blogs, etc. Las peculiaridades de cada uno de estos sitios son
ocultadas por el gestor de navegación a través
de la base de conocimiento.
Actualmente, existe un primer prototipo
de ADN que opera sobre dos diarios en
español (El Mundo y el diario deportivo
SPORT), uno inglés (The Guardian) y uno
francés (Le Monde), que confirma la viabilidad de la arquitectura, si bien aun falta por
probar el enfoque en sitios que requieren un
grado más alto de interactividad, como un
sitio de comercio electrónico, por ejemplo.
Operación test. Precondiciones que
deben cumplirse para que tal transición
se lleve a cabo. Por ejemplo, que el
usuario esté registrado. Este tipo de
información generalmente se obtiene a
partir de la base de datos contenida en
el gestor de navegación.
Eventos. Órdenes de usuario que dirigen
la navegación a través del sitio. Estas ordenes se corresponden más o menos con
la interacción usual con un navegador
web. Se permite cierto grado de flexibilidad mediante el uso de expresiones
regulares. Este enfoque, si bien es sencillo, resulta adecuado pues se trata de
un diálogo sobre un dominio bien delimitado y dirigido por el navegador web.
Generalemente, se tratará de respuestas
a preguntas concretras de ADN, como
“¿Quiere visitar la sección de nacional,
internacional o deportes?”.
5.
Consideraciones sobre la
relación entre WLF y OWL
Ya que OWL permite describir el contenido de un sitio web, ¿por qué no usar directamente OWL?. Realmente, el hecho de describir la estructura de la página web usando
lógica de predicados de primer orden o OWL
Operación action. Postcondiciones como
resultado de la ejecución de la transición. Por ejemplo, si se abandona un es23
Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras
es irrelevante. OWL en su versión más equilibrada, OWL-DL, es una implementación de
la lógica descriptiva que es a su vez un subconjunto de la lógica de predicados de primer
orden. Ası́ que el paso de LPO a OWL es más
o menos trivial, si bien es cierto que OWL es,
en cierta forma, una especialización de LPO,
muy orientado a escribir ontologı́as y razonar
sobre ellas. Es adecuado pues para representar qué contiene un sitio web, y no tanto cómo
está organizado tal sitio, para lo cual en este
trabajo se ha preferido la capacidad expresiva de la lógica tradicional. En cualquier caso WLF no es una alternativa a OWL, sino
un procedimiento para derivar la forma lógica de un sitio web. El lenguaje usado para
codificar la forma lógica para posteriormente
razonar sobre ella es secundario. En definitiva, no supone más que una pequeña variación
sobre el mismo tema implementar WLF sobre
OWL.
6.
sitio web. Los estados son páginas o tipos de
páginas concretos de tal sitio, las acciones
son órdenes de usuario que permiten saltar
de una página a otra, o a otro sitio web.
Ya que la web no es sólo HTML, una lı́nea
de trabajo futura es ampliar la definción de
WLF a otros lenguajes comunes en la codificación de sitios web, tales como XML+XSL
o lenguajes script.
Por otra parte, la mayor limitación que
tiene WLF es que requiere de la escritura de las reglas WLFR mediante el análisis
manual del texto HTML. Esperar que esta
tarea se pudiera realizar de manera totalmente automática es casi tanto como querer que, al dı́a de hoy, una máquina pueda comprender lenguaje natural en toda su
riqueza. En cualquier caso, si es posible realizar herramientas de apoyo, que mediante
algorı́tmos de aprendizaje automático supervisado, puedan ayudar al experto humano en
el desarrollo de las reglas WLFR.
En lo relativo al navegador ADN, actualmente se está evaluando con buenos resultados la eficacia del navegador en sitios que requieran un alto grado de interacción, tal como la realización de un pedido. Un segundo
aspecto más ambicioso es dotar al gestor de
diálogo de cierta capacidad de comprensión
de lenguaje natural y planificación. Una comprensión más elaborada del lenguaje natural
permitirı́a diseñar planes para dar respuesta
a solicitudes de usuario que conlleven realizar más de una acción a partir de una única
sentencia, tales como “navega a la sección de
deportes de El Paı́s”,que requiere navegar al
diario y luego a la sección solicitada, o “lista
los productos de la sección de electrodomésticos de El Corte Inglés”.
Conclusiones y trabajo futuro
Se ha presentado un procedimiento denominado WLF que permite representar
HTML mediante LPO. Ello permite, en
primer lugar, dotar a la página de información referente a la estructura lógica del sitio web. Esta información realmente ya está latente en la página. El
problema es que el lenguaje usado para
ello (HTML+texto+imagenes+...), es extremadamente vago e impreciso, y por lo tanto intratable computacionalmente. Lo que el
uso combinado WLF y WLFR posibilita es
justamente tratar de manera automática la
estructura lógica del sitio web, de forma similar a cómo la web semántica permite explotar
el contenido de tal sitio, más allá de cómo tal
contenido se muestre de cara al usuario.
Un ejemplo práctico de uso de
WLF+WLFR es el navegador web conversacional multilingüe ADN, que interactúa
con el usuario usando exclusivamente
lenguaje natural, presentando al usuario la
información de manera ordenada y conveniente. Además, dado que ADN conoce la
estructura lógica del sitio es posible interactuar con el usuario en el idioma de éste,
con independencia del idioma utilizado en el
sitio web, si bien es cierto que la información
finalmente solicitada se mostrará en el
idioma original, salvo que se traduzca. ADN
es un relativamente sencillo gestor de diálogo
basado en ATNs. Cada ATN representa un
7.
Agradecimientos
Este trabajo ha sido financiado parcialmente mediante el proyecto TIMOM
(TIN2006-15265-C06-03), del Ministerio de
Ciencia y Tecnologı́a, y el proyecto de investigación de la Universidad de Jaén con código
RFC/PP2006/Id 514.
Bibliografı́a
Baader, Franz, Diego Calvanese, Deborah L.
McGuinness, Daniele Nardi, y Peter F.
Patel-Schneider, editores. 2003. The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge
University Press.
24
Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo
Berners-Lee, Tim, James Hendler, y Ora Lassila. 2001. The Semantic Web. A new
form of Web content that is meaningful
to computers will unleash a revolution of
new possibilities. The Scientific American, Mayo.
Woods, W.A. 1970. Transition network
grammars for natural language analysis.
En CACM, volumen 13, páginas 591–606.
Chan, Jessica Choi Yuk y Qing Li. 2000.
WebReader: A Mechanism for Automating the Search and Collecting Information
from the World Wide Web. En WISE,
volumen 2, páginas 20–47.
Cohen, William W.
2000.
WHIRL:
A word-based information representation
language. Artif. Intell., 118(1-2):163–196.
Levesque, Hector J. y Ronald J. Brachman.
Readings in Knowledge Representation.
Levin, Beth. 1993. English Verb Classes and Alternations: A Preliminary Investigation. University of Chicago Press,
Chicago, IL.
Levy, D., R. Catizone, B. Battacharia,
A. Krotov, y Y. Wilks. 1997. Converse:
A conversational companion. En Proceedings of the First International Workshop
on Human-Computer Conversation, páginas 27–34, Bellagio, Italia.
Martı́nez-Santiago,
Fernando,
Alfonso
Ureña, y Manuel Garcı́a-Vega.
2001.
WWW como fuente de recursos lingüı́sticos. Sociedad Española para el Procesamiento del Lenguaje Natural, 27:41–70.
McTear, M. 1998. Modelling spoken dialogues with state transition diagrams: experiences with the cslu. En ICSLP.
Robinson, Kerry, D. Horowitz, E. Bobadilla,
M. Lascelles, y A. Suarez. 2004. Modelling spoken dialogues with state transition diagrams: experiences with the cslu.
En SIGDIAL.
Rus, Vasile. 2002. Logic Form For WordNet Glosses and Application to Question Answering. Ph.D. tesis, Computer
Science Department, School of Engineering, Southern Methodist University, Dallas, Texas.
Woods, W. A., 1973. Natural Language Processing. Algorithmics Press, capı́tulo An
experimental parsing system for transition network grammars, páginas 111–154.
Rustin, R., New York.
25
Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras
Anexo I. Ejemplo de WLF+WLFR sobre código HTML
HTML
<div class=“tituno”>
<a href=“/elmundo/2005/11/07/sociedad/1131392990.html” class=“tituno”>
Villepin autoriza el toque de queda en los lugares azotados por la violencia callejera
</a>
</div>
WLF
div(h1,none,open,1)
attr(“class”,h1)
fullValue(“class”,h1),“tituno”)
a(h2,h1,open,2)
attr(“href”,h2)
fullValue(“href”,h2,“/elmundo/2005/11/07/sociedad/1131392990.html”)
attr(“class”,h2)
fullValue(“class”,h2,“tituno”)
text(h2,“Villepin autoriza el toque de queda en los lugares azotados por la violencia callejera”)
a(h2,h1,close,3)
div(h1,none,close,4)
WLFR
Obtener el titular:
all x1 x2 x3 div(x1,none,open,x3) & fullValue(“class”,x1)=“tituno” & a(x2,x1,open) &
text(x2)→diario.titular.texto(x2)
Obtener la URL de la noticia:
all x1 x2 x3 div(x1,none,open,x3) & fullValue(“class”,x1)=“tituno” & a(x2,x1,open) &
fullValue(“href”,x2) →diario.titular.url(x2)
Algunas preguntas a la BC
¿Cuál es el titular?
ask: exists x diario.titular.texto(x)
→ diario.titular.text(“Villepin autoriza el toque de queda en los lugares azotados por
la violencia callejera”)
¿Cuál es la URL de la noticia?
ask: exists x diario.titular.noticia(x)
→ diario.titular.url(“/elmundo/2005/11/07/sociedad/1131392990.html”)
26
Búsqueda de Respuestas Bilingüe basada en ILI,
el sistema BRILI ∗
Sergio Ferrández, Antonio Ferrández, Sandra Roger y Pilar López–Moreno
Grupo de Investigación en Procesamiento del Lenguaje Natural
y Sistemas de Información
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
Carretera San Vicente s/n 03690 Alicante España
{sferrandez,antonio,sroger}@dlsi.ua.es [email protected]
Resumen: Este artı́culo presenta nuestro sistema de Búsqueda de Respuestas (BR)
bilingüe, llamado BRILI. BRILI ha participado en la tarea de BR Inglés–Castellano
de la edición del 2006 del “Cross-Language Evaluation Forum” (CLEF) quedando
en primera posición. BRILI está basado en el uso del módulo ILI (“Inter Lingual
Index”) de EuroWordNet. Además, se muestra una evaluación sobre el conjunto de
preguntas oficiales del CLEF que justifica nuestra estrategia.
Palabras clave: Búsqueda de Respuestas Multilingüe, ILI, EuroWordNet
Abstract: This paper presents our Cross-lingual Question Answering (CL-QA) system, called BRILI. It has participated in the 2006 edition of the Cross-Language
Evaluation Forum (CLEF) being ranked first at English–Spanish Question Answering task. BRILI is based on the Inter Lingual Index (ILI) Module of EuroWordNet.
Besides, tests on official questions from the CLEF justify our strategy.
Keywords: Cross–Lingual Question Answering, ILI, EuroWordNet
1.
Introducción
En estos últimos años, el volumen de información textual en lenguaje natural en diferentes idiomas ha crecido exponencialmente. Este hecho implica la necesidad de gran
número de herramientas de Recuperación de
Información (RI) que permitan a los usuarios realizar búsquedas de información multilingüe.
Tareas multilingües en RI y Búsqueda de
Respuestas (BR) han sido reconocidas como
un importante uso en el acceso de información on-line, este fenómeno fue corroborado en la pasada edición del “Cross-Language
Evaluation Forum”(CLEF) 2006 (Magnini et
al., 2006).
El objetivo que la BR persigue es encontrar respuestas concisas a preguntas arbitrarias formuladas en lenguaje natural. En entornos multilingües, las preguntas son formu∗
Este trabajo ha sido llevado a cabo por el consorcio QALL-ME, el Sexto Programa Marco de Investigación de la Unión Europea (UE), referencia: FP6IST-033860. Los autores agradecen a la UE su apoyo
económico, ası́ como a los integrantes del consorcio,
por su fructı́fera colaboración. Para más información
sobre el consorcio QALL-ME visite la página web del
proyecto, http://qallme.itc.it/.
ISSN: 1135-5948
las en lengua diferente a la de los documentos
donde se realiza la búsqueda de la respuesta.
Este marco de trabajo incrementa la dificultad del proceso de BR.
En este artı́culo se presenta el sistema
BRILI (acrónimo de “Búsqueda de Repuestas
usando ILI”), siendo el objetivo principal de
este artı́culo describir nuestra estrategia para afrontar las tareas de BR multilingües (el
prototipo de la arquitectura del sistema BRILI fue presentado previamente en (Ferrández
y Ferrández, 2006)). Además, se propone una
evaluación sobre los conjuntos de preguntas
oficiales del CLEF que justifica la bondad de
nuestro método.
El resto del artı́culo está organizado en:
la sección 2 detalla el estado de la cuestión
estudiando los actuales sistemas de BR multilingüe. En la sección 3 la arquitectura del
sistema BRILI es mostrada y analizada, haciendo especial hincapié en la estrategia desarrollada para procesar las tareas multilingües.
La sección 4 presenta y discute los resultados
obtenidos de la evaluación del sistema usando
las preguntas oficiales del CLEF. Y finalmente, la sección 5 redacta nuestras conclusiones
y trabajos futuros.
© Sociedad Española para el Procesamiento del Lenguaje Natural
Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno
2.
Estado de la Cuestión
Los tres métodos anteriormente descritos
están basados en el uso de herramientas de
TA para llevar a cabo la tarea bilingüe de
BR. Además, algunos de ellos intentan corregir los errores originados por dichas herramientas por medio de diferentes heurı́sticas.
Asimismo, se debe tener en cuenta que la
baja calidad de los sistemas de TA originan
un cúmulo de errores dentro de todos las fases de la BR. Estos hechos causan un decremento importante en la precisión global de
los sistemas de BR. Esta situación puede ser
corroborada en la pasada edición del CLEF
2006 donde la precisión de los sistemas de
BR multilingüe decrece alrededor del 50 % en
comparación con las tareas monolingües.
Hoy en dı́a, la mayorı́a de los actuales sistemas de BR multilingüe (Gillard et al., 2006;
Sacaleanu, B. y G. Neumann, 2006; Sutcliffe
et al., 2006; Tomás et al., 2006) están basados
en el uso de servicios on-line de Traducción
Automática (TA). Esta tendencia fue confirmada el la edición del 2006 del CLEF (Magnini et al., 2006).
La precisión de los sistemas de BR multilingüe está directamente afectada por su capacidad de analizar y traducir correctamente la pregunta que reciben como entrada al
proceso. Imperfectas o ambiguas traducciones de las preguntas ocasionan un efecto negativo en la precisión global del sistema (un
estudio sobre el efecto de la TA en la BR
multilingüe fue presentado en (Ferrández y
Ferrández, 2007)). Otro dato a tener en cuenta y tomando como referencia a (Moldovan et
al., 2003), es que la fase de Análisis de la Pregunta es responsable del 36.4 % del total de
los errores en la BR de domino abierto.
Esta sección se centra en la tarea de BR
bilingüe inglés–castellano, con el objetivo de
comparar estrategias y resultados de los actuales sistemas de BR con nuestro sistema
(BRILI). En la pasada edición del CLEF
2006, tres diferentes estrategias han sido usadas por los sistemas de BR para resolver dicha tarea.
El sistema (Whittaker et al., 2006) usa
una herramienta de TA para traducir la pregunta al lenguaje en el que están escritos los
documentos. Esta estrategia es la técnica más
simple utilizada hasta el momento. De hecho,
cuando se compara el resultado del proceso
bilingüe con la ejecución monolingüe en Castellano, la precisión decrece en un 55 %. Este
sistema pone de manifiesto la influencia negativa de los servicios de TA en la BR multilingüe.
Por otro lado, el sistema (Bowden et al.,
2006) traduce el volumen total de documentos a la lengua en la que la pregunta es formulada. Este sistema utiliza un sistema de
TA estadı́stico que ha sido entrenado usando
el “European Parliament Proceedings Parallel
Corpus 1996–2003 ”(EUROPARL).
Finalmente, el sistema BRUJA (Garcı́aCumbreres et al., 2006) traduce la pregunta
utilizando diferentes servicios on–line de TA
y heurı́sticas. Esta técnica consulta diferentes
herramientas con el objetivo de obtener un
traducción aceptable de la pregunta.
3.
El sistema BRILI
En esta sección, se describe la arquitectura
y funcionalidad de el sistema BRILI. Siendo
el objetivo principal de esta sección detallar
nuestra estrategia para afrontar la tarea bilingüe de BR inglés–castellano.
3.1.
Arquitectura general
El sistema BRILI esta implementado para localizar respuestas en documentos, donde
preguntas y documentos están escritos en lenguas diferentes. El sistema se basa en el uso
de patrones sintácticos para analizar las preguntas y localizar las repuestas (para realizar
estas tareas se utilizan diferentes herramientas de Procesamiento del Lenguaje Natural
(Acebo et al., 1994; Ferrández, Palomar, y
Moreno, 1999; Llopis y Vicedo, 2001; Schmid,
1995)). Además, un algoritmo de “Word Sense Disambiguation (WSD)” es aplicado con el
objetivo de mejorar la precisión (una nueva
propuesta de WSD para nombre presentada
en (Ferrández et al., 2006)).
La figura 1 muestra la arquitectura global
del sistema BRILI.
Para la primera implementación del sistema BRILI, nos hemos apoyado en la fase de
indexación de documentos y en el módulo de
la extraction de la respuesta de nuestro sistema monolingüe de BR llamado AliQAn (Roger et al., 2005), el cual fue presentado por
primera vez en la edición del 2005 del CLEF.
En las siguientes sub–secciones se detallarán los módulos de Identificación del Lenguaje, la fase de Análisis de la Pregunta,
el módulo de Referencia Entre Lenguas, el
módulo de Selección de Pasajes Relevantes y
el módulo de la Extracción de la Respuesta.
28
Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI
Módulo
Castellano
Módulo
Inglés
Pregunta
Módulo de
Identificación
del Lenguaje
ILI
EuroWordNet
Módulo
Castellano
Respuesta
MÓDULO DE
ANÁLISIS DE
LA PREGUNTA
MÓDULO DE
EXTRACCIÓN
DE LA
RESPUESTA
Módulo de Referencia
entre Lenguas
Palabras Clave Castellano
Módulo de Selección de
Pasajes Relevantes
DOCUMENTOS
CASTELLANO
IR-n
Figura 1: Arquitectura del Sistema BRILI
3.2.
Módulo de Identificación del
Lenguaje
perada. El sistema detecta el tipo de
información que las posibles respuestas
deben satisfacer para llegar a ser respuestas candidatas (por ejemplo: nombres propios, cantidades, fechas, etcétera)
El módulo de Identificación del Lenguaje
ha sido desarrollado con el objetivo de distinguir automáticamente el lenguaje en el que
está escrito el texto que recibe como entrada.
Este módulo esté basado en dos técnicas:
i) el uso de diccionarios (“stopwords” especı́ficas del lenguaje); ii) el uso de partes de las
palabras (por ejemplo, “-ing” en el caso de
inglés). Esta filosofı́a presenta buenos resultados (Martı́nez, T., E. Noguera, R. Muñoz
y F. Llopis, 2005) para castellano e inglés.
3.3.
Identificar los principales BS de la
pregunta. BRILI extrae los BS del a
pregunta que son útiles para encontrar
las respuestas en los documentos.
Para la primera tarea, se ha diseñado
una taxonomı́a basada en “WordNet
Based–Types” y “EuroWordNet Top–
Concepts”. Nuestra clasificación se compone
de las siguientes categorı́as: persona,
profesión, grupo, objeto, lugar–paı́s, lugar–
ciudad, lugar-capital, lugar, abreviatura,
evento, numérico–económico, numérico–
edad, numérico–medida, numérico–periodo,
numérico–porcentaje,
numérico–cantidad,
temporal–año, temporal-mes, temporal–
fecha, efeméride y definición.
El tipo de respuesta esperada es detectado por medio de un conjunto de patrones sintácticos. El sistema posee alrededor de
200 patrones para determinar la categorı́a de
la pregunta dentro de nuestra taxonomı́a. El
procedimiento es el siguiente: BRILI compara los BS de los patrones con los BS de la
pregunta, el resultado de estas comparaciones determinan el tipo.
A continuación se muestra un ejemplo que
detalla el comportamiento de esta tarea:
Módulo de Análisis de la
Pregunta
Antes de adentrarnos en la descripción de
la fase de Análisis de la Pregunta se deben
tener en cuenta algunos aspectos.
Nuestro método se basa fundamentalmente en el análisis sintáctico de la pregunta y los
documentos. Para desarrollar esta tarea, el
sistema SUPAR (Ferrández, Palomar, y Moreno, 1999) ha sido utilizado. A partir de la
salida que SUPAR proporciona, el sistema
BRILI extrae los Bloques Sintácticos (BS)
de las preguntas y los documentos. Se detectan tres tipos de BS: Sintagma Nominal
(SN) simple, Sintagma Verbal (SV) y Sintagma Preposicional (SP). Estos BS forman la
unidad sintáctica básica para diseñar e implementar patrones.
El sistema BRILI desarrolla dos tareas
principales en la fase de Análisis de la pregunta:
Pregunta 06 del CLEF 2006: Which
country did Iraq invade in 1990?
Detectar el tipo de respuesta es29
Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno
Patrón: [WHICH]
COUNTRY]
[sinónimo
English
WordNet
de
Spanish
WordNet
presidente
president
director
Tipo de Respuesta Esperada lugar–
paı́s
rector
moderador
El objetivo que la segunda tarea persigue
es determinar qué BS de la pregunta son útiles para localizar las respuestas en los documentos. Además, en estos BS se encuentran
las palabras clave que deben ser traducidas
por el Módulo de Referencia Entre Lenguas.
El ejemplo siguiente muestra el proceso de esta tarea en una pregunta de tipo temporal–
año.
presidente
presidenta
Figura 2: Referencias para la palabra “president”
La estrategia empleada para poder realizar
la BR haciendo uso de toda la información
que ILI proporciona al sistema, es valorar y
ordenar todas las referencias establecidas por
frecuencia. En el ejemplo anterior, la palabra
en Castellano más valorada serı́a “presidente”.
Por otro lado, se debe tener en cuenta que
en algunos casos el sistema se encuentra ante palabras inglesas que no están referenciadas al Castellano por el módulo ILI. En estos casos el sistema utiliza un diccionario on–
line 1 para poder determinar las traducciones.
Además, el sistema BRILI se apoya en el uso
de colecciones bilingües de organizaciones y
lugares para traducir este tipo de entidades
que en algunos casos no están referenciadas
por ILI.
A su vez, con el objetivo de reducir el efecto negativo de traducciones incorrectas de algunos nombre propios, la fase de Extracción
de la Respuesta utiliza las palabras clave traducidas por el módulo REL y dichas palabras
en el lenguaje original de la pregunta (teniendo en cuenta que las soluciones obtenidas a
partir de dichas palabras son valoradas un
20 % menos).
La estrategia establecida en el módulo
REL de no realizar una TA de la pregunta,
que por otro lado es el objetivo real que persigue el sistema BRILI, se lleva a cabo gracias
al análisis de la pregunta en su lenguaje original y el uso del módulo ILI de EuroWordNet
(Vossen, 1998).
A continuación se muestra un ejemplo del
proceso realizado por el módulo REL:
Pregunta 75 del CLEF 2006: In
which year was the Football World Cup
celebrated in the United States?
SBs: [SN Football World Cup] + [SV to
celebrate] + [SP in [SN United States]]
Palabras Clave: Football World Cup
celebrate United States
Además, BRILI, con el objetivo de mejorar la búsqueda de las respuestas, descarta algunas palabras de las preguntas. Por ejemplo,
en la pregunta siguiente las palabras “can” y
“be” no son utilizadas en la localización de
las posibles respuestas.
Pregunta 33 del CLEF 2004: How
can an allergy be treated?
SBs: [SV to treat] + [SN allergy]
Palabras Clave: treat allergy
3.4.
presidente
ILI
Módulo de Referencia Entre
Lenguas
En está sub–sección se describe el módulo
de Referencia Entre Lenguas (REL) el cual se
encarga de traducir las palabras clave de las
pregunta a la lengua en la que se va a realizar
la búsqueda de posibles respuestas.
El módulo REL estable enlaces de referencia entre las lenguas que forman la BR
bilingüe. Dicho módulo recibe como entrada
las palabras clave detectadas en la fase de
Análisis de la Pregunta. Con el objetivo de
ilustrar el proceso, veamos el siguiente ejemplo (Figura 2) en donde se muestran las referencias establecidas por el módulo REL para
la palabra clave “president”.
Cómo se aprecia en el ejemplo, el módulo
LER encuentra más de una referencia en Castellano para la palabra inglesa “president”.
Pregunta 101 del CLEF 2004: What
army occupied Haiti?
BS: [SN army] + [SV to occupy] + [SN
Haiti]
Tipo de Respuesta Esperada grupo
Palabras Clave: army occupy Haiti
1
30
http://www.wordreference.com
Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI
Referencias :
Patrón sintáctico: [SN (“Presidente Francés”), aposición [SN (SOLUCIÓN)]] + [SV (“inaugurar”)] + [SN
“Eurotunel”)]
- army 7→ ejército
- occupy 7→ absorber ocupar atraer
residir vivir colmar rellenar ocupar
llenar
Respuesta Candidata: Jacques Chirac
- Haiti 7→ Haitı́
4.
Principales BS utilizados en la BR:
[SN ejército] + [SV ocupar (verbo más
valorado)] + [SN Haitı́]
3.5.
4.1.
Entorno de Evaluación
Para llevar a cabo la evaluación del sistema que en este artı́culo se presenta, se han
utilizado los conjuntos de 200 preguntas de
las tareas de BR de las ediciones del CLEF
2004, 2005 y 2006 (en inglés y en castellano) y el conjunto de documentos en Castellano (“EFE 1994–1995 Spanish corpora”) propuesto por el CLEF para realizar las búsquedas de las soluciones. El corpus propuesto
proporciona un marco de trabajo adecuado
para la evaluación de los sistemas de BR.
El conjunto de preguntas está compuesto principalmente por “factoid questions”
y “definition questions”. Las “factoid questions”son preguntas basadas en hechos, solicitan el nombre de una persona, una localidad, el dı́a que ocurrió algo, etcétera.
Módulo de Selección de
pasajes Relevantes
El módulo de Selección de pasajes Relevantes se basa en el uso de la herramienta de
RI, IR–n (Llopis y Vicedo, 2001).
IR–n recibe como entrada las palabras clave traducidas por el módulo REL, por ejemplo, en la pregunta 92 del CLEF 2006, “Where is Interpol’s headquarters? ”, IR-n recibe
las palabras “Interpol” y “comandancia”.
El sistema IR–n proporciona una lista de
pasajes relevantes en donde el sistema aplicará la búsqueda de respuestas candidatas.
3.6.
Resultados Experimentales
Módulo de Extracción de la
Respuesta
4.2.
La fase final del sistema BRILI se realiza en el módulo Extracción de la Respuesta.
Dicho módulo usa los BS de la pregunta y
diferentes conjuntos de patrones sintácticos
(según el tipo de respuesta espera) con información léxica, sintáctica y semántica para
localizar respuestas candidatas.
En el ejemplo siguiente se muestra el proceso completo de BR donde la aplicación de
un patron de localización de respuestas es detallada.
Análisis de Resultados
El objetivo de estos experimentos es evaluar y discutir la bondad de la estrategia
de BR bilingüe diseñada e implementada en
BRILI. Para realizar este análisis se proporcionan la precisión del sistema en su ejecución
bilingüe inglés–castellano y monolingüe castellano. Más delante, se comparan los resultados con los actuales sistemas de BR bilingüe
presentados de la pasada edición del CLEF
2006.
En el cuadro 4 se muestra la precisión2 del
sistema BRILI (ver filas 2,4 y 6). A su vez,
estos resultados se comparan con la ejecución
monolingüe en castellano (ver filas 1, 3 y 5) y
con las presiciones obtenidas por los sistemas
que en la actualidad forman el estado de la
cuestión de la BR bilingüe (ver filas 7, 8 y 9).
Cuando se compara la precisión obtenida
en las tareas de BR bilingüe con las ejecuciones monolingües en Castellano, se aprecia que el decremento sufrido en la precisión global del sistema BRILI está al rededor
Pregunta 70 del CLEF 2005: Which
French president inaugurated the Eurotunnel?
SB: [SN French president] + [SV to
inaugurate]+ [SN Eurotunnel]
Tipo de Respuesta Esperada persona
Principales BS utilizados en la BR:
[SN presidente francés] + [SV inaugurar]+ [SN Eurotunel]
2
Para calcular la precisión de nuestros sistemas se
han considerado las respuestas correctas y las respuestas inexactas cuando éstas contienen más información
que la requerida por la pregunta.
Frase de los documentos: ... el Presidente Francés, Jacques Chirac, inauguró el Eurotunel ...
31
Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno
Sistema
1
2
AliQAn
BRILI
3
4
AliQAn
BRILI
5
6
AliQAn
BRILI
Participantes en
(Whittaker et al., 2006)
(Bowden et al., 2006)
(Garcı́a-Cumbreres et al., 2006)
7
8
9
Conjunto de Datos
CLEF 2004
200 Preguntas castellano
200 Preguntas inglés
CLEF 2005
200 Preguntas castellano
200 Preguntas inglés
CLEF 2006
200 Preguntas castellano
200 Preguntas inglés
CLEF 2006 (Magnini et al., 2006)
200 Preguntas inglés
200 Preguntas inglés
200 Preguntas inglés
Precisión ( %)
41.5
33.5
51.5
42.5
50.5
44
6
19
19.5
Cuadro 1: Evaluación
sin ningún tipo de traducción.
Los experimentos realizados sobre los conjuntos de preguntas oficiales de las ediciones
del CLEF 2004, 2005 y 2006 justifican nuestra estrategia.
En la actualidad se está diseñando e implementando la integración de un reconocedor de entidades con el objetivo de detectar y
clasificar entidades para ası́ poder establecer
las necesidades de traducción de las mismas.
Por ejemplo, en la pregunta 059 del CLEF
2006, What is Deep Blue?, la entidad “Deep
Blue”no deberı́a ser traducida.
A su vez, se está incorporando conocimiento multilingüe de Wikipedia3 con el objetivo de traducir entidades nombradas y ampliar las colecciones bilingües de organizaciones y lugares.
del 17 %. Este dato revela y justifica la calidad del método implementado en BRILI, ya
que, como se mostró en la pasada edición del
CLEF (Magnini et al., 2006), la precisión de
las tareas bilingües inglés–castellano se establecido en alrededor de un 50 % menos que
la precisión obtenida por los sistemas de BR
monolingüe Castellana.
Además, comparando con el resto de sistemas que en la actualidad desarrollan la tarea bilingüe que en esta sección se discute,
y que han participado en la pasada edición
del CLEF 2006, el sistema BRILI obtiene
mejores resultados (BRILI ha quedado en la
primera posición en la tarea de BR bilingüe
inglés–castellano en el CLEF 2006).
5.
Conclusiones y Trabajos
Futuros
Bibliografı́a
En este articulo, la estrategia de BR bilingüe inglés–castellano diseñada e implementada dentro del sistema BRILI ha sido
detallada y evaluada.
El sistema BRILI reduce el uso de la TA
con el objetivo de evitar el efecto negativo
que causan este tipo de estrategias en la precisión global de los sistemas de BR. En el sistema BRILI se introducen dos mejoras que
intentan alcanzar dicho objetivo: i) El sistema considera más de una traducción por palabra gracias a los diferentes synsets de cada
palabra que están referenciados por el módulo ILI de EuroWordNet; ii) Al contrario que
los actuales sistemas de BR, el análisis de la
pregunta se realiza en su lenguaje original,
Acebo, S., A. Ageno, S. Climent, J. Farreres, L. Padró, R. Placer, H. Rodriguez,
M. Taulé, y J. Turno. 1994. MACO:
Morphological Analyzer Corpus-Oriented.
ESPRIT BRA-7315 Aquilex II, Working
Paper 31.
Bowden, M., M. Olteanu, P. Suriyentrakorn,
J. Clark, y D. Moldovan. 2006. LCC’s
PowerAnswer at [email protected] 2006. In
Workshop of Cross-Language Evaluation
Forum (CLEF), September.
Ferrández, A., M. Palomar, y L. Moreno.
1999. An Empirical Approach to Spanish
3
32
http://www.wikipedia.org/
Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI
question answering system. ACM Trans.
Inf. Syst, 21:133–154.
Anaphora Resolution. Machine Translation. Special Issue on Anaphora Resolution In Machine Translation, 14(3/4):191–
216.
Roger, S., S. Ferrández, A. Ferrández, J. Peral, F. Llopis, A. Aguilar, y D. Tomás.
2005. AliQAn, Spanish QA System at
CLEF-2005.
In Workshop of CrossLanguage Evaluation Forum (CLEF).
Ferrández, S. y A. Ferrández. 2006. Crosslingual question answering using inter lingual index module of eurowordnet. Advances in Natural Language Processing.
Research in Computing Science. ISSN:
1665-9899, 18:177–182, February.
Sacaleanu, B. y G. Neumann. 2006. Dfkilt at the clef 2006 multiple language
question answering track.
In Workshop of Cross-Language Evaluation Forum
(CLEF), September.
Ferrández, S. y A. Ferrández. 2007. The
negative effect of machine translation on
cross–lingual question answering. Proceedings of the CICLing 2007, LNCS 4394,
páginas 494–505, February.
Schmid, H. 1995. TreeTagger — a language
independent part-of-speech tagger. Institut fur Maschinelle Sprachverarbeitung,
Universitat Stuttgart.
Ferrández, S., S. Roger, A. Ferrández,
A. Aguilar, y P. López-Moreno. 2006. A
new proposal of Word Sense Disambiguation for nouns on a Question Answering
System. Advances in Natural Language
Processing. Research in Computing Science. ISSN: 1665-9899, 18:83–92, February.
Sutcliffe, R.F.E., K. White, D. Slattery,
I. Gabbay, y M. Mulcanhy. 2006. Crosslanguage French-English Question Answering using the DLT System at CLEF 2006.
In Workshop of Cross-Language Evaluation Forum (CLEF), September.
Garcı́a-Cumbreres, M.A., L.A. Ureña-López,
F. Martı́nez-Santiago, y J.M. PereaOrtega. 2006. BRUJA System. The University of Jaén at the Spanish task of
CLEFQA 2006. In Workshop of CrossLanguage Evaluation Forum (CLEF),
September.
Tomás, D., J.L Vicedo, E. Bisbal, y L. Moreno. 2006. Experiments with LSA for Passage Re-Ranking in Quesion Answering.
In Workshop of Cross-Language Evaluation Forum (CLEF), September.
Vossen, P. 1998. Introduction to eurowordnet. Computers and the Humanities,
32:73–89.
Gillard, L., L. Sitbon, E. Blaudez, P. Bellot, y M. El-Béze.
2006.
The
LIA at [email protected]
In Workshop of Cross-Language Evaluation Forum
(CLEF), September.
Whittaker, E.W.D., J.R. Novak, P. Chatain,
P.R. Dixon, M.H. Heie, y S. Furui. 2006.
CLEF2005 Question Answering Experiments at Tokyo Institute of Technology.
In Workshop of Cross-Language Evaluation Forum (CLEF), September.
Llopis, F. y J.L. Vicedo. 2001. Ir-n, a passage
retrieval system. In Workshop of CrossLanguage Evaluation Forum (CLEF).
Magnini, B., D. Giampiccolo, P. Forner,
C. Ayache, V. Jijkoun, P. Osevona,
A. Peñas, , P. Rocha, B. Sacaleanu, y
R. Sutcliffe. 2006. Overview of the CLEF
2006 Multilingual Question Answering
Track. In Workshop of Cross-Language
Evaluation Forum (CLEF), September.
.
Martı́nez, T., E. Noguera, R. Muñoz y F. Llopis. 2005. Web track for CLEF2005 at
ALICANTE UNIVERSITY. In Workshop of Cross-Language Evaluation Forum
(CLEF), September.
Moldovan, D.I., M. Pasca, S.M. Harabagiu,
y M. Surdeanu. 2003. Performance issues and error analysis in an open-domain
33
Fusión de Respuestas en
la Búsqueda de Respuestas Multilingüe
Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda
Laboratorio de Tecnologías del Lenguaje, Depto. Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y Electrónica, México.
{rmaceves, mmontesg, villasen}@inaoep.mx
Resumen: El presente trabajo describe los principales retos de los sistemas de Búsqueda de
Respuestas (BR) Multilingües. Concretamente se aborda el problema de la combinación o
fusión de respuestas candidatas provenientes de búsquedas en colecciones en diferentes
idiomas. Este trabajo compara diferentes técnicas de fusión, propuestas en otras áreas de
tratamiento multilingüe, a la problemática específica de la BR. A partir del análisis de los
resultados se discuten las características esenciales que deberá considerar un método de
fusión orientado a la BR multilingüe.
Palabras clave: Búsqueda de Respuestas Multilingüe, Fusión de respuestas, CLEF.
Abstract: This paper describes the main challenges of multilingual question answering. In
particular, it focuses on the problem of answer fusion, which concerns the combination of
answers obtained from collections in different languages. Basically, it compares a set of
techniques for answer fusion, previously used in other multilingual tasks, in the problem of
multilingual question answering. On the basis of the achieved results, we discuss the
essential characteristics for an answer fusion method to be especially suited to the task of
multilingual question answering.
Keywords: Multilingual Question Answering, Answer Fusion, CLEF.
1
Introducción
Los sistemas de búsqueda de respuestas (BR)
son aquellos que responden de manera concisa
a preguntas concretas formuladas en lenguaje
natural. Uno de los principales retos que
afrontan en la actualidad estos sistemas es el
multilingüísmo, situación en la cual se desea
que el sistema de BR responda a preguntas
formuladas en un idioma diferente al de la
colección de búsqueda. Bajo tal situación es
posible distinguir dos tipos de sistemas de BR:
los sistemas translingües y los multilingües. Un
sistema translingüe es aquel donde la colección
de búsqueda está en un idioma diferente al de la
pregunta. Y un sistema multilingüe realiza la
búsqueda de la respuesta en dos o más
colecciones, todas ellas en idiomas diferentes.
ISSN: 1135-5948
Cada uno de estos sistemas involucra
diferentes retos. El presente trabajo aborda uno
de los desafíos que los sistemas BR
multilingües deben resolver.
Un sistema de BR multilingüe puede ser
visto como un conjunto de sistemas de BR
monolingües trabajando de manera coordinada,
donde cada sistema se dedica a la extracción de
respuestas bajo una colección de búsqueda en
particular. Por supuesto, dos pasos más son de
vital importancia: la traducción de la pregunta a
los diferentes idiomas de las colecciones de
búsqueda; y la combinación (o fusión) de las
respuestas entregadas por cada sistema de BR
monolingüe. La figura 1 muestra un esquema
de un sistema de BR multilingüe.
Durante la traducción de la pregunta a
diferentes idiomas el principal problema es
disminuir el impacto negativo de la traducción
© Sociedad Española para el Procesamiento del Lenguaje Natural
Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda
funcionamiento consiste en: (i) la pregunta –
formulada en un lenguaje fuente– es traducida
al lenguaje de la colección de búsqueda –el
lenguaje destino; y (ii) la traducción se entrega
a un sistema de BR monolingüe afín al lenguaje
destino. Dada la naturaleza de las preguntas,
comúnmente no se realiza la traducción de la
respuesta al lenguaje fuente.
Los
primeros
sistemas
translingües
implementaban el módulo de traducción
utilizando directamente un traductor automático
(Echihabi et al., 03; Jijkoun et al., 04; Perret,
04). En estos primeros sistemas se pudo notar
que el impacto del error en la traducción era
considerable. Para disminuir este impacto se
propusieron métodos alternos. Un primer
enfoque consiste en asegurar la correcta
traducción de los términos claves de la
pregunta. Es el caso del trabajo de (Tanev et al.,
2004) donde, apoyándose en diccionarios
bilingües y EuroWordNet, genera su propia
traducción. Otro enfoque, consiste en utilizar
dos o más traductores. Esta idea se basa en la
suposición de que el acuerdo entre ellos tendrá
mayores probabilidades de ser correcto. Por
ejemplo, el método de (Laurent et al., 05)
realiza una traducción triangulada usando al
inglés como idioma pivote. Otro ejemplo es el
trabajo de (Sutcliffe et al., 05), el cual genera
una traducción término-por-término combinado
dos traductores diferentes y un diccionario.
Finalmente, también encontramos otros trabajos
que buscan medios pertinentes para resaltar el
acuerdo entre los traductores. Por ejemplo,
(Neuman & Sacaleanu, 05) construyen una
bolsa de palabras expandida usando los
términos de diferentes traducciones de la
pregunta, así como sus sinónimos extraídos de
EuroWordNet. Otro ejemplo, es el trabajo de
(Aceves-Pérez, et al. 07) el cual reconstruye
una nueva traducción a partir de las secuencias
comunes entre varios traductores.
Respecto a los sistemas de BR multilingüe
existe, en nuestro conocimiento, únicamente el
trabajo de (García-Cumbreras et al., 06). En
éste se propone un sistema de BR basado en un
subsistema de Recuperación de Información
Multilingüe. Sin embargo, en la parte
experimental sólo se presentan resultados para
el caso monolingüe del español.
automática. Una solución a este problema
consiste en emplear 2 o más traductores para
posteriormente, a partir de diferentes criterios,
elegir la mejor traducción, o crear una nueva
reformulación. Detalles de estos
métodos
pueden consultarse en (Aceves-Pérez et al., 07)
Con las n traducciones, tantas como
colecciones de búsqueda existan, se realiza
cada una de las búsquedas monolingües
correspondientes.
Finalmente, con el conjunto de listas
ordenadas
de
respuestas
candidatas,
provenientes de los sistemas de BR
monolingües, se inicia el paso de fusión. El
objetivo de este último paso, es la integración
de las respuestas en una única lista ordenada.
Esta integración deberá considerar tanto el
orden de las respuestas en las listas, así como su
repetida aparición en ellas. El objetivo central
de este trabajo es el análisis del
comportamiento de las técnicas de fusión,
propuestas en otras áreas de tratamiento
multilingüe, a la problemática específica de la
BR. Para ello, se han aplicado algunas de las
técnicas de fusión básicas y se han analizado y
comparado sus resultados.
El resto del artículo está organizado de la
siguiente manera. La sección 2 presenta el
trabajo relacionado tanto en sistemas de BR
translingües y multilingües, así como en las
técnicas de fusión propuestas en la
Recuperación de Información Multilingüe. La
sección 3 presenta brevemente las estrategias
más prometedoras para la fusión de listas de
respuestas. La sección 4 describe los
experimentos realizados y analiza los resultados
alcanzados. Finalmente, la sección 5 presenta
las conclusiones de este trabajo.
2
Trabajos relacionados
Dado el gran interés en el desarrollo de los
sistemas de BR, a partir del año 2003 el CrossLanguage Evaluation Forum (CLEF) inicia la
evaluación de sistemas monolingües y
translingües de BR en idiomas europeos
(Magnini et al., 03).
En la actualidad podemos encontrar muchos
ejemplos de sistemas de BR translingües. La
arquitectura clásica de estos sistemas consta de
dos componentes: un módulo de traducción de
la pregunta y un sistema de BR monolingüe. Su
36
Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe
Pregunta
Módulo de
Traducción
Módulo de
Traducción
pregunta
lenguaje x
Sistema de
BR
Módulo de
Traducción
pregunta
lenguaje y
Doctos
lenguaje x
Sistema de
BR
Respuestas
candidatas
lenguaje x
pregunta
lenguaje z
Doctos
lenguaje y
Respuestas
candidatas
lenguaje y
Sistema de
BR
Doctos
lenguaje z
Respuestas
candidatas
lenguaje z
Fusión de
respuestas
Respuestas
Figura 1. Esquema general de un sistema de BR multilingüe
Una conclusión que podemos extraer de
estos métodos es que la búsqueda en diferentes
colecciones permite mejorar el comportamiento
de los sistemas de BR.
Por otro lado, el problema de la fusión de
listas de respuestas –provenientes de diferentes
colecciones en diferentes idiomas– no ha sido
abordado en el contexto de Búsqueda de
Respuestas. Los trabajos más cercanos realizan
búsquedas en más de una colección, siempre en
el mismo idioma, y aplican diferentes técnicas
para combinar (o fusionar) las respuestas
provenientes de cada colección. Por ejemplo,
los trabajos de (Echihabi et al., 03, Jijkoun et
al., 04) realizan búsquedas en secuencia sobre
las diferentes colecciones, donde la lista de
respuestas calculada en el paso previo es
confirmada (o filtrada) por la búsqueda
subsiguiente. (Chu-Carroll, 03) también realiza
búsquedas en varias colecciones, todas ellas en
inglés, una vez que obtiene las 5 respuestas
candidatas con mayor calificación de cada una
de las colecciones, las mezcla y reordena de
acuerdo a su calificación, si existe alguna
respuesta en más de una colección sus
calificaciones se suman (véase la estrategia
CombSum en la siguiente sección). En (Sangoi
y Mollá, 04) la búsqueda de respuestas se
realiza sobre la Web recuperando extractos con
diferentes motores de búsqueda. Estos extractos
son pesados de acuerdo a la eficiencia del motor
de búsqueda. Posteriormente se combinan, y
realizando un cálculo estadístico sobre las
entidades nombradas, se reordenan.
3
Fusión de respuestas candidatas
La idea central de este trabajo consiste en
evaluar algunos de los métodos tradicionales
utilizados por los sistemas de Recuperación de
Información Multilingüe (CLIR por sus siglas
en inglés) al colocarlos en el contexto de la BR
multilingüe. Cabe señalar que no se trata de
problemas idénticos, la problemática de la
fusión de listas de documentos en CLIR tiene
por objetivo crear una nueva lista de
documentos donde los más relevantes, sin
importar su idioma, estén en las primeras
posiciones de la lista. En la BR multilingüe el
orden de las primeras posiciones es en extremo
importante. Existe una gran diferencia dar la
respuesta correcta en la primera posición, a
darla en la segunda o quinta posición. A
continuación se describen brevemente las
estrategias de fusión tradicionales propuestas
dentro de la CLIR.
RoundRobin. Esta estrategia toma la respuesta
de más alta calificación de cada una de las listas
y las coloca alternadamente en la nueva lista.
Posteriormente, toma las segundas mejor
37
Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda
calificadas y las coloca en la nueva lista. Esta
operación se repite sucesivamente hasta
terminar las listas. En este caso, las respuestas
duplicadas son descartadas.
4
Experimentos y Resultados
En esta sección se muestran los resultados al
evaluar las estrategias de fusión mencionadas
en la sección anterior. A continuación se
describen los diferentes recursos usados en los
experimentos.
RSV (Raw Score Value). Esta estrategia toma
en cuenta las calificaciones de cada respuesta
determinadas en la fase anterior. Las listas de
respuestas se mezclan en una única lista y
reordenándose de acuerdo a dicha calificación.
Cuando una respuesta aparece en más de una
lista, se suman sus calificaciones.
4.1
Recursos
Las colecciones de búsqueda. Se usaron 3
colecciones de búsqueda en tres idiomas
diferentes, todas ellas de notas periodísticas. La
colección en español con 454,045 documentos
(aprox. 1Gb.), la de francés con 129,806
documentos (325 Mb), y la de italiano con
157,558 documentos (350 Mb). Las colecciones
corresponden a las utilizadas en el CLEF 2005.
CombSum. Esta técnica de fusión, propuesta
por (Lee, 97), puede considerarse como una
combinación entre RoundRobin y RSV. Este
método asigna una calificación de 21-i a las 21
primeras respuestas de cada una de las listas –
ordenadas descendentemente– siendo i la
posición de la respuesta. Cualquier respuesta
después de la posición 21 se le asigna una
calificación de 0. De esta forma, la primera
respuesta (en todas las listas) queda con una
calificación de 20, la segunda con 19 y así
sucesivamente. Finalmente, las listas se
mezclan y se reordenan atendiendo a la nueva
calificación. En caso de que una respuesta se
encuentre en más de una lista sus calificaciones
se suman.
El conjunto de pregunta y respuestas. Para la
selección de las preguntas y sus respuestas se
tomó como base el corpus Multi-eight del
CLEF. De este corpus se extrajeron preguntas
para cada uno de los tres idiomas. Se tuvo
especial cuidado en seleccionar preguntas cuya
respuesta estaba en las listas de respuestas
otorgadas por los sistemas de BR monolingües.
De esta forma se creó un conjunto de 170
preguntas. Para poder evaluar el alcance de las
estrategias de fusión se identificó el
subconjunto de preguntas que tienen respuesta
en una sola colección de búsqueda, así como el
subconjunto de preguntas cuya respuesta está
presente en más de una colección de búsqueda.
Como es de suponer, es precisamente en este
segundo subconjunto de preguntas que las
estrategias de fusión tendrán un mayor impacto.
La tabla 1 muestra la distribución de preguntas
contestadas por colección de búsqueda.
CombMNZ. Esta técnica, también propuesta
por (Lee, 97), es una variante de la anterior. En
este caso se asigna a cada respuesta una
calificación tal como se describe en CombSum,
pero esta calificación es multiplicada por el
número de colecciones en la que se encontró
dicha respuesta.
Como puede observarse estas estrategias
aprovechan de diferente forma la información
de las listas. En el caso de RoundRobin, la
estrategia más simple, se da prioridad al orden
relativo en las listas y no se aprovecha la
aparición repetida de una respuesta. Por otro
lado, esta estrategia también es sensible al
orden en que se procesan las listas. Dando los
mejores lugares en la lista final a las respuestas
de la primera lista de respuestas procesada. Las
otras tres estrategias revisadas abordan estos
inconvenientes buscando esquemas de pesado
que mejoren el ordenamiento final.
El sistema de BR monolingüe. El sistema de
BR utilizado fue el sistema TOVA (Montes-yGómez et al., 05), un sistema basado
únicamente en información léxica, lo que lo
hace prácticamente independiente del idioma.
Este sistema obtuvo la mejor posición en el
ejercicio monolingüe en italiano, y la segunda
mejor posición en el ejercicio monolingüe en
español del CLEF 2005.
38
Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe
Colección
Español
Francés
Italiano
Español-Francés
Español-Italiano
Francés-Italiano
Español-Francés-Italiano
español, en este caso si se utilizó un traductor
automático (Systran). Finalmente, se han
aplicado las diferentes técnicas de fusión a las
tres listas.
En la tabla 2 se muestran los resultados
obtenidos con cada estrategia de fusión,
distinguiendo la precisión calculada a la
primera, a la tercera y a la quinta posición. A
manera de referencia se incluyó la precisión
obtenida en el ejercicio monolingüe en español
(última fila).
No. Preguntas
37 (21%)
21 (12%)
15 (9%)
20 (12%)
25 (15%)
23 (14%)
29 (17%)
Tabla 1. Distribución de preguntas en función
de la(s) colección(es) donde se encuentran sus
respuestas.
4.2
Método
RSV
RoundRobin
CombSum
CombMNZ
Monolingüe
Evaluación
El criterio de evaluación de relevancia de las
respuestas es el mismo que el propuesto en el
CLEF. Dado que el objetivo de nuestro sistema
de BR multilingüe es mejorar la precisión, se
tomó como punto de referencia (baseline) el
comportamiento del sistema de BR en su
versión monolingüe para el español.
La precisión es la cantidad de preguntas
respondidas correctamente en relación a la
cantidad total de preguntas. Para observar con
mayor claridad el comportamiento de las
diferentes estrategias se midió la precisión a
una, tres y cinco posiciones. Para el caso de tres
o cinco posiciones, la pregunta se considera
correctamente respondida si la respuesta
apropiada se encuentra entre las primeras tres o
cinco respuestas candidatas. Cabe resaltar que
el proceso de evaluación se realizó de manera
manual evitando errores debido a la necesidad
de un apareo perfecto.
4.3
1a.Pos.
3a.Pos
5a.Pos.
0.44
0.45
0.42
0.42
0.45
0.61
0.68
0.66
0.62
0.57
0.69
0.74
0.75
0.70
0.64
Tabla 2. Precisión con los diferentes métodos
de fusión de respuestas.
Como puede observarse en la tabla 2, los
mejores resultados se alcanzaron con el método
de RoundRobin, incluso superando los
resultados del sistema monolingüe con
precisión a 3 y 5 posiciones. Sin embargo, este
resultado fue inesperado, ya que este método no
considera la redundancia en las listas,
característica que si aprovechan los demás
métodos. Por otro lado, es claro que este
método
sí
permite
aprovechar
la
complementariedad entre las listas de
respuestas, propiedad que los otros métodos
sopesan de manera más indirecta.
Otra observación relevante es respecto al
comportamiento del método RSV. Este método
reordena las respuestas en función de la
puntuación calculada en los pasos anteriores.
Como puede advertirse el método RSV no
permite extraer más respuestas correctas de las
que se obtienen con el ejercicio monolingüe, de
ahí la importancia de tratar de hacer
comparables las calificaciones de las repuestas
de las diferentes listas, como lo demuestran los
resultados de los métodos CombSum y
CombMNZ.
Por último, respecto a los resultados
alcanzados por CombSum y CombMNZ se nota
un mejor comportamiento que el experimento
monolingüe con precisión a 3 y 5 posiciones.
Una probable explicación del porqué no lo
mejoran en la precisión a la 1ª posición sería los
problemas durante la traducción automática de
las respuestas de italiano y francés al español.
Experimentos
Los experimentos realizados están orientados a
evaluar el comportamiento de las técnicas de
fusión sobre diferentes listas de respuestas
candidatas en diferentes idiomas.
El primer paso consistió en obtener las listas
de respuestas candidatas. Para ello se realizaron
tres corridas monolingües: una en español, otra
en francés y una última en italiano. Cabe
señalar que las preguntas usadas en las 3
corridas del sistema de BR fueron las mismas
pero en diferentes idiomas. Las preguntas se
tomaron directamente del corpus para evitar el
ruido por la traducción automática de las
preguntas.
El siguiente paso consistió en traducir las
listas de respuestas en francés e italiano al
39
Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda
el impacto de una mala traducción (usando, por
ejemplo, varios traductores), e (iii) integrar en
el esquema de fusión la calificación otorgada
por los sistemas de BR monolingües.
Hay que recordar que las listas de respuestas
son de unas cuantas palabras y en muchas
ocasiones entidades nombradas, situación que
complica su correcta traducción.
Método
RSV
RoundRobin
CombSum
CombMNZ
1a.Pos.
3a.Pos
5a.Pos.
0.49
0.51
0.48
0.52
0.67
0.77
0.77
0.73
0.73
0.84
0.83
0.80
Agradecimientos
Este trabajo fue parcialmente financiado por el
CONACYT bajo el proyecto 43990 y con la
beca 184663. También agradecemos al CLEF
por los recursos proporcionados.
Tabla 3. Precisión con los diferentes
métodos de fusión al considerar únicamente las
preguntas con respuesta en más de una
colección.
Bibliografía
Aceves-Pérez R., Montes-y-Gómez M,
Villaseñor-Pineda L, 2007. Enhancing
Cross-Language Question Answering by
Combining Multiple Question Translations.
Lecture Notes in Computer Science, Vol.
4394, Springer 2007.
Como se mencionó en la sección anterior, se
identificó el subconjunto de preguntas cuyas
respuestas podían encontrarse en más de una
colección. La tabla 3 muestra los resultados
alcanzados con los métodos de fusión sobre este
subconjunto de preguntas. Como era de
esperarse se tienen mejores precisiones que al
tomar todas las preguntas. Los métodos
CombSum
y
CombMNZ
mejoran
su
comportamiento, ya que estos métodos
aprovechan la repetición y complementariedad
de las listas de respuestas. Sin embargo, es
nuevamente notorio el comportamiento del
método de RoundRobin.
5
Chu-Carroll J., Czuba K.,Prager A.J.,
Ittycheriah A. 2003. In question answering,
two heads are better than one. Proceedings
of the 2003 Conference of the North
American Chapter of the Association for
Computational Linguistics on Human
Language Technology - Volume 1.
Edmonton, Canada. 2003.
Echihabi A., Oard D., Marcu D. y Hermjakob
U.,
2003.
Cross-language
question
answering at the USC Information Sciences
Institute. Lecture Notes in Computer Science
Vol. 3237, Springer 2004.
Conclusiones
En este trabajo se expusieron los principales
desafíos en la construcción de sistemas de BR
Multilingües y se abundó sobre el problema de
fusión de listas de respuestas en diferentes
idiomas. Finalmente, se evaluaron las técnicas
de fusión usadas comúnmente en los sistemas
de Recuperación de Información Multilingües.
Con estos experimentos se demostró la
factibilidad y utilidad de los sistemas de BR
multilingües, ya que se obtienen mejores
precisiones a 3 y 5 posiciones. Sin embargo, es
claro que los métodos de fusión tradicionales no
colocan en la primera posición la respuesta
correcta. Creemos que esto se debe
fundamentalmente al error introducido por una
mala traducción de las respuestas y, en menor
medida, a la cantidad de respuestas
consideradas en el proceso de fusión. De ahí la
necesidad de proponer un nuevo método de
fusión especifico a esta problemática. Este
método
deberá:
(i)
considerar
la
complementariedad de las listas, (ii) disminuir
García-Cumbreras M. A., Ureña-López L. A.,
Martínez-Santiago F., Perea-Ortega J. M.
2006. BRUJA System. The University of
Jaén at the Spanish Task of CLEFQA 2006.
In Working Notes of CLEF 2006, Alicante,
España. 2006.
Jijkoun V., Mishne G., Rijke M., Schlobach S.,
Ahn D., Muller K., 2004. The University of
Amsterdam at [email protected] 2004. In Working
Notes of CLEF 2004, Bath, UK, 2004.
Laurent D., Séguela P., and Nègre S., 2005
Cross lingual question answering using
QRISTAL for CLEF 2005. In Working
Notes CLEF 2005. Vienna, Austria. 2005.
Lee J., 1997. Analysis of Multiple Evidence
Combination, 20th annual ACM SIGIR
Conference Proceedings, 1997.
Magnini B., Romagnoli S., Vallin A., Herrera
J., Peñas A., Peinado V., Verdejo F. and
40
Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe
Rijke M., 2003. In Working Notes of CLEF
2003, Trondheim, Norway, 2003.
Montes-y-Gómez, M., Villaseñor-Pineda, L.,
Pérez-Coutiño, M., Gómez-Soriano, J. M.,
Sanchis-Arnal, E. & Rosso, P., 2005.
INAOE-UPV Joint Participation in CLEF
2005: Experiments in Monolingual Question
Answering. In Working Notes of CLEF
2005, Vienna, Austria, 2005.
Neumann G. and Sacaleanu B., 2005. DFKI’s
LT-lab at the CLEF 2005 multiple language
question answering track. In Working Notes
CLEF 2005, Vienna, Austria. 2005.
Perret L., 2004. Question answering system for
the French. Lecture Notes in Computer
Science, Vol. 3491, 2005.
Sangoi Pizzato L. A., and Molla-Aliod D.,
2005. Extracting Exact Answers using a
Meta Question Answering System. In
Proceedings of the Australasian Language
Technology Workshop 2005, Sydney,
Australia, 2005.
Sutcliffe R., Mulcahy M., Gabbay I.,
O’Gorman A., White K., Slatter D., 2005.
Cross-Language French-English Question
Answering using the DLT System at CLEF
2005. In Working Notes CLEF 2005.
Vienna, Austria. 2005.
Tanev H, Negri M., Magnini B., and
Kouylekov M., 2004. The DIOGENE
question answering system at CLEF-2004.
In Working Notes of CLEF 2004, Bath UK.
2004.
41
QALL-ME: Question Answering Learning technologies in a
multiLingual and multiModal Envinroment ∗
Rubén Izquierdo, Oscar Ferrández,
Sergio Ferrández, David Tomás
José Luis Vicedo, Patricio Martı́nez,
y Armando Suárez
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
{ruben, ofe, sferrandez, dtomas, vicedo, patricio, armando}@dlsi.ua.es
Resumen: En este documento presentamos el proyecto QALL-ME, relacionado con
las tecnologı́as de los sistemas de información. El proyecto tiene un duración de 36
meses y esta financiado por la Unión Europea y será llevado a cabo por 7 instituciones. El objetivo general es establecer una infraestructura compartida para la
Búsqueda de Respuestas en un dominio abierto multilingüe y multimodal para dispositivos móviles. Con las necesidades de información actuales de la sociedad, se
atisba un mercado potencial enorme de los distintos objetivos que se persiguen en
el QALL-ME.
Palabras clave: Proyecto QALL-ME, Búsqueda Respuestas dominio abierto, multilingualidad , multimodalidad, dispositivos móviles
Abstract: In this paper, the QALL-ME project, related to the Information Systems Technologies, is introduced. The project is 36 months long, it is founded by
the European Union and it will carry out by 7 institutions. The main goal is to establish a shared infrastructure for multilingual and multimodal open domain Question
Answering for mobile phones. Taking into account the current information needs of
the society, the different aims pursued by the project are expected to have a big
potential market.
Keywords: QALL-ME project, open domain Question Answering, multilinguality,
multimodality, mobile devices
1.
Introducción
“¿Dónde puedo comer paella esta noche?”.
Responder a este tipo de preguntas se ha convertido recientemente en una oportunidad de
negocio real, con una gran serie de servicios
que van desde la tradicional atención al cliente hasta una oferta cada vez mayor de asistencia basadas en la web. El departamento de
Lenguajes y Sistemas Informáticos de la Universidad de Alicante participa en el proyecto
europeo QALL-ME, junto a seis instituciones
de otros tres paı́ses miembros de la Unión Europea (Italia, Alemania y Reino Unido), en
el que se está desarrollando una infraestructura informática a través del teléfono móvil
para que cualquier turista o ciudadano de
∗
Este trabajo ha sido llevado a cabo por el consorcio QALL-ME, el Sexto Programa Marco de Investigación de la Unión Europea (UE), referencia: FP6IST-033860. Los autores agradecen a la UE su apoyo
económico, ası́ como a los integrantes del consorcio,
por su fructı́fera colaboración. Para más información
sobre el consorcio QALL-ME visite la página web del
proyecto, http://qallme.itc.it/
ISSN: 1135-5948
uno de estos cuatro paı́ses pueda acceder instantáneamente a diferentes informaciones relacionadas con el sector servicios, ya sea una
pelı́cula en el cine, un teatro o un restaurante
de un tipo determinado de comidas.
Actualmente, los portales de voz, servicios
que ofrecen acceso a información contenida
en webs a través de voz, están experimentando un incremento exponencial en popularidad. Estos servicios suministran a los usuarios una amplia gama de información: horarios, previsiones meteorológicas, información
de tráfico, eventos culturales y sociales, etc.
Uno de los factores más valorados en la demanda es el dinamismo, es decir, los usuarios requieren y solicitan información completamente actualizada. Precisamente mantener
toda esta compleja información actualizada,
junto a las tareas de recopilación de nueva información, es la tarea más cara y costosa de
los portales de voz y de los sistema de información basados en web.
El proyecto QALL-ME, es un proyecto
© Sociedad Española para el Procesamiento del Lenguaje Natural
Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Vicedo, Patricio Martínez, Armando Suárez
de 36 meses de duración, financiado por la
Unión Europea y que será llevado a cabo
por un consorcio de siete instituciones, cuatro de ellas académicas, y las otras tres compañı́as industriales. El objetivo es establecer una infraestructura compartida para la
Búsqueda de Respuestas (Question Answering, QA) en dominio abierto multilingüe y
multimodal para dispositivos móviles. El proyecto experimentará con el potencial del QA
de dominio abierto y su evaluación en el contexto de la búsqueda de información desde
dispositivos móviles, un escenario multimodal que incluye el habla natural como entrada, y la integración de respuestas textuales,
mapas, imágenes y videos cortos como salida. El dominio seleccionado está representado por el conjunto de eventos locales de una
ciudad, normalmente disponibles a través de
sitios web especializados, periódicos o publicaciones locales.
2.
rencia de las tecnologı́as de recuperación de
información que sustentan algunos motores
de búsqueda como Yahoo o Google, QA no
devuelve un conjunto relevante de documentos para la consulta especificada, sino que
devuelve la respuesta concreta a la pregunta realizada. Ésta es una caracterı́stica importante de los sistemas de QA, permiten
el tratamiento de preguntas bien formuladas
en lenguaje natural en lugar de secuencias
de palabras inconexas (Recuperación de Información) o plantillas fijas (Extracción de
Información). Se considera que la tecnologı́a
actual de QA está lo suficientemente madura como para pasar del simple tratamiento de preguntas sobre hechos concretos (factual questions), a otras más complejas con
una interacción más natural y conocimiento más profundo. Desde el punto de vista
de aplicación, QA está reconocida como una
de las tecnologı́as de mayor interés para la
Web Semántica(McGuinness, 2004), que requerirá tanto del uso de aplicaciones de lenguaje natural como de técnicas de razonamiento basadas en la explotación intensiva
del conocimiento.
La Búsqueda de Respuestas
En 1999 se estableció un foro para la
evaluación y comparación de sistemas de
Búsqueda de Respuestas dentro de la serie
de Conferencias TREC1 , relacionadas con la
Recuperación de Textos. La investigación en
sistemas de Búsqueda de Respuesta se incremento con la aparición de este foro, a pesar
de que, en principio, éste solo estaba dirigido
a sistemas que trabajaran en inglés. En otra
serie de conferencias, CLEF2 , relacionadas
también con sistemas de Recuperación de Información, se extendió el ámbito a otras lenguas, incluido el español, y de nuevo se motivó la investigación en sistemas de Búsqueda
de Respuestas. La tarea de Búsqueda de Respuestas dentro de el foro CLEF empezó en
2003, y desde entonces, el esfuerzo se ha centrado en añadir el tratamiento de nuevas lenguas, principalmente europeas, y añadir innovaciones (complejidad de preguntas, tratamiento de lenguas distintas entre pregunta y
respuesta, etc)siempre sin perder la esencia
original de la tarea.
La Búsqueda de Respuestas en dominio
abierto (open domain Question Answering)
es la principal tecnologı́a que hay detrás del
proyecto. QA toma una pregunta formulada
en lenguaje natural y devuelve una respuesta
desde una colección de fuentes de información (documentos o bases de datos). A dife1
2
2.1.
La Búsqueda de Respuestas
en Dispositivos Móviles
Como hemos comentado, el propósito es
demostrar la viabilidad de las soluciones de
QA propuestas a través de su integración en
un escenario de aplicación concreto: Búsqueda de Respuestas sobre información de eventos locales desde dispositivos móviles. Dicha
integración seguirá cuatro direcciones relacionadas principalmente con la explotación de la
Web Semántica y las Tecnologı́as de Interfaces Multimodales para QA. En concreto, los
objetivos de integración corresponden con:
Servicios Web para QA
Tecnologı́a de Wrappers
QA hablado
QA multimodal
Se diseñará una arquitectura de software
distribuido para optimizar las comunicaciones entre los módulos de software y alcanzar un balance computacional adecuado entre
cliente y servidor. También se llevará a cabo un desarrollo de herramientas (como por
ejemplo los Interfaces de Programación de
Aplicaciones) que posiblemente seguirán las
http://trec.nist.gov
http://www.clef-campaign.org
44
QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Environment
rios. Por ejemplo, un estado del arte sobre los
últimos avances en la complejidad de las preguntas que maneja el sistema (como las preguntas del tipo “¿cómo...?”; el desarrollo de
una arquitectura basada en web para la realización de QA interlingua (con la pregunta en
una lengua y la respuesta en otra lengua diferente); la implementación de sistemas de QA
en tiempo real para aplicaciones concretas; la
integración del contexto espacial y temporal
tanto para la interpretación de la respuesta
como para la extracción de la misma; el desarrollo de un marco robusto para la aplicación de algoritmos de aprendizaje automático mı́nimamente supervisados en tareas de
QA y la inclusión de tecnologı́as desarrolladas de reconocimiento automático del habla
en el marco de la Búsqueda de Respuestas en
dominio abierto.
La infraestructura que se desea desarrollar
en el QALL-ME para la realización de QA
multilingüe y multimodal, debe incluir éstas
entre otras funcionalidades:
recomendaciones de Organizaciones Internacionales, como el W3C.
3.
Objetivos y Desarrollo del
Proyecto
El objetivo principal del proyecto QALLME es establecer una infraestructura compartida para QA en dominio abierto y multilingüe y multimodal desde dispositivos móviles. Podemos diferenciar entre objetivos tecnológicos y objetivos de investigación. Entre
los objetivos tecnológicos cabe resaltar:
- QA multimodal, multilingüe y de dominio abierto. Se pretende desarrollar
un sistema de QA que sea capaz de interactuar con el usuario por medio de
distintos tipos de fuentes (texto, voz,
imágenes) y haciendo uso de tecnologı́as
aplicables a cualquier tipo de dominio.
En cuanto a la multilingüalidad, el proyecto QALL-ME desarrollará un estructura común de QA en varias lenguas. Para ello se integraran una única infraestructura independiente del lenguaje las
distintas herramientas dependientes de
cada idioma que desarrollen cada uno de
los grupos participantes.
Recopilar, y actualizar de forma automática información relevante extraı́da
desde distintas fuentes de datos (estructurados y no estructurados)
Procesar automáticamente preguntas
complejas de forma multilingüe y teniendo en cuenta tanto el contexto espacial
como el temporal en el que se realizan
- QA que permita la interacción con el
usuario y sensible al contexto. Para
ser capaces de evaluar los módulos desarrollados en un escenario real, y tomar
al usuario como el foco de atención, se
pretende desarrollar las funcionalidades
necesarias para integrar la información
contextual (espacial y temporal) en el
proceso de búsqueda de la respuesta. Se
pretende utilizar este tipo de información tanto en el proceso de interpretación de la pregunta, como en la fase de
presentación de la respuesta.
Facilitar el acceso multimodal al sistema,
utilizando texto escrito o voz
Presentar al usuario una información
correcta, completa y concisa, extraı́da
desde distintas fuertes, con distintos formatos y lenguas
Combinar distintos formatos en la presentación de información al usuario: textos, mapas, imágenes. . .
- Tecnologı́as de aprendizaje automático para QA. El objetivo es implementar componentes de QA basados en algoritmos de aprendizaje automático mı́nimamente supervisados que proporcionen
resultados satisfactorios con una cantidad limitada de datos de entrenamiento.
Se usará este tipo de técnicas en las fases
de: análisis de la pregunta, reformulación
de la pregunta y extracción y validación
de la respuesta.
La Figura 1 muestra los módulos principales que componen la parte centra de la arquitectura distribuida de QALL-ME.
Todos los módulos se implementarán como
Servicios Web utilizando lenguajes estándar
para la definición de Servicios. El planificador
central se encargará de la interpretación multilingüe de las consultas. Este módulo recibe
la consulta como entrada, procesa la pregunta en el lenguaje en el que se formula y, de
acuerdo a sus parámetros de contexto, dirige la búsqueda de la información requerida
El otro tipo de objetivos son los de investigación, entre éstos podemos encontrar va45
Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Vicedo, Patricio Martínez, Armando Suárez
se de especificaciones funcionales y de usuario (WP1 y WP2), una fase de desarrollo (WP3. . . WP7) seguida de la realización
de demostraciones y experimentos de campo (WP8) y una fase de evaluación (WP9).
El final de los 3 ciclos (meses 12, 24 y 36)
se corresponden con las 3 principales etapas
intermedias del proyecto que mostrarán el estado de desarrollo del QALL-ME.
El módulo de diseminación (WP10), aparte de las publicaciones académicas y en prensa, comprende el mantenimiento de la web del
proyecto3 y la organización de varios workshops, uno a la finalización del proyecto, y el
Workshop on Advances in Question Answering, dentro del programa de actividades del
SIGIR de 20074 (por confirmar).
Figura 1: Arquitectura principal QALL-ME
hacia un Extractor de Respuestas local. La
extracción de la respuesta se realiza sobre diferentes representaciones semánticas de la información que dependen del tipo de la fuente original de datos desde la que se obtiene
la respuesta (si la fuente es texto plano, la
representación semántica será un documento
anotado en XML; si la fuente es un sitio web,
la representación semántica será una base de
datos construida por un wrapper ). Finalmente, las respuestas se devuelven al Planificador
Central que determina cual es el mejor medio
para representar la información solicitada.
El proyecto tiene una duración de 36 meses como hemos comentado y está organizado
en 11 módulos de trabajo:
4.
Potencial de Mercado
La búsqueda de respuestas se ha convertido en un área de investigación de rápido
crecimiento y con un gran potencial comercial. El análisis y proceso de preguntas formuladas en lenguaje natural en entornos basados en Internet, sobre la base de una infraestructura distribuida para aplicaciones de
QA que emplee tecnologı́a avanzada del lenguaje de carácter multilingüe, permitirá la
aparición de entornos orientados a la recuperación, evaluación y navegación de información tremendamente accesibles y adaptados al usuario final. Las funcionalidades de
los sistemas de QA, especialmente aquellos
métodos que soportan la comunicación interactiva con los usuarios, permitirán su integración en aplicaciones relacionadas con la
comunicación móvil, cuya principal forma de
interacción es el lenguaje natural.
Se atisba un mercado potencial enorme
en las diferentes direcciones perseguidas en
el proyecto QALL-ME. Tal y como sugiere
el crecimiento exponencial que los servicios
de suministro de información (call centers)
están experimentando, se necesitará de servicios de búsqueda y recuperación de información de alta precisión que reduzcan de forma
drástica el tiempo que un empleado necesita para localizar y suministrar dicha información a los usuarios del servicio. En consecuencia, la habilidad de gestionar de forma automática incluso una pequeña parte de
todas estas solicitudes de información ofrece
WP0: Dirección del proyecto
WP1: Requerimientos de usuario
WP2: Diseño de la arquitectura del sistema
WP3: Interpretación multilingüe de la
pregunta
WP4: Acceso a los datos
WP5: Extracción multilingüe de la respuesta
WP6: Interacción multimodal
WP7: Integración del sistema
WP8: Demostración y exhibición
WP9: Evaluación
WP10: Diseminación y explotación
El proyecto se divide en 3 ciclos de desarrollo y pruebas. Cada ciclo incluye una fa-
3
4
46
http://qallme.itc.it
http://www.sigir2007.org
QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Environment
nuevas oportunidades de negocio para aquellas empresas relacionadas con las telecomunicaciones y con la prestación de servicios de
información web.
5.
Universidad de Alicante
Departamento de Lenguajes y Sistemas
Informáticos
España
http://www.ua.es
Contact Person: José Luis Vicedo
University of Wolverhampton
Computational Linguistics Group
United Kingdom
http://www.wlv.ac.uk
Contact Person: Ruslan Mitkov
El Consorcio QALL-ME
Comdata S.p.A.
Torino - Italy
http://www.comdata.it
Contact Person: Giorgio Sangalli
El consorcio QALL-ME está compuesto
por siete instituciones de cuatro paı́ses miembros de la Unión Europea: Italia, Reino Unido, España y Alemania). Cuatro de los participantes son instituciones académicas (ITCirst, University of Wolverhampton, University of Alicante, and DFKI) mientras que
las otras son empresas radicadas en Italia.
Además, se ha conseguido que otras empresas e instituciones se interesen por el proyecto como, por ejemplo, LaNetro5 que, amablemente, está proporcionando los datos sobre la
provincia de Alicante que servirán para desarrollar y evaluar los sistemas.
Ubiest S.p.A.
Treviso - Italy
http://www.ubiest.com
Contact Person: Nicola De Mattia
Waycom S.r.l.
Albisola Superiore, Savona - Italy
http://www.waycom.it
Contact Person: Paolo Rossi
Bibliografı́a
McGuinness, Deborah L. 2004. Question answering on the semantic web. IEEE Intelligent Systems, 19(1):82–85.
ITC-irst, Project Coordinator
TCC-division
Povo, Trento – Italy
http://www.itc.it/irst
Project Manager: Bernardo Magnini
DFKI
Language Technology research lab Germany
http://www2.dfki.de/web
Contact Person: Guenter Neumann
5
http://www.lanetro.com
47
Web-based Selection of Optimal Translations of Short Queries∗
Paolo Rosso and Davide Buscaldi
Matteo Iskra
DSIC, Universidad Politécnica de Valencia
DISI, Università di Genova
Camino de Vera, s/n Valencia (Spain) Via Dodecaneso, 12 Genova (Italy)
{prosso,dbuscaldi}@dsic.upv.es
[email protected]
Resumen: En este artı́culo se presenta una técnica para la selección de la mejor
traducción de una pregunta entre un conjunto de traducciones obtenidas desde diferentes traductores automáticos. La técnica está basada en el cálculo de la entropı́a de
la pregunta respeto a la web. La presente técnica se puede utilizar en aplicaciones
multilingüe como la Búsqueda de Respuestas multilingüe.
Palabras clave: Traducción Automática, Búsqueda de Respuestas Multilingüe,
Minerı́a de Datos en la Web
Abstract: In this paper we present a technique for the selection of the best translation of a short query among a set of translation obtained from different translators.
The technique is based on the calculation of the information entropy of the query
with respect to the web. This technique may be used in multilingual applications
such as the Cross-Lingual Question Answering.
Keywords: Machine Translation, Multilingual Question Answering, Web Mining
1
Introduction
Nowadays, it is possible to find in the web
many Machine Translation (MT) tools that
are commonly used to translate small pieces
of text. Our assumption is that these tools
can be used effectively in the Question Answering (QA) field, particularly for the CrossLanguage task. If we consider QA as a specialized Information Retrieval (IR) task, the
analogue of a user query in QA is a short,
concise question. It has been demonstrated
that the translations generated by typical
web-based MT tools are more precise for
short sentences than longer ones (Mellebeek
et al., 2005). Therefore, the characteristics
of shortness and conciseness of QA queries
let us suppose that they can be translated
effectively by a web MT tool, and subsequently improve the results of existing CrossLanguage QA systems.
A great amount of the errors of multilingual QA systems are due to the translation
phase. It has been observed that bad translations account for 15% up to 50% of the total
number of errors, depending on the question
type, in one of the best monolingual QA system (Laurent, Séguéla, y Nègre, 2006) that
participated in the latest CLEF1 evaluation
exercise.
∗
We would like to thank the TIN2006-15265-C06-04
research project for partially supporting this work.
1
http://www.clef-campaign.org
ISSN: 1135-5948
Various methods have been developed recently in order to minimize the error introduced by MT in IR-related fields. In particular, the idea of combining different MT systems has already been used succesfully for the
cross-lingual Ad-Hoc retrieval task (Di Nunzio et al., 2005). The most common form
of combination of different MT systems is
the selection of the best translation from a
set of candidates (Callison-Burch y Flournoy,
2001; Larosa et al., 2005), although there
have been also proposals for the combination of fragments from different translations
(Aceves-Pérez, Villaseñor-Pineda, y Montes,
2006).
The technique for the selection of the best
translation that we present in this paper is
based on the calculation of the entropy of
the translations with respect to the language
model in the web. It resembles a common
practice among internet users, that is to exploit web search engines in order to check
the spelling of a word or the correctness of
a sequence of words; for instance, if someone
has a doubt whether “logic programming” is
more correct than “logical programming” or
not, he can search the web and make a choice
depending on the resulting page count. This
can be done over the pieces of the translations
in order to check their correctness against the
“web English” language model.
In the following section we introduce the
© Sociedad Española para el Procesamiento del Lenguaje Natural
Paolo Rosso, Davide Buscaldi, Matteo Iskra
adopted technique, in Section 3 we describe
the experiments carried out and present the
obtained results.
2
If we substitute p(i) with Formula 2 in Formula 1, we obtain:
H(X) = −K
Description of the Technique
Due to the fact that in the web usually
c(bi ) >> c(ti ) , we used the logarithmic scale
for page counts, and used a linear normalization factor as K, obtaining the formula that
we used to calculate the entropy of a translation X:
w = (w1 , . . . , wn )
A trigram chain is, therefore, defined as the
set of trigrams T :
n
1 X log c(ti )
(log c(ti ) − log c(bi ))
H(X) = −
n
log c(bi )
i=0
(4)
The selection of the best translation is
made on the basis of the H(X) calculated by
means of Formula 4. Given M translations of
a question q, we pick the translation m̄ such
that m̄ = arg maxm∈M H(m).
For instance, consider the following translations of the example above:
T = {(w1 , w2 , w3 ), (w2 , w3 , w4 ), . . .
. . . , (wn−2 , wn−1 , wn )}
For instance, let us consider the following Spanish translation of the English question“Who is the Chairman of the Norwegian Nobel Committee?”: “Quién es el Presidente del Comité Nobel noruego?”. Therefore, w =(“Quién”, “es”, “el”, “Presidente”,
“del”, “Comité”, “Nobel”, “noruego”), and
T = {(“Quién es el”), (“es el Presidente”), (“el Presidente del”), (“Presidente del Comité”), (“del Comité Nobel”),
(“Comité Nobel noruego”)}.
The information entropy was introduced
by Shannon (Shannon, 1948) and its general
formulation is:
H(X) = −K
p(i) log p(i)
1. “Quién es el Presidente del Comité Nobel noruego?”
2. “Quién es el Presidente del Comité
noruego Nobel?”
The trigram counts obtained from the
web (Google) are: The H(X) calculated for
Trigram
Quién es el
es el Presidente
el Presidente del
Presidente del Comité
del Comité Nobel
Comité Nobel noruego
del Comité noruego
Comité noruego Nobel
(1)
i=0
Where K is an arbitrary constant which depends on the problem, i is a fragment of a
message X of length n, and p(i) is the probability of the i-th fragment. In our case,
the message is represented by the translation,
and if we take into account trigrams, each
fragment i corresponds to the i-th trigram of
the translationd ti .
We decided to calculate the probability of
each trigrams by means of web counts. Let
us name c(x) the function that returns the
number of pages that contain the text fragment x in the web. Let us define the i-th
trigram ti = (wi , wi+1 , wi+2 ) and its root bigram as bi = (wi , wi+1 ). According to (Zhu
y Rosenfeld, 2001), the probability p(ti ) can
be estimated as:
p(ti ) =
c(ti )
c(bi )
(3)
i=0
Given a translation X of a question q, let
us define w as the sequence of n words that
compose the translation:
n
X
n
X
c(ti )
(c(ti ) − c(bi ))
c(bi )
Pages
271, 000
618, 000
8, 560, 000
1, 610, 000
468
328
355
73
Table 1: Web page counts for the trigrams of
the two translations of the example.
the first translation (the right one) is 2.454
and 2.219 for the second one; therefore, the
method correctly selects the best translation.
3
Experiments and Results
The experiments were carried out using the
set of 200 questions of the cross-lingual
English-Spanish task of CLEF-20052 . In the
(2)
2
50
http://clef-qa.itc.it/2005/
Web-based Selection of Optimal Translations of Short Queries
Category
date
location
measure
object
organization
person
not classified
CLEF exercises, questions are the same if the
target collection is the same; therefore, the
right (reference) translation of each question
was obtained by recurring to the monolingual
Spanish question set.
3.1
MT Systems
The MT systems used for the experiments were Systran3 , FreeTrans4 , Linguatec5 , Promt6 and Reverso7 .
The evaluation of the MT systems was
carried out by means of the BLEU (BiLingual Evaluation Understudy) (Papineni et
al., 2001), a measure currently used for the
evaluation of the MT systems at NIST8 . Basically, the BLEU counts the n-grams shared
by the candidate translation and the reference one. The degree of similarity returned
by the BLEU is a number comprised between 0 (completely different) and 1 (perfect
match). We calculated the average BLEU
score for each of the MT systems on the 200
questions in the CLEF 2005 test set and over
the DISEQuA corpus, consisting in 450 questions from CLEF 2003. Results are displayed
in Table 2.
System
Systran
Freetrans
Linguatec
Promt
Reverso
CLEF 2005
0.346
0.371
0.391
0.420
0.391
best BLEU
0.327
0.378
0.317
0.237
0.299
0.513
0.308
System
Promt
Promt
Reverso
FreeTrans
Reverso
Promt
Linguatec
Table 3: Best average BLEU scores, grouped
by question category, and system that obtained the best score.
3.2
Evaluation of the Web-based
Translation Selection
We used three different search engines to calculate the entropy of translations: Google9 ,
Yahoo10 and Ask11 . In order to compare the
quality of the English of the Internet with
the English of a static document collection,
we used also Lucene12 over the collection of
documents used in the CLEF 2005 monolingual Spanish QA track.
We calculated the average entropy, obtained by means of Formula 4, for both the
CLEF 2005 and DISEQuA test sets, using
the above search engines to obtain the web
count c(x) for trigrams and bigrams. Results
are shown in Table 4.
DISEQuA
0.282
0.333
0.311
0.363
0.352
S.Engine
Ask
Google
Lucene
Yahoo
Manual
Table 2: Average BLEU scores obtained by
each MT system over the 200 questions of the
CLEF 2005 test set and the 450 questions of
the DISEQuA corpus.
CLEF 2005
0.381
0.392
0.378
0.355
0.462
DISEQuA
0.325
0.332
0.313
0.344
n.a.
Table 4: Average BLEU score obtained with
the proposed selection technique, using the
different search engines for c(x) over the 200
questions of the CLEF 2005 test set and
the 450 questions of the DISEQuA corpus.
M anual: average entropy obtained by selecting at hand the best translation of each question.
As it can be noticed from Table 2, the
Promt system proved to be the more effective. Another remark that can be done is
that the questions of the DISEQuA corpus
seem to be more difficult to translate than
the ones of the CLEF 2005.
The results grouped by question category
(Table 3) show that some MT systems translate certain kinds of questions better than
other ones.
The “manual” heuristics can be considered as the maximum that could have been
obtained if the entropy correctly helped to individuate the right translation for each ques-
3
http://babelfish.altavista.com
http://www.freetranslation.com
5
http://www.linguatec.de
6
http://www.e-promt.com
7
http://www.reverso.net
8
http://www.nist.gov
4
9
http://www.google.com
http://www.yahoo.com
11
http://www.ask.com
12
http://lucene.apache.org
10
51
Paolo Rosso, Davide Buscaldi, Matteo Iskra
tion. This is not the case, as we can observe
how the manual selection obtains a 7% precision above the best result obtained with the
web-based selection. Nevertheless, the manual selection does not reach the 50% of the
translations, indicating that the translations
of these questions is particularly problematic.
We carried out an error analysis and discovered that in many cases the errors are due to
the presence of Named Entities(NEs), particularly abbreviations and proper nouns. In
many cases the NEs have to be translated
(for instance “United Nations” is translated
as “ONU” in Spanish), in other cases the
translation is wrong (for instance, the Italian car manufacturer FIAT becomes “salsa
de carne”, “mandato” o “autorización” for
some of the MT tools).
Notably, the best results obtained by
means of the proposed technique are all inferior to the Promt MT system, although with
the CLEF 2005 test set the web-based selection obtains a better average BLEU score
than all the remaining MT systems.
4
Callison-Burch, Chris y Raymond Flournoy.
2001. A program for automatically selecting the best output from multiple translation engines. En Proc. of the VIII Machine Translation Summit, Santiago de
Compostela, Spain.
Di Nunzio, Giorgio, Nicola Ferro, Gareth J.F.
Jones, y Carol Peters. 2005. Ad hoc track
overview. En CLEF 2005 Working Notes,
Vienna, Austria.
Larosa, Sabatino, Manuel Montes y Gómez,
Paolo Rosso, y Stefano Rovetta. 2005.
Best Translation for an Italian-Spanish
Question Answering System. En Proc. Of
Information Communication Technologies
Int. Symposium (ICTIS), Tetuan, Morocco.
Laurent, Dominique, Patrick Séguéla, y Sophie Nègre. 2006. Cross lingual question answering using qristal for clef 2006.
En CLEF 2006 Working Notes, Alicante,
Spain.
Mellebeek, Bart, Anna Khasin, Josef Van
Genabith, y Andy Way. 2005. Transbooster: Boosting the performance of
wide-coverage machine translation systems. En Proceedings of the EAMT 10th
Annual Conference, páginas 189–198, Budapest, Hungary.
Conclusions and Further Work
Although the best MT systems obtained better results than the web-based translation selection, some important conclusions can be
drawn: the use of the web does actually
prove better than a static collection, thanks
to the redundancy of the data. Another result is that the selection of a search engine is
important in order to obtain better results.
We have observed that QA questions contain
many Named Entities, and that MT tools
often fail to translate properly these NEs.
This can be addressed by recurring to specialized dictionary of abbreviations and proper
nouns. A further work may be the combination of such a dictionary together with the
selection technique improved by means of an
interpolated model for probability estimation
as proposed by (Zhu y Rosenfeld, 2001) for
the modeling of language in the world wide
web.
Papineni, K., S. Roukos, T. Ward, y J.W.
Zhu. 2001. Bleu: a method for automatic evaluation of machine translation.
Informe técnico, IBM Research Division,
Thomas J. Watson Research Center.
Shannon, Claude E. 1948. A mathematical
theory of communication. Bell Systems
Technical Journal, 27:379–423.
Zhu, Xiaojin y Ronald Rosenfeld. 2001. Improving trigram language modeling with
the World Wide Web.
Proc. of the
IEEE International Conference on Acoustics, Speech, and Signal Processing.
References
Aceves-Pérez, Rita M., Luis VillaseñorPineda, y Manuel Montes. 2006. Using N-gram Models to Combine Query
Translations in Cross-Language Question
Answering.
Lecture Notes in Computer Science, CiCLing 2006 Proceedings,
3878:453–457.
52
Técnicas léxico-sintácticas para el reconocimiento de
Implicación Textual ∗
Óscar Ferrández, Daniel Micol, Rafael Muñoz y Manuel Palomar
Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante)
Carretera San Vicente s/n 03690 Alicante España
{ofe, dmicol, rafael, mpalomar}@dlsi.ua.es
Resumen: Este artı́culo presenta dos aproximaciones para el reconocimiento del
fenómeno de implicación textual, basadas principalmente en similitudes léxicas y
árboles sintácticos. Dichas aproximaciones son fácilmente portables al reconocimiento de implicaciones textuales en diferentes idiomas. Se presentan resultados individuales para cada aproximación y además, se propone una votación simple entre
estos métodos y nuestro sistema previo (presentado en Second PASCAL Recognising
Textual Entailment), alcanzando una precisión del 63 %.
Palabras clave: Implicación textual, similitud léxica, árboles sintácticos
Abstract: This paper covers the recognition of textual entailment by means of different approaches based on lexical similarities and syntactic trees. These approaches
are easily portable to other languages. We present the achieved results for each
individual approach and we propose a simple voting strategy between these approaches and our previous system (presented in Second PASCAL Recognising Textual
Entailment), obtaining an accuracy rate of 63 %.
Keywords: Textual Entailment, lexical similarity, syntactic trees
1.
Introducción
La implicación textual define una relación entre dos expresiones en lenguaje natural. Estos pares de expresiones son definidos como texto e hipótesis, siendo el significado de la hipótesis el que debe ser inferido por el del texto. Resulta un tarea muy
compleja, e integra diferentes niveles de conocimiento lingüı́stico (Bar-Haim, Szpecktor, y
Glickman, 2005) como pueden ser el léxico,
sintáctico y semántico. Además,en el Procesamiento del Lenguaje Natural (PLN) este
fenómeno resulta extremadamente frecuente.
Tal complejidad ha quedado patente en las
dos ediciones de PASCAL Recognising Textual Entailment (RTE) (Dagan, Glickman, y
Magnini, 2005; Bar-Haim et al., 2006), las
cuales han introducido un marco común para la evaluación de implicaciones textuales.
Los sistemas actuales usan diferentes estrategias combinando una gran variedad de herramientas PLN. Por ejemplo, es un hecho contrastado que el uso de n-gramas y coincidencias entre palabras (Pérez y Alfonseca, 2005),
técnicas de tratamiento de árboles sintácticos
∗
Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME, dentro del Sexto
Programa Marco de Investigación de la Unión Europea con referencia FP6-IST-033860, y CICyT número
TIN2006-15265-C06-01.
ISSN: 1135-5948
(Katrenko y Adriaans, 2006), inferencia lógica (Bos y Markert, 2006; Tatu et al., 2006)
y algoritmos de aprendizaje automático para
la clasificación (Bos y Markert, 2006; Adams,
2006) resulta apropiado para afrontar esta tarea.
Este artı́culo presenta dos métodos independientes para resolver implicaciones textuales, uno basado principalmente en similitudes léxicas y otro que utiliza básicamente
árboles sintácticos. Las estrategias de comparación y medidas de similitud utilizadas,
dotan a los métodos de una fácil portabilidad a otros idiomas. Además, se presenta una
estrategia de votación entre ellos y nuestro
anterior sistema presentado en (Ferrández et
al., 2006). El objetivo de proponer métodos
independientes es afrontar la tarea desde diferentes puntos de vista (léxico y sintáctico)
y ası́, desde entornos más delimitados, poder
resolver mejor cada tipo de implicación. Una
vez conseguido, seremos capaces de fusionar
estos dos tipos de conocimiento de la manera
más adecuada posible.
El resto del artı́culo está organizado en
las siguientes secciones. La sección 2 introduce los diferentes métodos. La evaluación y
discusión de los resultados se muestran en la
sección 3, y por último, las conclusiones y
trabajos futuros se detallan en la sección 4.
© Sociedad Española para el Procesamiento del Lenguaje Natural
Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar
2.
Métodos
donde H es el conjunto que contiene los
elementos de la hipótesis y match(i):
Esta sección muestra los métodos desarrollados. Se detalla la aproximación basada en
similitudes léxicas junto con todas las medidas utilizadas, y además se especifica otro
método que contempla similitudes sintácticosemánticas entre árboles de dependencias.
2.1.
match(i) =
match(i) =
(2)
si ∃j ∈ T Lv(i, j) = 0,








arg máx
j∈T
si @j ∈ T Lv(i, j) = 0∧
∃k ∈ T Lv(i, k) = 1,
1
Lv(i, j)
otro caso.
(3)
donde Lv(i, j) representa la distancia de
Levenshtein entre las cadenas i y j. El
peso destinado cuando Lv(i, j) = 1 ha
sido obtenido empı́ricamente y los costes de inserción, borrado y sustitución
fueron pesados con una unidad.
· Emparejamiento de subsecuencias
consecutivas: el objetivo de esta medida es asignar un peso muy significativo
a la aparición de subsecuencias consecutivas de palabras entre la hipótesis y el
texto. Para el desarrollo de esta medida,
creamos todos los conjuntos posibles de
subsecuencias consecutivas de la hipótesis, desde de tamaño dos (que contengan
dos palabras) hasta subsecuencias del tamaño máximo de la hipótesis. Una vez
creados estos conjuntos intentamos emparejarlos con sus análogos correspondientes al texto. Cada emparejamiento
correcto supondrá la adición de una unidad en el peso final. La suma de los pesos obtenidos de los emparejamientos entre subsecuencias de un determinado tamaño es normalizada por el número de
conjuntos de subsecuencias consecutivas
de la hipótesis creados para esa longitud,
y a su vez estos pesos son acumulados y
normalizados por la tamaño de la hipótesis menos uno. Las siguientes ecuaciones
definen la medida:
match(i)
|H|
otro caso.

1








0,9
· Emparejamiento simple: consiste en
una técnica de matching simple entre
las palabras o tokens, lemas, stems o
palabras funcionales, dependiendo de la
estructura de datos utilizada, entre la
hipótesis y el texto. Es inicializado a cero y si un elemento de la hipótesis aparece también en el texto, se incrementará en una unidad, en caso contrario
no se producirá incremento. Al terminar
los emparejamientos, el peso obtenido es
normalizado dividiéndolo entre el número de elementos que posee la hipótesis.
La Ecuación 1 define esta medida.
EM P simple =

0
· Distancia de Levenshtein: similar a
la medida anterior, diferenciándose únicamente en el cómputo de la función
match(i), que en este caso es el siguiente:
El siguiente método (DLSITE-1 ) afronta
la tarea basándose en la extracción de un conjunto de medidas léxicas que muestren la similitud existente. A grandes rasgos, las medidas utilizadas se basan en las co-ocurrencias
entre las palabras del texto y la hipótesis y
en el contexto en el que aparecen.
El primer paso, anterior al cálculo de las
diferentes medidas léxicas, es tokenizar, lematizar, analizar morfológicamente y obtener
las stems de las palabras para cada uno de
los pares de textos. Completado este proceso, creamos diferentes estructuras de datos
que contengan el conjunto de palabras o tokens1 , lemas o stems. También creamos dos
estructuras adicionales, una que comprenda
sólo palabras funcionales2 y otra considerando sólo aquellas que por su carga semántica
son más relevantes3 . El siguiente paso es aplicar las medidas entre cada par de estructuras
pertenecientes a cada par texto-hipótesis. Los
siguientes párrafos detallan cada una de ellas.
i∈H
si ∃ j ∈ T i=j,
siendo T el conjunto referente al texto.
Basado en medidas léxicas
X

1
(1)
1
|H|
X
Se refiere a la palabra tal cual aparece en el texto.
Consideramos palabras funcionales a los verbos,
nombres, adjetivos, adverbios, números y fechas.
3
En este caso solamente los verbos y nombres.
2
LCSmatch =
54
f (SHi )
i=2
|H| − 1
(4)
Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual
descripción de las mismas y como han
sido integradas en el sistema.
donde SHi contiene las subsecuencias de
la hipótesis de tamaño i, y f (SHi ) se
representa en la Ecuación 5.
X
f (SHi ) =
· ROUGE-N: determina una cobertura
basada en n-gramas entre la hipótesis y
el texto (Ecuación 7).
match(j)
j∈SHi
|H| − i + 1
(5)
X
ROUGE-N =
siendo
match(i) =
Countmatch (gramn )
gramn ∈H
X
Count(gramn )
gramn ∈H

1
si ∃ k ∈ STi k=j,

0
otro caso.
(7)
(6)
donde n indica el tamaño de los ngramas (gramn ), Countmatch (gramn ) el
máximo número de n-gramas que aparecen en el texto y la hipótesis, y
Count(gramn ) el número total de ngramas que contiene la hipótesis. Los ngramas son creados a partir de los tokens, stems, lemas y palabras funcionales del texto y la hipótesis. Además, los
experimentos realizados con el corpus de
desarrollo determinaron que los valores
para n más apropiados son dos y tres.
en este caso STi representa el conjunto
que contiene las subsecuencias del texto
de tamaño i. La principal caracterı́stica de esta medida consiste en considerar
únicamente subsecuencias consecutivas,
asignando mayor relevancia cuanto mayor tamaño posea la secuencia de tokens,
lemas, stems o palabras funcionales consideradas. A su vez, las subsecuencias
consecutivas de un mismo tamaño son
tratadas con igual relevancia.
· ROUGE-L: se basa en obtener la subsecuencia común más larga (the Longest
Common Subsequence, LCS4 ) entre dos
textos, LCS(T, H). Una vez calculada,
la aplicamos basándonos en el cálculo de
la medida F para estimar la similitud:
· Tri-gramas: para esta medida, se crearon dos conjuntos que contuvieran todos los posibles tri-gramas de caracteres
correspondientes al texto y a la hipótesis. Creados estos conjuntos, todas las
ocurrencias de tri-gramas que aparecen
en ambos incrementan el peso acumulado final en una unidad. Por último, este
peso es normalizado por el número de
tri-gramas obtenidos de la hipótesis.
LCS(T, H)
|T |
LCS(T, H)
=
|H|
¡
¢
1 + β 2 · RLCS · PLCS
=
RLCS + β 2 · PLCS
RLCS =
PLCS
· Las medidas ROUGE: las medidas
ROUGE han sido previamente utilizadas para la evaluación automática
de resúmenes y traducción automática
(Lin, 2004). Considerando que las medidas ROUGE establecen diferentes situaciones de solapamiento entre textos obteniendo posibles similitudes léxicas entre ellos, y que dentro de la tarea de implicación textual el impacto de métricas
capaces de detectar y valorar dichas situaciones es muy aconsejable, decidimos
integrar dichas medidas a nuestro método. La implementación de estas medidas
se llevó a cabo tal y como se muestra
en (Lin, 2004). No obstante, en los siguientes párrafos se muestra una breve
FLCS
(8)
donde β = 1, y T y H son los conjuntos
del texto y la hipótesis, respectivamente.
· ROUGE-W: similar a ROUGE-L con
la diferencia de que utiliza una modificación de la LCS básica. Dicha modificación consiste en memorizar los tamaños
de los emparejamientos consecutivos y
quedarse con el mayor, W LCS(T, H).
Las ecuaciones basadas en la medida F
que la computan son las siguientes:
4
La subsecuencia común más larga no tiene por
qué ser una subsecuencia consecutiva.
55
Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar
µ
está compuesto por un conjunto de módulos
que se ejecutan secuencialmente, abordando
tareas de construcción de árboles, filtrado,
detección de árboles embebidos y cálculo de
similitud entre ellos.
Cada uno de los módulos del método propuesto (DLSITE-2 ) se describen en las siguientes subsecciones, numeradas según su
orden de ejecución. A pesar de que la descripción del método se realiza mediante un
ejemplo utilizando un análisis de dependencias para el inglés, la portabilidad a otros
idiomas serı́a totalmente plausible (ver sección 2.3).
¶
W LCS(T, H)
f (|T |)
µ
¶
W
LCS(T,
H)
−1
=f
f (|H|)
¡
¢
1 + β 2 · RLCS · PLCS
=
RLCS + β 2 · PLCS
RLCS = f −1
PLCS
FLCS
(9)
donde f −1 es la inversa de f , que debe
cumplir que f (x + y) > f (x) + f (y) para
todos los enteros positivos5 . En nuestros
experimentos hemos elegido f (k) = k 2 ,
f −1 (k) = k 1/2 y β = 1.
2.2.1. Construcción de árboles
Construye los árboles de dependencias
sintácticas correspondientes usando MINIPAR (Lin, 1998). Los tokens de la frase, junto
con su respectiva información gramatical, son
almacenados en una estructura de datos en
memoria que representa un árbol equivalente
al árbol de dependencias sintácticas.
· ROUGE-S: basada en skip-ngramas.
Un skip-ngrama es una combinación de
n palabras en el orden en que aparecen
en la frase, pero permitiendo saltos arbitrarios entre ellas. ROUGE-S mide los
emparejamientos entre los skip-ngramas
de la hipótesis y el texto, SKIPn (T, H),
y como las anteriores se computa como
sigue basándose en la medida F:
SKIPn (T, H)
C (|T |, n)
SKIPn (T, H)
=
C (|H|, n)
¡
¢
1 + β 2 · RLCS · PLCS
=
RLCS + β 2 · PLCS
2.2.2. Filtrado de los árboles
Construido el árbol, será conveniente descartar datos irrelevantes con el objetivo de
reducir el tiempo de respuesta y el ruido
de nuestro método. El Cuadro 1 muestra
las categorı́as gramaticales relevantes, aquellos elementos cuya categorı́a no esté en dicha lista serán eliminados. El árbol resultante tendrá la misma estructura que el original,
pero no contendrá palabras de parada ni tokens irrelevantes. La lista de categorı́as ignoradas está representada en el Cuadro 2.
RLCS =
PLCS
FLCS
(10)
donde β = 1, C es una función combinatoria y n indica la longitud de los
skip-gramas. Fueron desarrollados skipngramas con valores de n = 2 y n = 3,
ya que valores de n más altos producı́an
skip-ngramas con poco o ningún sentido.
Verbos
Verbo Have
Verbo Be
Be utilizado como verbo enlazante
Sustantivos
Números
Adjetivos
Adverbios
Modificadores sustantivo a sustantivo
Por último, todas estas medidas son interpretadas como caracterı́sticas para que un algoritmo de aprendizaje automático sea capaz
de juzgar las relaciones de implicación entre
cada par de textos. En nuestro caso, fue una
máquina de soporte vectorial (Support Vector Machine, SVM (Witten y Frank, 2005))
la encargada de realizar esta labor.
2.2.
Cuadro 1: Categorı́as relevantes.
Basado en árboles sintácticos
2.2.3. Subárboles embebidos
El siguiente paso de nuestro sistema consiste en determinar si el árbol de la hipótesis está embebido en el del texto. Para ello,
primero vamos a definir el concepto de árbol
embebido (Katrenko y Adriaans, 2006).
Definición 1: Árbol embebido Un árbol
El método propuesto en esta sección tiene como objetivo utilizar básicamente información sintáctica y de dependencias entre las palabras de una frase. Dicho método
5
Garantiza que emparejamientos consecutivos
consiguen mejores puntuaciones que no consecutivos.
56
Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual
Determinantes
Pre-determinantes
Post-determinantes
Cláusulas
Frases inflexivas
Preposiciones y frases preposicionales
Especificadores de frases preposicionales
Verbos auxiliares
Complementos
hasta C3 , N2 es el número de nodos desde C2
hasta C3 , y N3 es el número de nodos desde
C3 hasta la raı́z (ver Figura 1).
Root
N3
C3
N1
N2
Cuadro 2: Categorı́as gramaticales ignoradas.
C1
Figura 1: Distancia entre dos synsets.
T1 = (V1 , E1 ) está embebido en otro T 2 =
(V2 , E2 ) sii V1 ⊆ V2 y E1 ⊆ E2 .
En otras palabras, un árbol, T1 , está embebido dentro de otro, T2 , si todos los nodos
y ramas de T1 están presentes en T2 .
Tiene sentido reducir el nivel de exigencia
de dicha definición permitiendo la aparición
de nodos intermedios en las ramas del texto
que no estén presentes en la correspondiente
rama de la hipótesis, lo que significa permitir comparaciones parciales. Una coincidencia entre ambas ramas se producirá cuando
todos los nodos del primer árbol, denominado θ1 ∈ E1 , estén presentes en el segundo,
denominado θ2 ∈ E2 , y su respectivo orden
sea el mismo, permitiendo la posibilidad de
aparición de nodos intermedios que no estén
presentes en ambas ramas. Esto está descrito
en (Katrenko y Adriaans, 2006).
Para determinar si el árbol de la hipótesis está embebido en el del texto, realizamos
un proceso de comparación desde la raı́z hasta las hojas. Primero comparamos la raı́z de
ambos árboles, y si coinciden, procedemos
a comparar los hijos de dichos nodos. Para
añadir mayor flexibilidad a nuestro sistema,
no exigimos que el par de tokens sea exactamente idéntico. En lugar de esto, establecemos un umbral que representa el valor de
similitud mı́nima entre ellos. Esto es una diferencia entre nuestro método y el descrito
en (Katrenko y Adriaans, 2006). Dicha similitud se calcula utilizando la herramienta
WordNet::Similarity (Pedersen, Patwardhan,
y Michelizzi, 2004), y, concretamente, la medida de Wu-Palmer, tal como se define en la
Ecuación 11 (Wu y Palmer, 1994).
Sim(C1 , C2 ) =
2N3
N1 + N2 + 2N3
C2
Si el valor de la similitud es mayor o
igual que el umbral, el cual hemos establecido empı́ricamente en 80 %, consideraremos
al token de la hipótesis candidato a tener el
mismo significado que el token del texto, y
procederemos a comparar los nodos hijo del
árbol de la hipótesis. Por otro lado, si dicha
similitud es menor que el umbral, procederemos a comparar los nodos hijos de dicha raı́z
del árbol del texto con el actual nodo de la
hipótesis que estaba siendo analizado.
La comparación entre los árboles de dependencias sintácticas finalizará cuando todos los nodos de alguno de los dos árboles
hayan sido procesados. Si nuestro sistema ha
sido capaz de encontrar un nodo equivalente
para todos los pertenecientes a la hipótesis, el
árbol correspondiente estará embebido en el
del texto y decidiremos que hay implicación.
En caso contrario, procederemos a ejecutar el
siguiente módulo de nuestro método.
2.2.4. Comparación de árboles
Finalizada la detección de árboles embebidos, y si el resultado es negativo, procederemos a realizar una comparación entre el
árbol del texto y el de la hipótesis. Consiste
en localizar pares de tokens en ambos árboles cuyos lemas sean exactamente iguales, independientemente de que estén en la misma
posición dentro del árbol o no.
El peso asignado a un token que se encuentra en ambos árboles dependerá de la
similitud con el perteneciente al árbol complementario, su profundidad en el árbol de la
hipótesis y la relevancia del token. El primero de estos factores se calcula utilizando la
herramienta WordNet::Similarity. El segundo depende de un peso calculado empı́ricamente que asigna menos importancia a un
nodo cuanta más profundo esté (definido en
la Ecuación 12). Y el tercer factor asigna dife-
(11)
donde C1 y C2 son los synsets a calcular su
similitud, C3 es su superconcepto común más
cercano, N1 es el número de nodos desde C1
57
Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar
rente relevancia dependiendo de la categorı́a
gramatical. Los valores de cada categorı́a gramatical son también calculados empı́ricamente y se muestran en el Cuadro 3.
Categorı́a gramatical
Verbos
Sustantivos
Números
Be usado como verbo enlazante
Adjetivos
Adverbios
Modificadores sustantivo a sustantivo
Verbo Have
Verbo Be
ψ(τ, λ) =
(13)
Un requerimiento de la medida de similitud es no depender del tamaño de la hipótesis. Para ello, definimos la tasa de similitud
normalizada como muestra la Ecuación 14.
Peso
1,0
0,75
0,75
0,7
0,5
0,5
0,5
X
φ(ν)
ψ(τ, λ)
ν∈ξ
= X
ψ(τ, λ) = X
φ(β)
φ(β)
0,3
0,3
β∈λ
(14)
β∈λ
Una vez calculado el valor de la similitud,
ψ(τ, λ), éste será el que determinará si se produce o no implicación. Será necesario establecer un umbral apropiado que represente
la tasa de similitud mı́nima. En nuestros experimentos sobre el corpus de desarrollo este
umbral es establecido en 68.9 %, consiguiendo
este valor los mejores resultados.
El último factor otorga diferente grado de
relevancia dependiendo de la relación gramatical. El Cuadro 4 muestra los valores calculados empı́ricamente para cada relación.
Peso
1,0
1,0
1,0
1,0
0,5
2.3.
Aplicabilidad multilingüe
Uno de los objetivos de esta investigación
es aplicar el sistema propuesto a diversas lenguas e incluso detectar posibles implicaciones
entre lenguas, es decir disponer del par textohipótesis, el texto en un idioma, la hipótesis
en otro y detectar la implicación de significados. Para ello, tanto sólo serı́a necesario
adaptar una serie de herramientas especı́ficas
para cada lengua.
Respecto a los métodos y similitudes léxicas serı́a necesario disponer de un analizador morfológico, un lematizador y un stemmer, mientras que para detectar similitudes
sintácticas necesitarı́amos un analizador de
dependencias y un recurso léxico-semántico
como WordNet. En cuanto a las estrategias
de construcción y comparación de medidas
léxicas y árboles sintácticos se mantendrı́an
idénticas. Debido a la amplia gama disponible de recursos con estas caracterı́sticas, la
portabilidad de nuestro sistema a otras lenguas resultarı́a totalmente plausible. De hecho, y como objetivo para probar dicha portabilidad, tenemos previsto participar en la
tarea Answer Validation Exercise (Peñas et
al., 2006) (AVE) dentro del marco de las conferencias CLEF, consistente en detectar implicaciones textuales derivadas de validaciones de posibles respuestas obtenidas a partir
de sistemas de Question Answering.
Cuadro 4: Pesos asignados a cada relación.
Sean τ y λ los árboles de dependencias
sintácticas del texto y la hipótesis, respectivamente. Asumimos que hemos encontrado
un synset, β, presente en τ y en λ. Sea γ el
peso asignado a la categorı́a gramatical de β
(definida en Cuadro 3), σ el peso de su relación gramatical β (definido en Cuadro 4), µ
un valor calculado empı́ricamente que representa la diferencia de peso entre niveles del
árbol, y δβ la profundidad del nodo que contiene el synset β en λ. Definimos la función
φ(β) como se refleja en la Ecuación 12.
φ(β) = γ · σ · µ−δβ
φ(ν)
ν∈ξ
Cuadro 3: Pesos asignados a cada categorı́a.
Relación gramatical
Sujeto
Sujeto superficial
Objeto
Segundo objeto en distransitivos
Resto
X
(12)
El valor obtenido al calcular la expresión
de la Ecuación 12 representará la relevancia
de un synset. Los experimentos realizados demuestran que el valor óptimo para µ es 1,1.
Para un par (τ , λ), definimos el conjunto
ξ como aquél que contiene todos los synsets
presentes en ambos árboles, esto es, ξ = τ ∩
λ ∀α ∈ τ, β ∈ λ. Ası́ pues, la tasa de similitud
entre τ y λ será:
58
Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual
Sistema
(Hickl et al., 2006)
(Tatu et al., 2006)
(Zanzotto et al., 2006)
TEUA
(Adams, 2006)
DLSITE-1
(Bos y Markert, 2006)
DLSITE-2
...
(Ferrández et al., 2006)
overall
0.7538
0.7375
0.6388
0.6300
0.6262
0.6188
0.6162
0.6075
Precisión
IE
0.7300
0.7150
–
0.5300
0.505
0.5300
0.505
0.5050
(corpus de test)
IR
QA
0.7450
0.6950
0.7400
0.7050
–
–
0.6600
0.5800
0.595
0.685
0.6300
0.5550
0.660
0.565
0.6450
0.5950
SUM
0.8450
0.7900
–
0.7500
0.720
0.7600
0.735
0.6850
0.5563
0.4950
0.5800
0.5400
0.6100
Cuadro 5: Comparativa de resultados sobre el corpus de test de RTE-2.
3.
4.
Evaluación y resultados
Para evaluar nuestros métodos, el marco
más adecuado es el proporcionado en las dos
ediciones de PASCAL RTE Challenge. En
ambas se proporciona corpus de desarrollo
y test anotados manualmente manteniendo
una distribución equitativa entre los pares negativos y positivos extraı́dos de aplicaciones
como Extracción de Información (EI), Recuperación de Información (RI), Búsquedas de
Respuestas (BR) y Resúmenes automáticos
(SUM). Para ajustar los métodos a la tarea,
se utilizó los corpus de desarrollo de las dos
ediciones de RTE (RTE-1 y RTE-2), mientras
que la evaluación fue realizada con el corpus
de test propuesto en la segunda edición.
El Cuadro 5 muestra una comparativa con
los sistemas que participaron en RTE-2, en
nuestro caso la votación (TEUA) hubiese obtenido un cuarto puesto con una precisión de
63 %. Para realizar la votación entre los métodos de las secciones previas y el sistema anterior que poseı́amos, se implementó una estrategia simple estableciendo el resultado final
con el máximo de votos producidos.
Los resultados revelan que tanto los
métodos independientemente (DLSITE-1 y
DLSITE-2 ) como la estrategia de votación
conjunta resultan apropiados. El hecho de
tratar diferentes niveles lingüı́sticos de una
manera aislada, es un planteamiento más
adecuado que el que seguı́amos en nuestro
anterior sistema utilizando diversas fuentes
de conocimiento semántico. Por supuesto, los
diferentes conocimientos (léxico, sintáctico y
semántico) deben de ser utilizados de forma interrelacionada, pero teniendo un planteamiento previo e independiente para cada
uno de ellos será una labor menos tediosa y
mucho más acertada.
Conclusión y trabajos futuros
En este artı́culo se presentan dos métodos
para la resolución de implicaciones textuales. Estos métodos se basan en afrontar la
tarea desde un entorno cerrado. El primero
de ellos teniendo en cuenta únicamente similitudes léxicas y el segundo considerando
básicamente relaciones sintácticas. Las técnicas y medidas de similitud utilizas en ambos
métodos, permiten su portabilidad a otros
idiomas. El objetivo es desarrollar métodos
robustos capaces de resolver la tarea desde
diferentes puntos de vista, para a posteriori fusionar estos conocimientos en un único
sistema. Además, aprovechando el desarrollo
previo del sistema presentado en (Ferrández
et al., 2006), se propone una estrategia de
votación simple que mejore los resultados individuales de cada método.
Como trabajos futuros, se plantea la fusión de los dos métodos (léxico y sintáctico) de una manera colaborativa más que una
simple votación, por ejemplo de forma que
interactúen los diferentes niveles de análisis apoyándose entre sı́ para reconocer tipos
de implicaciones que pudieran afrontarse mediante información léxica y sintáctica. Con el
objetivo de valorar la portabilidad de dichos
métodos, se pretende llevar a cabo una evaluación sobre implicaciones textuales en diferentes idiomas e incluso implicaciones entre lenguas. Por otro lado, se pretende crear
otros métodos que tengan una mayor carga
semántica. Por ejemplo, la adición de sinónimos u otras relaciones semánticas, ası́ como
técnicas que ayuden a representar conocimiento como reconocedores de entidades y
etiquetadores de roles, podrı́an resultar de
gran ayuda siempre que sean utilizadas de la
manera adecuada.
59
Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar
Bibliografı́a
Lin, Chin-Yew. 2004. ROUGE: A Package for Automatic Evaluation of Summaries.
En Stan Szpakowicz MarieFrancine Moens, editor, Text Summarization Branches Out: Proceedings of the
ACL-04 Workshop, páginas 74–81, Barcelona, Spain, July. Association for Computational Linguistics.
Adams, Rod. 2006. Textual Entailment Through Extended Lexical Overlap. En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 128–133, Venice, Italy.
Bar-Haim, R., I. Szpecktor, y O. Glickman.
2005. Definition and analysis of intermediate entailment levels. En Proceedings of
the ACL Workshop on Empirical Modeling
of Semantic Equivalence and Entailment,
páginas 55–60, Ann Arbor, Michigan.
Lin, Dekang. 1998. Dependency-based Evaluation of MINIPAR. Workshop on the
Evaluation of Parsing Systems.
Peñas, Anselmo, Álvaro Rodrigo, Valentı́n
Sama, y Felisa Verdejo. 2006. Overview of
the Answer Validation Exercise 2006. En
Working Notes for the CLEF 2006 Workshop, Alicante, Spain.
Bar-Haim, Roy, Ido Dagan, Bill Dolan, Lisa Ferro, Danilo Giampiccolo, Bernardo
Magnini, y Idan Szpektor. 2006. The
Second PASCAL Recognising Textual Entailment Challenge. Proceedings of the Second PASCAL Challenges Workshop on
Recognising Textual Entailment.
Pedersen, Ted, Siddharth Patwardhan, y Jason Michelizzi. 2004. WordNet::Similarity
- Measuring the Relatedness of Concepts.
En Proceedings of the Nineteenth National Conference on Artificial Intelligence
(AAAI-04), San Jose, CA, July.
Bos, Johan y Katja Markert. 2006. When
logical inference helps determining textual
entailment (and when it doesn’t). En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 98–103, Venice, Italy.
Pérez, Diana y Enrique Alfonseca. 2005. Application of the Bleu algorithm for recognising textual entailments. En Proceedings
of the PASCAL Challenges Workshop on
Recognising Textual Entailment, páginas
9–12, Southampton, UK, April.
Dagan, Ido, Oren Glickman, y Bernardo
Magnini. 2005. The PASCAL Recognising Textual Entailment Challenge. En
Proceedings of the PASCAL Challenges
Workshop on Recognising Textual Entailment, páginas 1–8, Southampton, UK.
Tatu, Marta, Brandon Iles, John Slavick,
Adrian Novischi, y Dan Moldovan. 2006.
COGEX at the Second Recognizing Textual Entailment Challenge. En Proceedings of the Second PASCAL Challenges
Workshop on Recognising Textual Entailment, páginas 104–109, Venice, Italy.
Ferrández, Oscar, Rafael M. Terol, Rafael
Muñoz, Patricio Martı́nez-Barco, y Manuel Palomar. 2006. An approach based
on Logic Forms and WordNet relationships to Textual Entailment performance.
En Proceedings of the Second PASCAL
Challenges Workshop on Recognising Textual Entailment, páginas 22–26, Venice,
Italy.
Witten, Ian H. y Eibe Frank. 2005. Data Mining: Practical machine learning tools and
techniques. 2nd Edition, Morgan Kaufmann, San Francisco.
Wu, Zhibiao y Martha Palmer. 1994. Verb
Semantics and Lexical Selection. En Proceedings of the 32nd Annual Meeting of the
Associations for Computational Linguistics, páginas 133–138, Las Cruces, New
Mexico, United States of America.
Hickl, Andrew, Jeremy Bensley, John Williams, Kirk Roberts, Bryan Rink, y Ying
Shi. 2006. Recognizing Textual Entailment with LCC’s GROUNDHOG System.
En Proceedings of the Second PASCAL
Challenges Workshop on Recognising Textual Entailment, páginas 80–85.
Zanzotto, F.M., A. Moschitti, M. Pennacchiotti, y M.T. Pazienza. 2006. Learning
textual entailment from examples. En
Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual
Entailment, páginas 50–55, Venice, Italy.
Katrenko, Sophia y Pieter Adriaans. 2006.
Using Maximal Embedded Syntactic Subtrees for Textual Entailment Recognition.
Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual
Entailment, páginas 33–37.
60
Alineamiento de Entidades con Nombre usando distancia léxica1
Rafael Borrego Ropero
Víctor Jesús Díaz Madrigal
Dpto. Lenguajes y Sistemas Informáticos (Universidad de Sevilla)
{rborrego, vjdiaz }@lsi.us.es
Resumen: En este artículo se presenta un sistema para asistir en el etiquetado de entidades con
nombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticas
usadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, se
ha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajes
cercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar los
resultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir de
una secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma.
Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden ser
adaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común.
Palabras clave: Alineamiento, Etiquetado de entidades, Edit distance, Corpora bilingüe
Abstract: In this article a system is presented to help in labelling named entities and meaningful
words in bilingual parallel corpora. Besides the strategies used frequently in the alignment of
corpora based on word frequency and position, it has been taken advantage of the high
lexicographical similarity among words in nearby languages as Spanish and French to use the
algorithm Edit Distance. After studying the results of these techniques, a system of voting has
been defined that given a set of words in a language, an equivalent set in another language is
proposed. As these techniques are not based on a previous knowledge of the languages, they can
be used to label any pair of languages that share a common branch.
Keywords: Alignment, Name Entity Recognition, Edit distance, Bilingual corpora
1
Introducción
Dado un corpora bilingüe, el alineamiento de
textos [3] consiste en identificar qué partes - por
ejemplo: párrafos, frases o palabras - de un
corpus se corresponden con las del otro. En la
literatura se han propuesto diversas técnicas
para el alineamiento de corpora ya que es una
tarea de gran utilidad en la asistencia a la
traducción. En este caso, se propone usar
heurísticas aplicadas en el alineamiento de
corpora para relacionar entidades con nombre.
El reconocimiento de entidades con nombre [5]
(NER, Named Entity Recognition) es una tarea
de especial relevancia para la compresión de un
texto. El objetivo que persigue un sistema NER
es la identificación y clasificación en un texto
de todos aquellos sintagmas que hacen
referencia a nombres de personas, lugares y
organizaciones. La tarea NER es crucial en la
1
resolución de otros problemas más complejos
como la extracción de información.
En este artículo se mostrará cómo se pueden
mejorar los resultados en el alineamiento de
entidades con nombre y de palabras relevantes
en un determinado dominio aprovechando el
gran parecido que hay entre palabras de varios
idiomas con un tronco común. El sistema ha
sido probado sobre un corpora bilingüe con
varios centenares de frases en español y francés.
Los documentos originales son noticias en
francés de temas económicos que han sido
traducidas después al español por un experto.
El sistema sigue un proceso similar al que
haría una persona para comparar dos textos en
distintos idiomas. Primero se procede a una
segmentación del texto en párrafos, frases y
palabras apoyándose en la información aportada
por distintos signos de puntuación. Después son
aplicadas heurísticas para determinar la relación
Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03)
ISSN: 1135-5948
© Sociedad Española para el Procesamiento del Lenguaje Natural
Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal
cada fichero para ver si seguían una
correspondencia 1:1. Este tipo de proporción
nos indica cómo de fiel ha sido la traducción y
cómo de cercana es la posición de cada palabra
a la de su equivalente en el otro idioma. Se
comprobó que de los 23 archivos iniciales, sólo
18 contenían una correspondencia 1:1 en cuanto
a frases, por lo que se descartaron los otros
cinco. Tras ese primer filtrado, se dividió el
corpora en 2 conjuntos de ficheros: uno de
entrenamiento, que incluía el 90% de las frases
(362 en cada idioma) , y otro de test con el 10%
restante (51 frases). Esta división se hizo tanto
para hacer las pruebas finales (test) como para
ajustar
los
parámetros
del
sistema
(entrenamiento). Las tablas 1 y 2 muestran el
número de ficheros, párrafos y frases para cada
uno de los corpus.
existente entre elementos lingüísticos. Trabajos
anteriores [1] [2] demuestran el éxito obtenido
aplicando técnicas basadas en la posición en la
que figura cada palabra junto con su frecuencia
de aparición. El sistema propuesto se apoya
además en la similitud de palabras medida en
función del resultado de aplicar el algoritmo
Edit Distance [4]. Aunque en un caso general la
similitud de palabras no es un factor esencial,
ésta si puede ser de gran utilidad cuando
tratamos con corpora en dominios muy
específicos o cuando tratamos de establecer
relaciones entre entidades con nombre. La
razón de esta mejora se debe a que dicha
terminología tiene en numerosas ocasiones un
mismo origen lingüístico o histórico.
Dado que no se han usado conocimientos
previos del corpora ni de ninguno de los dos
lenguajes, esta técnica es susceptible de ser
aplicada a cualquier colección de documentos
español-francés o a otros corpora bilingüe con
similares características.
2
Corpora
Training
Test
Ficheros
18
16
2
Párrafos
134
121
13
Frases
419
377
42
El córpora utilizado
Tabla 1. Datos del corpus en español
Para los experimentos se ha usado un corpora
bilingüe español-francés obtenido a partir de
varios artículos del diario francés Le Monde y
Le Monde Economie. Los artículos fueron reetiquetados con XML mostrando primero la
introducción y a continuación los párrafos en
los dos idiomas.
Tras eso, se procedió a dividir el corpora en
frases y palabras, indexando sus posiciones de
inicio y fin en los párrafos. La división en
frases se hizo teniendo en cuenta la posición de
los caracteres ‘.’. La división de las palabras se
hizo a partir de la división anterior teniendo en
cuenta los espacios en blanco, signos de
interrogación, de exclamación, etc. Aunque
existen casos en los que esta forma de proceder
genera errores en la interpretación de palabras,
estos errores fueron ignorados debido a que su
número era muy inferior en comparación con el
tamaño del corpora.
Tras analizar estos ficheros y ver que todos
tenían una estructura común, se comprobó que
todos los párrafos del corpora guardaban una
correspondencia 1:1 (cada párrafo del corpus en
francés se correspondía con un único párrafo en
el corpus en español), lo cual es una gran
ventaja ya que evitó que se tuviera que usar
algoritmos para relacionar párrafos.
Posteriormente, se filtraron los corpus y se
hizo una comparación del número de frases de
Corpora
Training
Test
Ficheros
18
16
2
Párrafos
134
121
13
Frases
419
377
42
Tabla 2. Datos del corpus en francés
Una vez dividido el corpora, se calculó la
frecuencia de cada palabra en cada corpora (ver
tabla 3 y 4).
Corpora
Training
Test
Palabras
9425
8488
937
Palabras únicas
2509
2346
443
Tabla 3. Palabras en el corpus en español
Corpora
Training
Test
Palabras
9389
8440
949
Palabras únicas
2496
2328
455
Tabla 4. Palabras en el corpus en francés
Además, se hizo un estudio para ver si las
frases contenían un número de palabras similar
en ambos idiomas. Se vio que las frases del
corpus en español contenían de media sólo
0.089 palabras más que las frases del corpus en
62
Alineamiento de Entidades con Nombre usando distancia léxica
numerosas palabras como “semana” (“semaine”
en francés) que presentan un alto parecido, por
lo que la distancia entre una palabra y su
equivalente es muy baja. No obstante, da
problemas al traducir palabras que no guardan
correspondencia en el otro idioma como
“Estados Unidos” (“Etat-Units” en francés) ya
que intenta una primera comparación de
“Estados” con “Etat-Units”, y posteriormente
“Unidos” con “Etat-Units”, fallando para
ambas.
francés. En aquellas frases del corpus en
español que tenían más palabras que la
correspondiente en el corpus en francés, había
0.89 palabras más de media. En aquellas frases
del corpus en francés que tenían más palabras
que la correspondiente en el corpus en español
había 0.80 palabras más de media. Por tanto, el
tamaño de las frases era muy parecido.
3
Heurísticas
A continuación, se expondrán las heurísticas
utilizadas para buscar la traducción de una
palabra en el otro idioma. Primero se indicará la
basada en Edit Distance, a continuación la
basada en análisis de frecuencia, y finalmente la
técnica basada en la posición. Tras ello, se
comentarán los resultados iniciales de probar
éstas heurísticas, para finalmente mostrar el
sistema de votación utilizado que combina
dichas tres técnicas.
3.1
Basada en análisis de frecuencia
3.2
Para realizar esta heurística, se debe calcular
para cada palabra w el número de veces que
aparece w en todo el corpora y en cada fichero.
Si la traducción tiene un alto parecido con el
original, el número de veces que aparece una
palabra en ambos idiomas es muy similar. Por
ello, cuando se selecciona una palabra en un
corpus, se buscan todas aquellas del párrafo
correspondiente en el otro corpus que tienen
una frecuencia de aparición parecida. Esta
heurística da buenos resultados en palabras con
un número medio de repeticiones. En palabras
con frecuencia baja la heurística devuelve
demasiadas palabras candidatas. En el caso de
palabras con frecuencia alta aparece el
fenómeno de las palabras huecas, como pueden
ser los determinantes o preposiciones, cuya
traducción da lugar a demasiadas soluciones.
Con objeto de mejorar los resultados, esta
heurística es sólo aplicable en el caso de
palabras cuya frecuencia no está situada en
estos dos casos extremos.
Basada en cercanía léxica
El algoritmo Edit Distance (también conocido
como Levenshtein distance) permite averiguar
el mínimo coste para transformar una cadena en
otra, ya sea añadiendo o eliminando caracteres,
o cambiando uno por otro. Esta medida servirá
de apoyo para determinar el parecido
lexicográfico de pares de palabras. Por ejemplo,
para transformar la palabra “semana” en
“semaine” se necesita eliminar el carácter ‘i’ de
“semaine”, y cambiar el último carácter , “e”
por “a”.
El algoritmo Edit Distance establece una
distancia o una métrica de similitud entre
palabras. El valor final de esta distancia varía
en función del coste asociado a cada operación
de edición (añadir, borrar, cambiar). En este
caso se ha aplicado un mismo coste a todas las
operaciones de edición.
La forma de empleo de esta heurística es la
siguiente: dada una palabra en uno de los
corpus, el sistema aplica el algoritmo Edit
Distance a todas las palabras del párrafo
equivalente en el otro corpus. El resultado final
está constituido por aquellas palabras con
mayor similitud, es decir, con un valor de
distancia menor.
Esta medida da muy buenos resultados para
buscar entidades como lugares, nombres de
personas o empresas, u organismos, ya que
muchas de ellas son traducidas de forma muy
similar o con pocas variaciones. Además, hay
Basada en análisis de posición
3.3
En la basada en la posición, tras seleccionar una
palabra en un corpus, se busca su posición
respecto al párrafo al que pertenece. Tras eso,
se busca en el párrafo 2 equivalente la palabra
que ocupa su posición. A esta palabra se le
añaden las de su entorno (la anterior y la
siguiente). Esta medida da buenos resultados
cuando existe un gran parecido entre las
estructuras sintácticas de ambos idiomas y
cuando la traducción ha sido relativamente fiel.
Otro factor que influye en la bondad de esta
heurística es que el tamaño de las frases en los
2
Los resultados de esta heurística aplicando la
búsqueda sobre la frase equivalente en lugar del
párrafo arrojó peores resultados, por lo que se optó
finalmente buscar en el párrafo.
63
Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal
Se observa claramente como la heurística
que usa el algoritmo Edit Distance es la que da
mejores resultados, y que el sistema de votación
ponderada eleva los resultados del 30% al 70%.
Sin embargo, estos resultados deben ser
tomados con cautela, y por tanto, no deberían
ser generalizados, ya que se ven notablemente
influidos por dos razones: la fidelidad en la
traducción y que los artículos contienen un
conjunto importante de palabras similares
relacionadas con el dominio económico.
corpora sea proporcional (como sucede en este
caso, según se dijo anteriormente).
3.4
Sistema de votación
Cada una de estas heurísticas devuelve un
conjunto de palabras candidatas. Para mejorar
los resultados individuales de cada heurística
se definió un sistema de votación ponderada. A
una misma palabra se le aplican todas las
heurísticas de forma que se genera un conjunto
(con posibles repeticiones) de palabras
candidatas. Finalmente, la palabra escogida es
aquella con mayor multiplicidad (que ha sido
seleccionada por más heurísticas). La votación
puede ser simple o ponderada dependiendo de
que el peso del voto de cada heurística sea igual
o no. Con un sistema de votación se intenta
escoger aquella palabra que más se ajusta de
forma global a las tres características
propuestas: cercanía léxica, posición y
frecuencia. La votación ponderada permite dar
mayor realce a aquellas heurísticas cuyo
comportamiento sea más fiable.
Para ajustar el valor de los parámetros de
ponderación y para escoger la mejor heurística
para cada heurística se hizo un análisis previo
aplicando las distintas heurísticas sobre una
palabra aleatoria de cada párrafo del conjunto
de entrenamiento. A partir de los resultados
obtenidos se obtuvieron los factores de
ponderación para decidir qué peso se le daba en
la votación a las palabras devueltas por cada
una de las tres técnicas. Estos factores se
obtuvieron calculando el porcentaje de aciertos
de cada una.
3.5
Edit
Posición Frecuencia Votación
distance
Total
96
99
21
60
Aciertos
27
18
3
42
% aciertos 28,13% 18,18 % 14,29 %
70 %
Tabla 5. Resultados heurísticas español a
francés
Edit
Posición Frecuencia Votación
distance
Total
98
99
80
62
Aciertos
30
17
9
44
% aciertos 30,61% 17,17% 11,25 % 70,97 %
Tabla 6. Resultados heurísticas francés a
español
4
Búsqueda de entidades
El sistema de votación anterior permite el
alineamiento de palabras. Este sistema puede
ser extendido para detectar grupos de palabras
que representan entidades como nombres
compuestos por varias palabras (como “Pascal
Blanqué”), o fechas (como “semaine du 8
décembre”). El objetivo es alinear entidades no
triviales donde el orden de las palabras cambie
ligeramente al traducirlas, o que contengan un
número diferente de palabras, como “mercados
de acciones”, que se traduce como “marchés
actions”, que tiene una palabra menos.
Dada una secuencia consecutiva de palabras
T=w1…wn de un párrafo en uno de los corpus,
el método para buscar su alineamiento es el
siguiente: sea ci la palabra ofertada por el
sistema de votación para traducir la palabra wi.
De aquí se sigue que la traducción propuesta es
un conjunto C de palabras {c1,…,cn}. Ahora
bien, ha de tenerse en cuenta que ese conjunto
no tiene porqué estar ordenado por posición. Es
decir, si i<j, la palabra ci no tiene porqué estar
antes que la palabra cj en el corpus paralelo.
Resultados de las técnicas
Se escogieron 60 palabras repartidas de forma
aleatoria y uniforme entre todos los párrafos del
corpus. Se calcularon las traducciones de cada
palabra para cada una de las tres heurísticas y
para el sistema de votación, y se comprobó si
las traducciones devueltas eran correctas o no.
Los resultados obtenidos por las heurísticas
junto con el sistema de votación pueden verse
en las tablas 5 y 6. En ellas se ve, para cada
técnica, el número total de palabras escogidas,
cuántas de ellas fueron aciertos, y el porcentaje
de aciertos. La diferencia entre el número de
palabras total se debe a que mientras que la
votación escoge como mucho un candidato, las
otras técnicas pueden devolver varias o incluso
ninguna candidata .
64
Alineamiento de Entidades con Nombre usando distancia léxica
los archivos del corpora). En el caso de pasar de
español a francés, se seleccionaron 147, y hubo
110 aciertos, por lo que el porcentaje de
aciertos es 74,83 %. En el caso de pasar de
francés a español, se seleccionaron 132, y hubo
98 aciertos, por lo que el porcentaje de aciertos
es 74,24 %. Por tanto, en ambos casos se ha
obtenido un porcentaje de éxito superior al 74
%.
Para obtener un segmento alineado contiguo se
toman, de todas las candidatas, la que aparece
primera y la que aparece la última respecto a la
posición en el texto. El segmento propuesto es
el intervalo de todas las palabras contenidas
entre ambas dos. De esta forma, si el usuario
selecciona un conjunto de palabras que se
traduzca
como
“BNP
Paribas
Asset
Management” , el sistema elegiría “BNP” y
“Management”, y a partir de ahí obtendría el
resto de palabras que están entre esas dos.
Dado que el algoritmo Edit Distance
devuelve todas las palabras que se parecen, y
que la basada en la frecuencia en ocasiones
devuelve muchas palabras candidatas con
frecuencia parecida, en numerosos casos se
encuentra una palabra cuyo contenido coincide
con el buscado, pero en otra posición distinta
del párrafo (por ejemplo, la palabra “de”
aparece varias veces en muchos párrafos). Para
eliminar este efecto, se hace un análisis de las
palabras más frecuentes sin contenido
semántico (palabras huecas) de forma que al
buscar las palabras del intervalo se ignoran.
5
Total
Aciertos
Porcentaje
aciertos
Fichero 1
80
56
70 %
Fichero 2
67
54
80,56 %
Total
147
110
74,83 %
Tabla 7 Resultados entidades español a francés
Total
Aciertos
Porcentaje
aciertos
Fichero 1
68
49
72,05 %
Fichero 2
64
49
76,56 %
Total
132
98
74,24 %
Tabla 8 Resultados entidades francés a español
Resultados
Para ayudar a la anotación de entidades se ha
desarrollado un sistema que permite al usuario
cargar y visualizar los ficheros del corpora.
Según se van cargando, el sistema se encarga de
indexar los elementos necesarios y generar las
estadísticas. Una vez cargados todos, se muestra
un árbol del directorio, y al ir pulsando en los
distintos elementos se muestra una ventana en
la que se puede ver simultáneamente el texto en
ambos idiomas. Además, según se va
seleccionando el texto en un idioma, el sistema
colorea la frase equivalente en el otro idioma,
baja el scroll para que muestre el texto
coloreado, y se ofrece la traducción del texto
seleccionado. Además, en cualquier momento
el usuario puede ver estadísticas sobre el
corpora y sobre cada fichero (número de frases,
palabras, frecuencias...).
En el caso de las pruebas para buscar
entidades, se tuvo con la dificultad de que el
corpus no estaba previamente etiquetado. Por
este motivo, se ha trabajado con un conjunto de
entidades y palabras que han parecido
relevantes del conjunto de ficheros de test. Las
entidades incluyen nombres de personas,
empresas, lugares, y otras relacionadas con
economía (materia sobre la que versaban todos
6
Conclusiones
Este documento ha presentado una serie de
técnicas para realizar alineamiento de palabras
en corpora bilingüe mostrando como puede
mejorarse los resultados utilizando un algoritmo
de comparación de palabras en corpus de
idiomas cercanos, respecto a otros que sólo
realizan análisis de frecuencia o por posición.
Tras ello, se han mostrado los resultados de
aplicar con éxito estas técnicas a un corpora
bilingüe en español y francés, obteniendo un
70% de éxito en la traducción por palabras, y un
74% en la traducción de entidades. Finalmente,
se ha indicado como el sistema desarrollado
permite encontrar no solo aquellas palabras
equivalentes en el otro idioma, sino que además
permite localizar entidades y palabras
relevantes dentro de un contexto. Gracias a
esto, constituye una útil herramienta para
etiquetar corpora bilingües, ya que facilita al
usuario la búsqueda de traducciones, y la
visualización del contenido de dicho corpora.
65
Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal
7
Líneas de trabajo futuro
Existen
numerosas
líneas
de
trabajo
relacionadas con las técnicas presentadas en
este artículo.
En primer lugar, es necesario un estudio de
los resultados con otros corpora, ya que los
resultados actuales pueden estar influidos: por
el tamaño del corpora (el utilizado en las
pruebas es claramente insuficiente), por el
contexto (en este caso sólo se han usado
artículos de economía), y por el idioma (en este
caso se han contemplado dos idiomas cercanos,
por lo que los resultados podrían cambiar al
comparar otros idiomas como español con
inglés).
Por otro lado, sería interesante comprobar
qué influencia tendría en los resultados la
incorporación de otras técnicas probabilísticas
más complejas como modelos de Máxima
Entropía o Máquinas de Soporte Vectorial
(SVM).
8
Bibliografía
P.F. Brown , J.C. Lai y R.L. Mercer. (1991)
Aligning sentences in parallel corpora,
Proceedings of the 29th annual meeting on
Association for Computational Linguistics.
pp 169-176
W.A. Gale y K.W. Church. (1993) A program
for aligning sentences in bilingual
corpora.
Computational
Linguistics
archive.Volume 19 , Issue 1 .Special issue
on using large corpora. Páginas 75 – 102
C.D. Manning y H. Schuetze. (2001).
Statistical Alignment and Machine
Translation. En Foundaditons of Statistical
Natural Language Processsing, pp 462-494,
MIT Press: Cambridge.
W. J. Masek y M. S. Paterson (1980). A spaceeconomical computing string edit distance.
Journal of Computer Science, 20. pp 262—
272.
E.F. Tjong (2002): Introduction to the
CoNLL'02 Shared Task: LanguageIndependent Named Entity Recognition.
Proc. Of CoNLL-2002}. Taiwan pp 155-158
66
Anotación semiautomática con papeles temáticos de los corpus
CESS-ECE
M. Antònia Martí Antonín
Centre de Llenguatge i Computació
Universitat de Barcelona
Mariona Taulé Delor
Centre de Llenguatge i Computació
Universitat de Barcelona
[email protected]
[email protected]
Lluís Màrquez
Centre de Recerca TALP
Universitat Politècnica de Catalunya
Manuel Bertran
Centre de Recerca TALP
Universitat Politècnica de Catalunya
[email protected]
[email protected]
Resumen: En este artículo se presenta la metodología seguida en el proceso de anotación
semántica automática (estructura argumental y papeles temáticos de los predicados verbales) del
corpus CESS-ECE-CAT/ESP, así como la evaluación de los resultados obtenidos. A partir de un
léxico verbal (1.482 verbos) con información sobre las funciones sintácticas de cada verbo y su
proyección temático-argumental, se ha anotado automáticamente el treebank CESS-ECE
aplicando un conjunto de reglas simples sobre los árboles sintácticos. Se ha conseguido anotar
automáticamente el 60% de los argumentos y papeles temáticos, con un error muy bajo (inferior
al 2%). Este índice de calidad elevado permite usar la presente metodología para semiautomatizar el proceso de anotación semántica del corpus, con el consiguiente ahorro en tiempo
de anotación manual. Una vez completada la anotación este corpus podrá ser utilizado como
fuente de información para los sistemas de anotación automática de papeles temáticos.
Abstract: In this paper we present the methodology followed in the automatic semantic
annotation (argument structure and thematic roles of the verbal predicates) of the CESS-ECECAT/ESP corpus. Building from a verbal lexicon (1,482 entries) with information about the
syntactic functions and their projection to arguments and thematic roles, we present a set of
simple rules to automatically enrich syntactic trees with semantic information. This procedure
permits to automatically annotate 60% of the expected arguments and thematic roles with a
fairly low error rate (below 2%). Given the high quality of the obtained results, we claim that
this methodology provides substantial savings in manual annotation effort and allows a semiautomatic approach to corpus annotation. Once completed, the CESS-ECE corpus will permit
researchers to develop complete systems for automatic Semantic Role Labeling of Catalan and
Spanish.
1
Introducción
La anotación lingüística de corpus textuales de
gran volumen es una tarea que requiere un gran
esfuerzo en tiempo y recursos humanos.
Cuando se pretende realizar el proceso de forma
rigurosa y la anotación lingüística implica el
tratamiento de información compleja (sintaxis
completa con funciones sintácticas, información
semántica, etc.) el esfuerzo a realizar es, si
cabe, aún mayor. Por este motivo, cualquier
proceso que implique la automatización parcial
de los procesos de anotación va ser de una gran
ISSN: 1135-5948
ayuda. Entendiendo que el proceso automático
no puede sustituir en ningún caso el trabajo
manual, sí puede representar una herramienta
de ayuda que permita ahorrar una gran cantidad
de tiempo y dinero. Para que este ahorro sea
efectivo, es imprescindible que la anotación
automática sea de una calidad suficiente como
para que el esfuerzo de revisión manual de la
anotación automática sea netamente inferior al
proceso de anotación desde cero.
En este artículo se presenta la metodología
seguida en el proceso de anotación semántica
automática (estructura argumental y papeles
temáticos) de los predicados verbales del corpus
© Sociedad Española para el Procesamiento del Lenguaje Natural
M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran
CESS-ECE-CAT/ESP 1 , en adelante simplemente CESS-ECE, así como la evaluación de
los resultados obtenidos.
Para la anotación semántica automática se
ha partido de dos fuentes de conocimiento: a)
un léxico verbal para cada lengua elaborado
manualmente a partir de ambos sub-corpus,
CESS-LEX-CAT y CESS-LEX-ESP (en
adelante CESS-LEX), que contiene información
sintáctico-semántica; y b) un conjunto de reglas
desarrolladas específicamente para la anotación
automática, en las que se generalizan las
correspondencias entre sintaxis y semántica
especificadas en ambos léxicos.
Los léxicos verbales se han obtenido a partir
de una muestra de 100.000 palabras para cada
lengua de CESS-ECE (a los que llamamos
corpus-origen) anotadas sintácticamente a nivel
profundo. Estos léxicos se han utilizado para
obtener las reglas de proyección sintácticosemántica, que se han usado para la anotación
automática tanto del corpus-origen como de
otro subconjunto (85.000 palabras para el
castellano y 100.000 para el catalán) a los que
llamamos corpus-prueba. El corpus-prueba nos
permitirá evaluar el grado de generalización del
conjunto de reglas. En concreto, en este trabajo
se analiza:
• el grado de cobertura de la anotación
automática con CESS-LEX tanto en los
corpus-origen como en los corpus-prueba
• la calidad de la anotación automática en
los corpus-origen y en los corpus-prueba a
partir de la revisión manual efectuada
• la validez del conjunto de reglas de
proyección sintáctico-semántica
corpus-prueba; 4) el grado de error es
realmente bajo (alrededor del 2%) en todos los
corpus. Cabe destacar que para que este
procedimiento sea factible, es necesario
disponer de una anotación sintáctica previa de
calidad, incluyendo el etiquetado de funciones
sintácticas.
Una vez finalizado el proceso automático, se
ha procedido a la compleción y a la revisión
manual de la anotación semántica. Los corpus
resultantes de dicho proceso son los que se han
utilizado en la tarea 9 de evaluación de
SemEval-2007 para el catalán y el castellano 2 .
El resto del artículo se estructura de la
siguiente forma. En la sección 2 se describen
las características básicas del corpus CESSECE. A continuación, en las secciones 3 y 4, se
presentan las diferentes fuentes de información
implicadas en el proceso de anotación
semántica automática. En la sección 5 se
analizan los resultados obtenidos de una forma
cuantitativa y cualitativa. Finalmente, en la
sección 6 se presentan las conclusiones
principales de este trabajo.
2
El corpus CESS-ECE
El objetivo principal del proyecto CESS-ECE
es la construcción de un banco de árboles
sintácticos (TreeBank) multilingüe (catalán,
castellano y euskera) con anotación semántica 3 .
En este artículo restringiremos nuestro
estudio a los corpus del catalán y el castellano 4 ,
de 500.000 palabras cada uno, procedentes de
diversas fuentes, básicamente periodísticas
(Véase Tabla 1). Dichos corpus se han anotado
a diferentes niveles de descripción lingüística
que incluyen información morfológica,
sintáctica y semántica. El proceso de anotación
se ha llevado a cabo de manera automática,
manual o semiautomática dependiendo de la
información lingüística tratada (Véase Tabla 1).
El proceso de anotación se ha llevado a cabo
de manera incremental, desde los niveles más
básicos de análisis, es decir empezando por el
etiquetado morfosintáctico y el análisis sintáctico superficial (chunking) realizados automáticamente, hasta llegar a los niveles más
complejos, el análisis sintáctico profundo
La evaluación de los resultados permite
afirmar que en el caso de la anotación de la
estructura argumental con papeles temáticos, el
procesamiento automático planteado es factible
y satisfactorio, puesto que: 1) se consigue
anotar el 58,4% de las ocurrencias del corpus
origen para el español y el 57,5% para el
catalán; 2) este porcentaje mejora en ambos
casos (63,4% en el español y 62,7% en el
catalán) en los corpus-prueba (véase la sección
5.1); 3) el grado de error en la anotación
automática se mantiene estable para ambas
lenguas tanto en el corpus-origen como en el
2
Multilevel Semantic Annotation of Catalan and
Spanish, http://www.lsi.upc.edu/~nlp/semeval/msacs.html.
3
Interfaz gráfica para consultar los corpus CESS-ECE
http://www.lsi.upc.edu/~mbertran/cess-ece.
4
El corpus del euskera se anota siguiendo otra metodología y abarca 350.000 palabras.
1
Este corpus ha sido elaborado gracias a los proyectos
CESS-ECE (HUM-2004-21127-E) y Lang2World (TIN
2006-15265-C06-06). Contiene dos partes de volumen y
contenido equivalentes, una en castellano (ESP) y la otra
en catalán (CAT).
68
Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
(proceso manual) y el análisis semántico
(proceso semiautomático). Este procedimiento
de anotación secuencial implica, en cada paso,
la revisión manual del proceso anterior
garantizando así la calidad y la consistencia
interna de los datos.
Corpus
Fuentes
CESSECECAT
EFE
(75.000)
ACN
(225.000)
‘El
5
Periódico’
(200.000)
CESSECEESP
6
Lexesp
(85.000)
EFE
(225.000)
‘El
Periódico’
(200.000)
Anotación
morfosintáctica
sintáctica
superficial
sintáctica
profunda
Papeles temáticos
Proceso
Automático
Automático
Sentidos nombres
(WordNet)
morfosintáctica
sintáctica
superficial
sintáctica
profunda
Papeles temáticos
Sentidos nombres
(WordNet)
Manual
ha realizado sobre una muestra de 185.000
palabras para el castellano (6.013 oraciones) y
de 200.000 para el catalán (6.422 oraciones), y
el proceso de anotación se ha llevado a cabo de
manera semiautomática (Taulé et al. 2005).
Estos corpus se han dividido en dos subcorpus:
el corpus-origen (100.000 palabras) y el
corpus-prueba (85.000 palabras para el
castellano y 100.000 para el catalán). Los
corpus-origen se han utilizado para la obtención
de los léxicos verbales CESS-LEX-CAT y
CESS-LEX-ESP, en los cuales se ha explicitado
la relación entre funciones sintácticas y
estructura argumental y temática de cada
predicado. Los corpus-prueba se han utilizado
para comprobar el grado de cobertura y de
calidad de la anotación semántica automática. A
continuación se presentan en más detalle las
diferentes fuentes de información utilizadas en
dicho proceso.
Manual
Semiautomático
Automático
Automático
Manual
Semiautomático
Manual
3.1
Tabla 1: Niveles de anotación de los subcorpus CESS-ECE-CAT y CESS-ECE-ESP
Se parte de la base que la estructura argumental
es el nivel de representación semántica más
próxima a la representación sintáctica de la
oración, en tanto que refleja la manera en que
los argumentos semánticos se corresponden o
relacionan con sus expresiones morfosintácticas. La estructura argumental expresa la
aridad del verbo y permite establecer la relación
semántica entre el predicado y sus argumentos,
es decir, los papeles temáticos. Es por ello que
el análisis semántico parte de la información
sintáctica expresada en los corpus.
A partir de la información sintáctica
codificada en el corpus-origen se deriva de
forma automática una versión inicial de los
léxicos verbales CESS-LEX, donde para cada
sentido de cada verbo se explicitan todos los
esquemas sintácticos en los que aparece en el
corpus con sus correspondientes funciones.
En nuestra aproximación el sujeto, el verbo,
los complementos del verbo y los adjuntos
dependen directamente del nodo oración (S).
En la figura 1 se muestra un ejemplo de
análisis sintáctico profundo del corpus CESSECE-ESP, representando el árbol sintáctico
como una expresión parentizada. Las funciones
sintácticas utilizadas en ambas lenguas son:
sujeto (SUJ), objeto directo (CD) e indirecto
(CI), complemento del régimen (CREG),
complemento agente (CAG), predicativo
Hasta el momento se encuentran ya
disponibles las 500.000 palabras del corpus
CESS-ECE anotado a nivel sintáctico
superficial y profundo (constituyentes y
funciones) para cada lengua y la anotación de
un subconjunto de 185.000 palabras para el
castellano y 200.000 para el catalán con
información semántica (estructura argumental,
papeles temáticos, clases semánticas y sentidos
de WordNet para los nombres más frecuentes).
Estos dos últimos subconjuntos son los que se
analizan en este artículo. Cabe destacar que la
anotación de la estructura argumental y los
papeles temáticos se está realizando siguiendo
un modelo inspirado en el del corpus PropBank
para el inglés (Palmer et al., 2005). Por último,
la anotación incremental de información
sintáctico-semántica sobre un mismo corpus
toma su modelo del proyecto OntoNotes (Hovy
et al., 2006).
3
Información sintáctica
Fuentes de información
Como hemos dicho, la anotación semántica con
estructura argumental y papeles temáticos 7 se
5
El subconjunto de 200.000 palabras procedentes del
‘El Periódico’ son las mismas noticias en catalán y
español desde enero a diciembre de 2000.
6
Lexesp es un corpus equilibrado del español de seis
millones de palabras (Sebastián et al. 2000).
7
En este artículo no se hace referencia al proceso de
anotación con synsets de WordNet.
69
M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran
(CPRED), atributo (ATR) y circunstanciales
(CC, CCT, CCL) 8 . Estas funciones están
resaltadas en negrita en el árbol de la Figura 1.
los que ocurre dicho verbo en el corpus
(construcción activa y pasiva) con la correspondiente relación entre funciones sintácticas,
posiciones argumentales y papeles temáticos.
Como se puede observar, la posición
argumental y el papel temático se mantienen
mientras que su función sintáctica puede variar.
En la construcción activa el argumento Paciente
(PAT) tiene la función sintáctica de objeto
directo (CD) mientras que en la pasiva es el
sujeto (SUJ). Finalmente, se incluye las frases
de ejemplo.
(S
(sn-SUJ
(espec.fp
(da0fp0 Las el))
(grup.nom.fp
(ncfp000 reservas reserva)
(sp
(prep
(sps00 en en))
(sn
(grup.nom.ms
(ncms000 oro oro))))))
(morfema.verbal-PASS
(p0000000 se se))
(grup.verb
(vmip3p0 valoran valorar))
(sp-CC
(prep
(sps00 en_base_a
en_base_a))
(sn
(espec.mp
(Z 300 300))
(grup.nom.mp
(Zm dólares dólar)))
valorar–01 synset: 00445269v
ELS4.2
SUJ Arg0##AGT
CD Arg1##PAT
CC ArgM##ADV
EJ: "CCOO valoró la reducción del paro…"
+PASIVA
SUJ Arg1##PAT
CAG Arg0#por#AGT
CC ArgM##ADV
EJ: "Las reservas en oro se valoran
en_base_a 300_dólares estadounidenses…"
Figura 2: CESS-LEX-ESP: ‘valorar’
Figura 1: Análisis sintáctico. Fragmento de
frase ejemplo: “Las reservas en oro se valoran
en 300 dólares…”
3.2
Los léxicos verbales CESS-LEX proporcionan información de las distintas alternancias
diatéticas que acepta un verbo (activa, pasiva,
anticausativa e impersonal). Sólo la alternancia
activa-pasiva tiene marcas morfosintácticas que
permiten la anotación automática de argumentos y papeles temáticos de manera directa.
Sobre esta información se han elaborado
algunas de las reglas de proyección.
Los léxicos CESS-LEX contienen todos los
verbos que aparecen en el corpus-origen, un
total de 1.482 para el castellano y 1.052 para el
catalán.
Los léxicos verbales CESS-LEX
A partir de la información sintáctica se crean
manualmente los léxicos CESS-LEX, donde
para cada sentido verbal se especifica: a) la
clase semántica (Taulé et al., 2006); b) la
proyección sintáctico-semántica, es decir la
correspondencia entre funciones sintácticas,
argumentos semánticos y papeles temáticos; c)
las alternancias de diátesis en las que puede
ocurrir y d) unas frases de ejemplo extraídas del
propio corpus. En la figura 2 se presenta la
entrada del verbo ‘valorar’ en CESS-LEX.
En la entrada léxica de la figura 2, se indica
el lema (valorar), el número de sentido (01) 9 , la
clase semántica (ELS4.2), correspondiente a la
clase de verbos transitivos agentivos, que a su
vez se corresponde con el tipo ontológico de las
actividades, y los dos esquemas sintácticos en
4
Reglas de proyección
Para el proceso automático de anotación
semántica se ha elaborado un conjunto de reglas
simples que, individualmente, describen de
forma inambigua las proyecciones seguras de
funciones sintácticas a argumentos y papeles
temáticos. Teniendo en cuenta la dificultad de
la tarea, se ha tratado de conseguir el máximo
grado de cobertura minimizando el error al
máximo. Distinguimos dos tipos de reglas,
generales (4.1) y específicas (4.2 y 4.3).
8 Para más información y otros ejemplos se puede
consultar la página web del proyecto CESS-ECE:
http://www.lsi.upc.edu/~mbertran/cessece.
9
El número de sentido se asociará a uno o más synsets
de una versión de WordNet 1.6.
70
Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
En la frase analizada en la figura 4, se ha
4.1
Reglas generales
(S
(sn-SUJ-Arg1-PAT
(espec.ms
(da0ms0 El el))
(grup.nom.ms
(ncms000 acuerdo acuerdo)))
(grup.verb-D2
(vsif3s0 será ser)
(vmp00sm firmado firmar))
(sp-CAG-Arg0-AGT
(prep
(sps00 por por))
(sn.co
(snp
(espec.fs
(da0fs0 la el))
(grup.nom.fs
(ncfs000 presidenta
presidenta)))
Incluimos bajo esta denominación un conjunto
de reglas asociadas a una determinada función o
propiedad morfosintáctica. En el caso de las
funciones, se asignan automáticamente las
posiciones argumentales correspondientes al
complemento
agente
(CAG-Arg0-AGT),
atributo (ATR-Arg2-ATR) y complemento
predicativo (CPRED-Arg2-ATR) 10 . En cuanto a
las posiciones adjuntas se etiquetan automáticamente los complementos circunstanciales 11
temporales (CCT-ArgM-TMP) y locativos
(CCL-ArgM-LOC).
La pasiva y la pasiva refleja son un ejemplo
de reglas asociadas a una propiedad
morfosintáctica. En este caso la regla tiene en
cuenta el tipo de verbo (es decir, si se trata del
predicado ‘ser’/’ésser’ seguido de participio), o
el rasgo morfosintáctico que lleva asociado
(morfema.verbal-PASS). En ambos casos, se
etiqueta de manera automática el sujeto como
argumento Paciente (SUJ-Arg1-PAT) y el
complemento agente como argumento Agente
(CAG-Arg0-AGT), como se puede observar en
la frase analizada de la figura 3. La asignación
de dichos argumentos y papeles temáticos es
independiente del verbo. En el caso del
ejemplo, la asignación de la clase semántica D2
(verbos transitivos agentivos) al predicado
‘firmar’ se ha realizado también de manera
automática pero a partir de la información
especificada en el léxico verbal, CESS-LEXESP en este caso, es decir mediante la
aplicación de las reglas del segundo tipo.
4.2
etiquetado directamente el sujeto como un
Figura 3: Reglas tipo I. Ejemplo de anotación
automática directa. Fragmento de frase ejemplo
“El acuerdo será firmado por la presidenta…”
(S
(grup.verb-C3
(vsip3p0 Son ser))
(sa-ATR-Arg2-ATR
(espec
(rg tan tanto))
(grup.a
(aq0mp0 raros raro)))
(sn-SUJ-Arg1-TEM
(Fc , ,)
(espec.mp
(da0mp0 los el))
(grup.nom.mp
(ncmp000 hombres
hombre)))
Figura 4: Reglas tipo II. Ejemplo de anotación
automática directa. Frase ejemplo “Son tan
raros, los hombres”
Reglas específicas dependientes de
los léxicos CESS-LEX
Incluimos en esta sección las reglas específicas
basadas en la información descrita en los
léxicos verbales CESS-LEX, es decir reglas
dependientes de cada predicado.
En el caso de verbos monosémicos la
correspondencia entre función sintáctica y clase
semántica, argumentos y papeles temáticos se
realiza de manera directa. En la figura 4 se
ejemplifica con el verbo ‘ser’ tratado
monosémicamente en el corpus del castellano.
Arg1-TEM (Tema), el atributo como un Arg2ATR (Atributo) y la clase semántica C3, que
corresponde a verbos estativos transitivos.
En el caso de verbos polisémicos la
equivalencia entre información sintáctica y
semántica puede ser parcial, en el sentido de
que sólo se etiqueta automáticamente aquella
información que es inequívoca, es decir que no
implica ambigüedad. El resultado, por lo tanto,
puede ser parcial, bien porque sólo se etiqueta
la posición argumental o el papel temático; bien
porque sólo se etiqueta la combinatoria entre
clase semántica y posición argumental o clase
semántica y papel temático. En el primer caso
se trata de predicados que, para sentidos o
10
CPRED-Arg3-ORI en caso de estar introducido por la preposición: “sps00 procedente_de”.
11
Son los únicos circunstanciales anotados
manualmente.
71
M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran
acepciones distintas, comparten la misma
función y posición argumental pero los papeles
temáticos asociados son diferentes y, por lo
tanto, la elección de uno u otro no es inmediata.
La segunda posibilidad es el caso contrario, en
las distintas acepciones del predicado se
produce una coincidencia en la asignación de
papeles temáticos pero no en la posición
argumental de los mismos. En la figura 5 se
muestra un ejemplo de anotación automática
parcial.
a_base_de SPS00 ArgM##ADV
a_cambio_de SPS00 ArgM##ADV
a_causa_de SPS00 ArgM##CAU
a_comienzos_de SPS00 ArgM##TMP
allí_delante RG ArgM##LOC
allí_encima RG ArgM##LOC
así RG ArgM##MNR
atrás RG ArgM##LOC
aun RG ArgM##ADV
...
tipo concreto de adverbio o locución. Por
ejemplo, si en un constituyente, con la categoría
(S
(sadv-CC-ArgM-TMP
(grup.adv
(rg Entonces entonces)))
(sn.e-SUJ *0*)
(grup.verb
(vmii3s0 movía mover))
(sn-CD-Arg1-PAT
(espec.fs
(da0fs0 la el))
(grup.nom.fs
(ncfs000 cabeza cabeza)))
(sadv-CC
(grup.adv
(rg lentamente
Figura 6: Lista de adverbios y locuciones
morfosintáctica ‘RG’ o ‘SPS’ y con función
CC, aparece el adverbio ‘así’ o la locución
‘a_causa_de’ se asignará de forma automática
el argumento y papel temático ArgM-MNR
(manera) y ArgM-CAU (causa), respectivamente.
Un subtipo de estas reglas es aquel que trata
expresiones temporales representadas en la
categoría morfosintáctica como W. Así, se
anota como ArgM-TMP todo CC que contine
Figura 5: Reglas tipo II. Ejemplo de anotación
automática parcial. Frase ejemplo “Entonces
movía la cabeza lentamente”.
(snd-CC-ArgM-TMP
(espec.ms
(da0ms0 el el))
(grup.nom.ms
(W 26_de_mayo [??:26/5/??:??.??])))
(sn.e-SUJ-Arg1-TEM *0*)
(grup.verb-C3
(vmii3p0 equivalían equivaler))
(sp-CREG-Arg2-ATR
(prep
(sps00 a a))
(snn
(espec.mp
(Z 19.100 19100))
(grup.nom.mp
(ncmp000 millones millón)
(sp
(prep
(sps00 de de))
(grup.nom.mp
(Zm dólares dólar)))))))
El sujeto de ‘mover’ no se ha podido asignar
de forma automática porque puede interpretarse
distintamente en función de la acepción que se
considere, en este caso un Arg0-CAU, un
Arg0-AGT o un Arg1-TEM (Véase anexo 1
para consultar la entrada de ‘mover’). Por la
misma razón tampoco ha sido posible la
asignación de la clase semántica de manera
automática ya que la regla no puede decidir si
pertenece a la clase semántica A1, C1 o C2.
4.3
Reglas específicas basadas en el
tipo de adverbio y preposición
En este tercer conjunto consideramos las reglas
basadas en el tipo de adverbio o locución
adverbial o prepositiva que aparecen en un
determinado constituyente. Por ejemplo, en la
figura 6 se da una muestra del tipo de
información considerada.
Como se puede ver, las reglas tienen en
cuenta el tipo de categoría morfosintáctica,
‘RG’ (adverbio) o ‘SPS’ (locución prepositiva),
la función de complemento circunstancial y el
un elemento del tipo W (véase figura 7):
Figura 7: Reglas de tipo III. Expresiones
temporales. Frase ejemplo: “El 26 de mayo
equivalían a 19.100 millones de dólares.”
4.4
Aplicación de las reglas
Todas las reglas de proyección se han podido
implementar de manera sencilla y eficiente,
72
Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
requiriendo un esfuerzo en tiempo de
programación moderado. De todas maneras,
para disponer de un procesador automático que
las aplique es necesario decidir qué hacer en los
casos en que más de una regla sea aplicable.
Heurísticamente, se ha decidido aplicar las
reglas en orden descendiente de generalidad, es
decir primero se aplican las reglas generales de
tipo I, en segundo lugar las de tipo III y,
finalmente las de tipo II.
5
anota automáticamente el corpus-prueba. El
léxico del castellano contiene un total de 1.482
verbos de los cuales sólo 717 aparecen en el
corpus-prueba, lo que constituye el 64.1% de
los 1.119 verbos del corpus de prueba. El léxico
del catalán contiene un total de 1.052 verbos de
los cuales sólo 664 aparecen en el corpusprueba, lo que representa el 58,5% de los 1.134
verbos del corpus-prueba.
A pesar de que los léxicos tienen menor
cobertura en los corpus-prueba, el tanto por
ciento de anotación recibida mantiene el mismo
nivel de cobertura que en los corpus-origen, lo
que indica que las reglas de proyección
independientes del léxico (tipos I y III)
expresan generalizaciones que se dan también
para los verbos nuevos de los corpus-prueba.
En realidad, el porcentaje de cobertura es
incluso un poco mejor en los corpus de prueba
como veremos más adelante. Comentamos a
continuación los resultados de la anotación de
manera analítica.
El número total de funciones sintácticas que
aparecen en los corpus es de 48.405 para el
castellano y 48.600 para el catalán. De éstas, en
el corpus del castellano, 25.645 pertenecen al
corpus-origen y 22.760 al corpus-prueba; en el
caso del catalán, 24.005 pertenecen al corpusorigen y 24.665 al corpus-prueba. De todas las
funciones, reciben anotación semántica el sujeto
(SUJ), el complemento directo (CD), indirecto
(CI), de régimen (CREG), el atributo (ATR), el
complemento predicativo (CPRED) y los
circunstanciales (CC), que corresponden a un
total de 44.499 funciones por anotar en
castellano (23.587 en corpus-origen y 20.912 en
corpus-prueba) y 43.531 para el catalán (21.466
en el corpus origen y 22.065 en el de prueba).
No reciben información semántica los
adjuntos oracionales (AO), el vocativo (VOC),
los elementos textuales (ET) y las marcas de
impersonalidad, negación, pasiva e impersonal.
De todas formas, esta limitación nos hace
renunciar solamente a 3.906 funciones
sintácticas (un 8,07% del total de funciones) en
castellano y a 5.139 (un 10,5 % del total) en
catalán.
En la tabla 2 se muestra de manera
desglosada por funciones la anotación semántica resultante. También se incluye un desglose
por cada uno de los corpus (origen/prueba).
Cada celda contiene tres números que
representan el número de funciones etiquetadas
con las reglas automáticas, el número de
Metodología y análisis de los
resultados
El proceso de aplicación automática de las
reglas de proyección se ha llevado a cabo en
ambos corpus. Recordemos que el proceso
automático se realiza separadamente sobre los
corpus-origen y los corpus-prueba a partir de
las fuentes de conocimiento desarrolladas,
reglas y léxicos, con el fin de evaluar la validez
de dichas fuentes independientemente del
corpus a partir del cual se ha extraído la
información. En el proceso automático se
obtienen anotaciones totales con información
sobre el argumento y el papel temático o bien
anotaciones parciales, es decir cuando sólo se
ha podido asociar a la función el argumento o el
papel temático. Los resultados obtenidos en el
proceso automático de anotación se presentan
en la sección 5.1. Incluimos un análisis
cuantitativo de la cobertura de los léxicos y de
las reglas en los corpus origen y de prueba, es
decir, el número de funciones sintácticas que
han recibido información argumental y temática
del conjunto total de funciones.
Por otro lado, se ha realizado la revisión
manual para corregir los errores de la anotación
automática y completar las funciones que no
han recibido anotación semántica tanto de los
corpus-origen como del corpus-prueba. Para la
anotación manual se utiliza un editor de árboles,
TreeTrans (Cotton y Bird, 2000), adaptado para
la anotación de argumentos y papeles temáticos.
Una vez realizado el análisis cuantitativo de la
calidad de la anotación automática, se presenta
una valoración cualitativa de los resultados
obtenidos (sección 5.2).
5.1
Análisis cuantitativo de los
resultados
Los léxicos CESS_LEX se han obtenido a partir
de los verbos de los corpus-origen. Por lo tanto,
se plantea un problema de cobertura cuando se
73
M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran
Función
SUJ
CD
CI
CREG
ATR
CPRED
CAG
CC
Total
CORPUS: CESS-ECE-CAT
C-origen
C-prueba
3.819/7.075/53,9%
3.996 / 7.517 / 53,1%
4.099/5.055/81,08%
3.933 / 5.302 / 74,1%
406/407/99,7%
429/ 429/ 100%
767/1.253/61,21%
646 / 1.240 / 52,0%
903/903/100%
1.111/ 1.111/ 100%
390/390/100%
412 / 413 / 99,7%
297/297/100%
226/ 227/ 99.5%
1.620/6.006/26,97%
3.089 / 5.826 / 53,0%
12.301 / 21.386 / 57,5%
13.842 / 22.065 / 62,7%
Total
7.815 / 14.592 / 53,5%
8.032 / 10.357/ 77,5%
835/ 836 / 99,8%
1.413 / 2.493 / 56,6%
2.014 / 2.014 / 100%
802 / 803 / 99,8%
523/ 524 / 99,8%
4.709 / 11.832 / 39,7%
26.143 / 43.451 / 60,1%
Función
SUJ
CD
CI
CREG
ATR
CPRED
CAG
CC
Total
CORPUS: CESS-ECE-CAST
C-origen
C-prueba
5.207 / 7.746 / 67.2%
4.631 / 6.967 / 66.5%
3.438 / 4.838 / 71.1%
3.327 / 5.018 / 66.3%
502 / 612 / 82.0%
261 / 521 / 50.1%
585 / 857 / 68.3%
470 / 869 / 54.1%
1.537 / 1.550 / 99.2%
955 / 963 / 99.2%
361 / 361 / 100%
288 / 288 / 100%
188 / 189 / 99.5%
263 / 265 / 99.2%
1.953 / 7.434 / 26.3%
3.062 / 6.021 / 50.9%
13.771 / 23.587 / 58.4%
13.257 / 20912 / 63.4%
Total
9.838 / 14.713 / 66,8%
6.765 / 9.856 / 68,6%
763 / 1.133 / 67,3%
1.055 / 1.726 / 61.1%
2.492 / 2.513 / 99,2%
649 / 649 / 100%
451 / 454 / 99,3%
5.015 / 13.455 / 37,2%
27.028 / 44.499 / 60,7%
funciones a etiquetar y el porcentaje de
cobertura, respectivamente.
Tabla 2: Resultados de la anotación automática desglosada por sub-corpus, funciones e idioma
de manera casi unívoca una determinada
anotación semántica y su grado de cobertura
alcanza casi el 100%. En el caso del CD y del
CREG en ambas lenguas y del CI en el caso
del castellano, el grado de cobertura de la
anotación es inferior en el corpus-prueba
debido a que en este corpus la cobertura del
léxico es inferior. La razón estriba en el hecho
de que la asignación de argumento y papel
temático,
en
estos
casos,
depende
exclusivamente de las reglas de tipo II
(léxicas). La función sujeto recibe menos
anotaciones semánticas en catalán (7.759) que
en castellano (9.690) porque el verbo ser -el
más frecuente en el corpus- se ha tratado de
forma monosémica en castellano, mientras que
en catalán es polisémico.
Las posiciones no argumentales, que
corresponden a los CC sintácticos, son las que
dan peores resultados debido a la amplia
tipología de argumentos (ArgM, Arg2, Arg3,
Arg4) y papeles temáticos que pueden recibir
(LOC, TMP, MNR, etc.).
Finalmente, en la tabla 3 se muestra el
número total y el porcentaje de anotaciones
totales y parciales. En la fila de los “Totales”
se incluye el número total de funciones
Podemos ver como del total de funciones
sintácticas que pueden recibir anotación
semántica, 44.499 para el castellano y 43.531
para el catalán, se han anotado automáticamente un total de 27.028 y 26.143
respectivamente, lo que corresponde a un
60’7% para la primera lengua y a un 60,1%
para la segunda: el 58’4% del corpus-origen y
el 63’4% del corpus-prueba para el castellano
y el 57,5% y el 62,73% respectivamente para
los corpus del catalán. Como se puede observar
la cobertura de anotación es superior en el
corpus de prueba debido fundamentalmente al
etiquetado de los CC. Esto se explica porque,
por razones de criterios de anotación de los
corpus, la anotación sintáctica del CC es más
rica en el corpus de prueba que en el corpus de
origen 12 .
En lo que se refiere a la cobertura, como se
puede observar en la tabla 2, las funciones
sintácticas ATR, CAG, CPRED en ambas
lenguas y el CI, en el caso del catalán, reciben
12
En el corpus de prueba los complementos
circunstanciales de tiempo y lugar reciben una
etiqueta específica, CCT y CCL respectivamente,
que facilita la asignación semántica.
74
Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
revisado y validado el etiquetado obtenido
automáticamente para ambas lenguas. En
cuanto al corpus-prueba, se ha revisado y
completado el 10% de las oraciones de ambos
corpus. En este proceso de validación se ha
computado el número de errores para un
subconjunto de 500 funciones en cada corpus
de ambas lenguas. El resultado obtenido es de
un 2,1% de asignaciones incorrectas en el
corpus del castellano y de 1,9% en el corpus
del catalán, fundamentalmente en los CC.
La precisión de la anotación automática
depende básicamente de dos factores: las
reglas y el léxico. Las reglas generales son
aplicables a cualquier corpus y el resultado
debería tener un nivel de calidad equivalente.
No ocurre lo mismo con las reglas
dependientes de la información contenida en el
léxico, ya que este está constituido sobre el
corpus de origen. Los problemas en este caso
se circunscriben a la cobertura de verbos y
sentidos.
De los resultados obtenidos en la revisión
manual se puede concluir, por lo tanto, que las
reglas de tipo 1 y 3 dan resultados
satisfactorios y son aplicables a cualquier otro
corpus. Un análisis más profundo del
complemento circunstancial y la proyección
del mismo en la anotación semántica,
mejoraría los resultados de las reglas de tipo
3. 13 Los errores detectados se refieren
fundamentalmente a la asignación de papeles
temáticos a los CC, debido a la ambigüedad y
variedad de los mismos y por la presencia de
sentidos en los corpus-prueba que no aparecen
en los corpus origen.
En cuanto a las reglas de tipo 2, en tanto
que dependen del léxico, serían mejorables
aumentando la cobertura de los mismos y si
trataran las preposiciones que rigen los verbos
en determinados complementos circunstanciales.
A la vista de los resultados obtenidos tanto
en la cobertura de anotación (una media el
60,4%) como en la alta calidad de ésta
(alrededor de un 98% de aciertos) es innegable
que la metodología propuesta supone un ahorro
importante y resuelve en gran medida la tarea
de la anotación de corpus con argumentos y
papeles temáticos. Ello se debe, entre otras
razones, a la base lingüística incorporada en las
etiquetadas y el porcentaje que representa este
número con respecto al total de anotaciones
realizadas automáticamente y al total de
funciones sintácticas por anotar. Se puede
observar como, en casi todos los casos, la
mayoría de anotaciones son completas
(argumento + papel temático). El alto número
de anotaciones parciales en el caso del
complemento de régimen (CREG) se debe a
que se ha decidido, de momento, no asignarle
papel temático por la problemática que
entraña. Este tema está en fase de estudio y se
resolverá en una fase posterior. Los
complementos con mayor ambigüedad y, por
lo tanto, con mayor número de anotaciones
parciales, son el sujeto (SUJ) y el
complemento directo (CD): la posición
argumental es deducible, pero no así el papel
temático.
CORPUS: CESS-ECE-CAT
Función
Arg+PT
SUJ
CD
CI
CREG
ATR
CPRED
CAG
CC
Total
7.759
7.854
835
157
2.014
802
523
4.608
24.552
93,9%
56,5%
Función
Arg+PT
SUJ
CD
CI
CREG
ATR
CPRED
CAG
CC
Total
9.690
6.600
703
57
2.492
649
451
4.859
25.501
94,3%
57,3%
Arg
52
178
--1.256
------101
1.587
6,0%
3,6%
PT
Total
4
--------------4
0,01%
0,0%
7.815
8.032
835
1.413
2.014
802
523
4.709
26.143
100%
60,1%
CORPUS: CESS-ECE-CAST
Arg
144
129
--998
------156
1.427
5,3%
3,2%
PT
Total
4
9.838
36
6.765
60
763
--1.055
--2.492
--649
--451
--5.015
100 27.028
0,4% 100%
0,2% 60,7%
Tabla 3: Anotación total vs. parcial en el
corpus origen+prueba del catalán y castellano
5.2
Análisis cualitativo de los
resultados
13
Esta ampliación se está ya aplicando para la
anotación semántica automática del corpus CESSECE-CAT.
Actualmente se ha completado la anotación
semántica manual del corpus-origen y se ha
75
M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran
Conference on Language Resources and
Evaluation, LREC-2000. Atenas, 2000.
Hovy, E.H., M. Marcus, M. Palmer, S. Pradhan, L.
Ramshaw, and R. Weischedel. OntoNotes:
The 90% Solution. En Proceedings of the
Human Language Technology / North
American Association of Computational
Linguistics conference (HLT-NAACL 2006).
New York, NY, 2006.
Palmer, M., D. Gildea, y P. Kingsbury. The
Proposition Bank: An Annotated Corpus of
Semantic Roles, Computational Linguistics,
31(1), 2005.
Sebastián, N., M. A. Martí, M. F. Carreiras y F.
Cuetos. LEXESP: Léxico Informatizado del
Español, Ediciones de la Universidad de
Barcelona, Barcelona, 2000.
Taulé, M., J. Aparicio, J. Castellví, y M. A. Martí.
Mapping syntactic functions into semantic
roles. En Proceedings of the Fourth Workshop
on Treebanks and Linguistic Theories (TLT
2005). Universitat de Barcelona, Barcelona,
2005.
Taulé, M., M. A. Martí y J. Castellví. Semantic
Classes in CESS-LEX: Semantic Annotation of
CESS-ECE. En Proceedings of the Fifth
Workshop on Treebanks and Linguistic
Theories (TLT-2006). Prague, Czech Republic,
2006.
reglas y a la calidad de los procesos de
anotación previos (morfosintáctico y sintáctico). Para hacernos una idea, se ha
cuantificado que el coste de anotación manual
del 40% no cubierto por el proceso automático
junto con la revisión manual del 100% del
texto de los dos idiomas es de 1.655 horas
persona. El coste de haber etiquetado
manualmente el 60% cubierto por las reglas
automáticas se estima comparable a esta
cantidad, mientras que el desarrollo y la
implementación de las reglas no ha superado
las 100 horas persona, dejando el ahorro neto
en una cantidad superior a 1.500 horas
persona.
6
Conclusiones
En este artículo se ha presentado la
metodología seguida en la anotación
automática del corpus CESS-ECE con
estructura argumental y papeles temáticos. Se
trata de un proceso automático previo a la
anotación manual completa. Las reglas que se
han aplicado, a la vista de los resultados
cualitativos obtenidos, tienen una precisión
próxima al 100%, aunque se ha sacrificado la
cobertura ya que sólo se anota un 60% del
corpus. No se trata en ningún caso de un
sistema de anotación automática de roles
temáticos, sino de un pre-proceso automático
de ayuda en la anotación y revisión manuales
de un corpus con esta información. Una vez
completado, el corpus posibilitará, entre otras
cosas, estudios lingüísticos empíricos y
también la aplicación de técnicas de
aprendizaje automático para desarrollar
herramientas automáticas de análisis de los
nuevos niveles semánticos incorporados.
Cabe destacar, en primer lugar, que el
grado de cobertura alcanzado tanto en el
corpus-origen como en el corpus-prueba es
prácticamente el mismo (algo superior en este
último). En segundo lugar, la alta calidad de la
anotación automática (98%). Finalmente,
resulta de especial interés el conjunto de reglas
que se ha elaborado tanto por su alta resolución
como por las generalizaciones lingüísticas que
recogen.
Anexo 1: Entrada verbal ‘mover’
Este anexo presenta la información de la
entrada verbal ‘mover’ en CESS-LEX, que
tiene tres sentidos diferenciados.
mover–01 synset: 01249365v
C1
SUJ Arg1##TEM
CC Arg4#hacia#DES
CC ArgM##MNR
EJ: "que se movía lentamente"
mover–02 synset: 01263706v
C2
SUJ Arg0##AGT
CD Arg1##PAT
CC Arg2#por#LOC
CC ArgMcon#ADV
EJ: "las naves que movía el viento por
aguas y mares con estimable
eficiencia "
mover–03 synset: 01133437v
A1
SUJ
Arg0##CAU
CREG Arg1#a#
EJ: "resultó ser de los que mueven a la
reflexión"
Bibliografía
Cotton, S. y S. Bird. An Integrated Framework for
Treebanks and Multilayer annotations. En
Proceedings of the 2nd International
76
Multilingualidad en una aplicación basada en el conocimiento
Guadalupe Aguado de Cea
[email protected]
Elena Montiel Ponsoda
[email protected]
José Ángel Ramos Gargantilla
[email protected]
Ontology Engineering Group (OEG) – Universidad Politécnica de Madrid
Campus de Montegancedo – Boadilla del monte (Madrid)
Resumen: La necesidad de dotar de multilingualidad a sistemas basados en el conocimiento
plantea un nuevo reto a la investigación en Inteligencia Artificial. La mayoría de las estrategias
adoptadas en la actualidad para la representación de multilingualidad en bases de conocimiento han
optado por soluciones ad hoc. Partiendo, pues, de la inexistencia de planteamientos teóricos que
hayan analizado todas las posibles soluciones, en este artículo tratamos de cubrir este vacío con un
análisis detallado del fenómeno de la multilingualidad en las aplicaciones basadas en el
conocimiento, en concreto en las ontologías. En la primera parte, recogemos brevemente las
estrategias de representación de multilingualidad adoptadas por recursos léxicos existentes. A
continuación, nos centramos en los tres niveles que pueden soportar multilingualidad en las
aplicaciones ontológicas, a saber, la interfaz, la representación de conocimiento propiamente dicha
y los datos, y detallamos las principales posibilidades de representación. Asimismo se enumeran las
ventajas y desventajas de cada representación, señalando las principales implicaciones técnicas de
su implementación. Se dedica especial atención a la implantación de la multilingualidad en el nivel
de representación del conocimiento por los numerosos aspectos a considerar según la posición que
ésta ocupe. Finalmente, se señala la posibilidad de hibridación de dichos modelos de
representación.
Palabras clave: multilingualidad, representación de multilingualidad en sistemas basados en el
conocimiento, ontologías multilingües, recursos léxicos multilingües
Abstract: The incipient need to provide knowledge based systems with multilingual information
has given rise to a new challenge in Artificial Intelligence. Current strategies used to represent
multilinguality in knowledge bases have relied on ad hoc solutions. Starting from the premise that
there are no theoretical approaches to representing multilinguality and their implications, we aim at
filling this gap by presenting a detailed analysis of the multilinguality phenomenon in knowledge
based applications, specifically in ontologies. The first part of this article deals with multilingual
representation strategies followed by relevant online multilingual lexical resources, applied in the
domain of ontologies. The second part is devoted to the analysis of the three identified ontology
levels that can support multilinguality, i.e., interface, knowledge representation as such, and data,
in which we account for the main options of multilingual information representation in each level.
After a detailed survey of the different options, we describe their main advantages and
disadvantages, highlighting the technical implications of their implementation, or possible
metamodel modifications in the case a new language is added to the ontology. Special attention has
been given to multilingual representation at knowledge representation level. Finally, we include a
section in which a combination of various multilingual representation models are proposed in what
we have called hybrid systems.
Keywords: multilinguality, multilingual representation in knowledge based systems, multilingual
ontologies, multilingual lexical resources
ISSN: 1135-5948
© Sociedad Española para el Procesamiento del Lenguaje Natural
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
1
tomar como cánones puesto que no siguen
estándares,
ni
contienen
conocimiento
consensuado.
Introducción
Desde que la Inteligencia Artificial trabaja con
sistemas basados en el conocimiento, los
esfuerzos se han centrado en el desarrollo
teórico de modelos y en la construcción tanto de
motores de inferencia para explotarlos como de
aplicaciones basadas en ellos.
La aparición de las ontologías como
solución para la compartición de conocimientos
consensuados, y la consiguiente inserción de
éstas dentro de la Web, dando origen a la Web
Semántica, ha supuesto la aparición del
problema de la multilingualidad. El interés por
los temas de multilingualidad ha estado
presente en la comunidad científica desde
diferentes
perspectivas:
búsqueda
de
información multilingüe, sistemas de búsqueda
de respuestas, traducción automática, etc.
(Peñas y Gonzalo, 2004). Sin embargo, aunque
existen aplicaciones de Web Semántica y
sistemas de conocimiento multilingüe, en
general, se han adoptado soluciones específicas
y particulares dirigidas a una implementación
concreta y no como fruto de un estudio
conceptual del problema.
El Grupo de Ingeniería Ontológica (OEG)
de la Universidad Politécnica de Madrid lleva
más de diez años trabajando con ontologías y
con aplicaciones basadas en ellas, dentro y
fuera de la Web Semántica. En este tiempo ha
tratado las aplicaciones y sistemas basados en
ontologías en todos sus aspectos teóricos y
prácticos, cubriendo todas las actividades del
ciclo de vida de las ontologías. Por eso ahora,
ante la creciente necesidad de tratar con
elementos de conocimiento multilingües, ha
estudiado a fondo y de manera teórica la
implicación de la multilingualidad dentro de las
aplicaciones basadas en el conocimiento.
En este artículo abordamos el análisis de los
distintos niveles en que la multilingualidad se
puede presentar dentro de estos sistemas, y
describimos
las
posibles
soluciones
identificadas. Asimismo, para que el estudio sea
verdaderamente útil, se completa con la
evaluación de las ventajas y desventajas de cada
una de las soluciones posibles en cada caso y
nivel.
Las figuras que aparecen en este artículo
tienen como misión que las argumentaciones se
comprendan de una manera más intuitiva con el
apoyo de una representación gráfica. Todas
ellas son ejemplos docentes pero no se han de
2
Nociones previas
Antes de entrar en materia propia del artículo,
conviene tener presentes y claras una serie de
nociones que faciliten la comprensión.
A la hora de representar un conocimiento
tenemos tres niveles: datos, modelo y
metamodelo. Los datos es el nivel inferior y son
los individuos (o instancias) en sí. El modelo es
el nivel intermedio y representa la estructura de
los datos. El metamodelo es el nivel superior y
representa la estructura del modelo.
Veamos un ejemplo de una ontología sobre
animales de ficción (información de dominio):
Mickey es un individuo, Minnie es otro
individuo y Pluto es un tercer individuo.
Estos tres individuos son el conjunto de
instancias Disney, los datos. Mickey y
Minnie son instancias del concepto Ratón
ficticio, Pluto es instancia del concepto
Perro ficticio y hay una relación son
amigos entre Perro ficticio y Ratón
ficticio. Ratón ficticio y Perro
ficticio son conceptos de la ontología
Animales de ficción, el modelo.
Concepto y Relación son los componentes
de la representación de ontologías, el
metamodelo.
Un mapping es una relación entre elementos
de conjuntos diferentes. Estos conjuntos pueden
ser dos ontologías, una ontología y una base de
datos, etc.
Siguiendo con el ejemplo anterior,
imaginemos que tenemos otra ontología
(información
de
dominio)
Animales
reales, con un conjunto de instancias
llamado Zoo Madrid. En este conjunto de
instancias hay una instancia del concepto
Ratón real que se llama Madroño. Existe
un mapping que se llama tienen igual
color y que relaciona Madroño y Mickey.
Este mapping es el dato de información de
mappings. El modelo de mappings viene
representado por Elemento1, Elemento2 y
Relación. El modelo de la información de
mappings está al mismo nivel que el modelo de
la información de dominio (ontología).
Por otra parte, partiendo de las mismas dos
ontologías de antes, podemos tener un mapping
que relaciona el concepto Ratón ficticio
78
Multilingualidad en una aplicación basada en el conocimiento
adaptación de ese recurso a una comunidad
lingüística y cultural concreta. Hasta ahora, el
término ‘localización’ se ha venido aplicando al
software (Esselink, 2000). Pero, si lo
extrapolamos al dominio de las aplicaciones
basadas en ontologías, nos encontraremos con
que, en un sistema basado en el conocimiento,
ese proceso de adaptación tiene que darse en
tres niveles diferentes:
• Interfaz
• Representación del conocimiento
• Datos
de la ontología Animales de ficción y el
concepto Ratón real de la ontología
Animales reales. Este mapping se llama
toma como ejemplo a. En este caso, los
datos de la información de mappings (el
mapping toma como ejemplo a) está al
mismo nivel que los modelos de la información
del dominio (las ontologías Animales de
ficción y Animales reales). Y, por
tanto, el modelo de la información de mappings
está al mismo nivel que el metamodelo de la
información de dominio (el metamodelo de las
ontologías).
Hay que tener presente esta separación entre
la distinta información que se va a tratar (de
dominio, lingüística y de mappings), ya que,
como en el último caso de mappings
ejemplificado, no estarán al mismo nivel los
datos, modelos o metamodelos.
3
En la actualidad, pocas son las aplicaciones
basadas en ontologías disponibles en más de
una lengua natural. La biblioteca de ontologías
OntoSelect 1 contiene únicamente 28 ontologías
multilingües de las 1.117 que recoge, es decir,
menos de un 3%. Además, se ha podido
constatar que estas ontologías multilingües
muestran, en su mayoría, importantes carencias
en aquellas lenguas que no son la original de
creación de la ontología.
Como resultado de la búsqueda de
ontologías multilingües, conviene destacar la
casi nula información pública disponible sobre
la representación de la multilingualidad para los
diferentes recursos multilingües.
Esto puede ser debido a que, hasta ahora, la
representación de la multilingualidad no ha sido
objetivo primordial de la investigación sino que
el interés se centraba meramente en su
existencia. Es decir, que en los recursos y
sistemas multilingües la multilingualidad era
una propiedad secundaria, más enfocada a la
explotación de los mismos que a la
conformación del propio recurso. Sólo en casos
contados la multilingualidad ha sido tratada con
la importancia que le confiere la explotación
actual desde la perspectiva de la globalización.
No hay que olvidar en ningún momento que las
características básicas de las ontologías, que les
han convertido en uno de los sistemas de
representación más extendido y con mayor auge
en los últimos años, son el consenso de su
conocimiento y la reutilización del mismo. Y es
para lograr esta reutilización y este consenso
para lo que es básica la multilingualidad. En los
siguientes subapartados recorreremos algunos
de los sistemas que incorporan multilingualidad
Estado de la cuestión
El interés de los investigadores de Inteligencia
Artificial por el lenguaje natural se centró
primeramente en la comunicación del usuario
con la máquina, con lo que las interfaces fueron
los primeros componentes de las aplicaciones
inteligentes construidas en lenguaje natural
(Abascal y Moriyón, 2003). Así lo explica
Moreno (2000): “De hecho, el interés por los
sistemas de Natural Language Processing
basados en el conocimiento surgió a raíz de la
necesidad de construir interfaces en lenguaje
natural para sistemas expertos”. Las ontologías
tienen como principales características: el ser
un modelo consensuado por la comunidad del
dominio, la compartición de su conocimiento y
la computabilidad del mismo. Todo esto ha
convertido a las ontologías en las
representaciones más utilizadas en los nuevos
desarrollos y, sobre todo, han pasado a ser la
piedra fundamental de la creciente Web
Semántica. Al mismo tiempo, debido a su uso
generalizado, no pueden escapar al fenómeno
de la globalización que exige ahora que la
información en lenguaje natural sea además
multilingüe.
Las ontologías se enfrentan, pues, al
fenómeno de la multilingualidad -que ya se
manifiesta de forma patente en diferentes
recursos léxicos computacionales- en lo que se
ha denominado el proceso de “localización de
ontologías”. La localización de un recurso
léxico se entiende como el proceso de
1
79
http://olp.dfki.de/OntoSelect/
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
Figura 1: Esquema general de dos wordnets mapeados al ILI (Vossen, 2002)
3.1
se amplía y complementa con conceptos
específicos de cada lengua, como se muestra en
la Figura 1.
EuroWordNet
EuroWordNet 2 (EWN) (Vossen, 2002 y 2004)
fue un proyecto europeo de tres años de
duración (1996-1999) y cuyo resultado
principal fue un lexicón multilingüe. Este
recurso léxico se basaba en la estructura de la
base de datos léxica WordNet, desarrollada en
la Universidad de Princeton (Miller et al.,
1990). El objetivo del proyecto consistía en el
desarrollo de un lexicón multilingüe con
wordnets para ocho lenguas europeas
(holandés, español, italiano, inglés, francés,
alemán, checo y estonio). El enfoque general
seguido para la construcción de EWN se basaba
en la reutilización de recursos léxicos existentes
en cada lengua.
3.2
La Base de Conocimientos sobre el Genoma
Humano (GENOMA-KB 3 ) (Cabré et al., 2004a
y 2004b) fue un proyecto desarrollado en el
Instituto de Lingüística Aplicada (IULA) de la
Universitat Pompeu Fabra en Barcelona (20012003). Este proyecto persigue la construcción
de un recurso esencial para la recuperación de
información, con control terminológico, en el
dominio del genoma humano, en inglés,
castellano y catalán. Esta base de conocimiento
se divide en cuatro módulos interrelacionados:
el módulo ontológico, el módulo terminológico,
el módulo del corpus y el módulo de las
entidades, como se puede observar en la Figura
2.
El módulo ontológico se desarrolló con la
herramienta
de
gestión
terminológica
OntoTerm 4 , porque permite la construcción de
la ontología y la base de datos terminológica de
forma paralela. Esta herramienta, utilizada
también en el proyecto OncoTerm 5 ,
proporciona un núcleo ontológico formado por
21 conceptos básicos (ALL, OBJECT, EVENT,
PROPERTY, etc.). A continuación, a estos
conceptos básicos se les añadió una lista de 100
conceptos propuestos por expertos en el
Al igual que en WordNet, la información
sobre nombres, verbos, adjetivos y adverbios se
organiza en synsets (conjunto de sinónimos, es
decir, palabras con la misma categoría
gramatical, e intercambiables en ciertos
contextos). Los wordnets en EWN se
consideran
“ontologías
autónomas
monolingües”, que están interconectadas a
través de un Inter-Lingual-Index (índice
interlingüístico o ILI). Dicho ILI consta de una
lista de conceptos sin estructura, procedentes de
WordNet y relacionados con dos ontologías,
una general y otra de dominio (Top-Ontology y
Domain-Ontology,
respectivamente).
Una
selección de conceptos del ILI forma el núcleo
de las diferentes ontologías monolingües, que
3
4
2
GENOMA-KB
http://genoma.iula.upf.edu:8080/genoma/
http://www.ontoterm.com/
5
http://www.ugr.es/~oncoterm/
http://www.illc.uva.nl/EuroWordNet/
80
Multilingualidad en una aplicación basada en el conocimiento
el ontológico y el terminológico, relacionados
entre sí. Esta distribución posibilita la inclusión
de una cantidad considerable de información
lingüística en la base terminológica, sin que por
ello la ontología tenga que sufrir ningún tipo de
modificación.
dominio, y el resto de conceptos de la ontología
se recuperó a partir de información textual
especializada, con la ayuda de recursos léxicos.
De esta forma, la información lingüística pasó a
estar integrada en un modelo separado de la
ontología, con lo que se obtenían dos modelos,
Figura 2: Arquitectura de la base de conocimiento GENOMA-KB (Feliu, Vivaldi y Cabré, 2002)
3.3
AGROVOC
4
La Organización de las Naciones Unidas para la
Agricultura y la Alimentación (FAO) desarrolló
el Tesauro AGROVOC (Soergel et al., 2006) a
principios de los años 80 con la finalidad de
estandarizar el proceso de indexación y
recuperación de datos en el dominio de la
agricultura, la pesca, la alimentación y otros
dominios relacionados como el medio
ambiente. AGROVOC se desarrolló por
expertos del dominio en inglés, y
posteriormente se tradujo al español y al
francés. Actualmente está disponible online 6 en
10 lenguas y en proceso de traducción para
otras tantas.
La estructura del tesauro actual se centra en
una representación conceptual basada en la
concepción semántica del inglés, con
traducciones al resto de lenguas, con lo que la
información lingüística estaría integrada en el
modelo de la ontología. Todas y cada una de las
lenguas comparten un mismo concepto, y los
términos se consideran equivalentes entre sí.
6
Niveles de multilingualidad
Como ya se ha apuntado, la multilingualidad,
en una aplicación sobre un sistema basado en el
conocimiento, puede darse en tres niveles
diferentes:
Interfaz
Representación del conocimiento
Datos
Una vez identificados los niveles en los que
se manifiesta la multilingualidad, en los
apartados siguientes se analizan cada uno de
ellos y se presentan diversas propuestas sobre
cómo incorporar la multilingualidad en las
ontologías, destacando las ventajas y
desventajas de las soluciones propuestas.
5
Interfaz
Aunque el análisis de la interfaz ya haya sido
tratado por otras áreas más cercanas a la
interacción hombre-máquina, queremos dejar
patente la idea de que la multilingualidad de
una interfaz puede o no conllevar la
multilingualidad del resto de la aplicación (el
sistema basado en el conocimiento subyacente).
http://www.fao.org/aims/
81
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
Por ello creemos que es conveniente
mencionarlo en este estudio para dar una idea
más global del alcance de la multilingulidad en
todas sus facetas.
La multilingualidad en la interfaz puede
darse en dos visualizaciones diferentes:
visualización de mensajes y visualización de
contenido.
5.1
Mensajes
Los mensajes de una interfaz pueden ser
monolingües o multilingües, y, dentro de los
segundos,
pueden
ser
multilingües
simultáneamente o no.
Figura 3: Ejemplo de mensajes monolingües
Figura 4: Ejemplo de mensajes multilingües
simultáneos
Figura 5: Ejemplo de mensajes multilingües no simultáneos
En el segundo caso, la aplicación consultará
la base de conocimientos y luego utilizará un
recurso multilingüe (diccionario, glosario, base
de datos, etc.) para traducir el contenido y
mostrarlo a través de la interfaz.
En ambos casos, la interfaz resultante sería
similar y podría seguir la misma política de
simultaneidad o no simultaneidad que se ha
mencionado en la visualización de mensajes.
Sin embargo, es importante tener en cuenta el
que la base de conocimientos sea multilingüe o
no para los tiempos de respuesta.
En la Figura 3 aparece un ejemplo de
interfaz con mensaje monolingüe en inglés. En
la Figura 4 se muestra un ejemplo de interfaz
con mensajes multilingües simultáneos, es
decir, con más de una lengua a la vez (inglés y
español en el ejemplo).
Finalmente, en la Figura 5 se encuentra un
ejemplo de interfaz con mensajes multilingües
no simultáneos: se puede ver en varios idiomas
pero sólo uno cada vez.
5.2
Contenido
La visualización de contenido de forma
multilingüe tiene dos posibles vías de
resolución: (a) la base de conocimientos es
multilingüe, o (b) la base de conocimientos es
monolingüe y se usa un sistema de traducción.
En el primer caso, la aplicación sólo
realizará una consulta a la base de
conocimientos para obtener el contenido que
mostrará la interfaz en el idioma requerido.
5.3
Ventajas y desventajas
Cada una de las soluciones mencionadas
presenta ventajas e inconvenientes. La
visualización de mensajes de forma simultánea
implica que la incorporación de nuevos idiomas
requiere la modificación del código de
visualización existente. Ahora bien, la
visualización no simultánea no implica la
modificación de todo el código existente, sino
82
Multilingualidad en una aplicación basada en el conocimiento
realización sería una ontología propiamente
dicha (ontología de coches, de libros, de
profesiones, etc.).
Veamos cada una de ellas y las
implicaciones de cada uno de los aspectos de la
multilingualidad ejemplificando con el caso
concreto de las ontologías.
la ampliación del número de interfaces y la
consiguiente modificación de la parte de
interfaz donde se codifican las opciones
(banderas en el ejemplo de la Figura 5).
En cuanto a los tiempos de respuesta en las
consultas, podemos encontrarnos con dos casos:
(a) si se dispone de una base de conocimientos
multilingüe, el tiempo de obtención de los
contenidos que se muestran es el tiempo de
respuesta de la base de conocimientos. Esto se
debe a que se ha conferido multilingualidad a la
base de conocimientos en tiempo de diseño. Sin
embargo, para el caso (b) cuando la base de
conocimientos es monolingüe, la traducción se
realiza en tiempo de ejecución, y el tiempo de
obtención de los contenidos es el tiempo de
respuesta de la base de conocimientos más el
tiempo de respuesta del recurso multilingüe que
proporciona la traducción. En este segundo
caso, pueden surgir ciertos problemas
adicionales
como,
por
ejemplo,
la
desambiguación, que, en el primer caso, se
habrá resuelto en tiempo de diseño. Esto supone
que la aplicación tendrá unos tiempos de
respuesta diferentes en cada solución.
6
6.1
Información
La información sobre la multilingualidad de
una representación del conocimiento forma
parte de los metadatos de dicha representación.
Así, junto con metadatos como el autor o la
fecha de creación de la representación del
conocimiento, aparecerá la información sobre
multilingualidad.
En principio, tan sólo sería necesario saber
las lenguas en las que la representación (en este
caso en particular, la ontología) está disponible.
Y decimos en principio porque, como se verá
en la parte de modelización, también será
necesario expresar los componentes de la
representación (de la ontología) que tienen esta
multilingualidad.
Para ejemplificar esto, tomemos como base
una representación de ontología en la que se
almacenan como metadatos el autor, la fecha de
creación y la dirección URI donde se encuentra.
Con la finalidad de ofrecer una realización
concreta es recomendable introducir esta
información en un estándar o similar, como es
el vocabulario de metadatos sobre ontologías
OMV (Hartman y Palma, 2006).
Para almacenar la información sobre
multilingualidad,
existen
dos
posibles
soluciones:
1) Concepto lingüístico: Se dispone del
concepto
Language,
con
su
correspondiente caracterización, y se
asocia con el concepto Ontology. Esta
relación lleva asociada la información
relativa a los componentes que están en
dicha lengua. En la Figura 6 se han
incluido unas etiquetas bajo el concepto
Language a modo de ejemplo, teniendo
en cuenta que una lengua tiene diversos
componentes (alfabético, con caracteres
cirílicos o latinos, por ejemplo, morfosintáctico, léxico y semántico). La
multilingualidad pasaría por tener varias
relaciones para las diferentes lenguas.
Representación del conocimiento
La multilingualidad en una representación del
conocimiento se tiene que abordar a tres
niveles: Información, Modelización y
Realización. En cuanto al primero, la
Información, se refiere al dato de que la
representación del conocimiento se encuentra
expresada en varios idiomas. La Modelización
es la representación de los componentes que
darán multilingualidad a la representación del
conocimiento. Finalmente, la Realización es la
expresión lingüística real de la multilingualidad
en la representación del conocimiento.
Tomemos un ejemplo sencillo para la mejor
identificación de los niveles: un libro. La
información serían los datos del libro (autor,
título, año de publicación, país), la
modelización sería similar a “páginas impresas
consecutivas entre dos pastas y unidas por un
lado común llamado lomo” y la realización
sería el tomo físico. Igualmente, para el caso de
las ontologías, la información está compuesta
por los metadatos de la ontología (autor, fecha
de creación, etc.), la modelización es la
metaontología que describe los componentes de
la ontología y sus relaciones (conceptos que
tienen atributos y se unen por relaciones...) y la
83
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
Figura 6: Información de multilingualidad con concepto que representa la lengua (Language)
2)
Por otra parte, la segunda solución (Figura
7) supone una pérdida de información
lingüística sobre la lengua. Por ello, resulta
imprescindible realizar una evaluación previa
de la información lingüística necesaria para el
sistema en concreto. Sin embargo, si se quiere
prescindir de este tipo de información, resulta la
solución más sencilla, porque tiene menos
información lingüística y es más fácil de
implementar.
Ahora bien, en el caso en que se hiciera una
modificación como la propuesta en la opción 2,
pero sólo con un atributo en que se indicase la
lengua (Language) en vez de la tupla
(Component, Language), se perdería la
posibilidad de que un componente de la
conceptualización pudiera ser multilingüe o
monolingüe independientemente del resto de
componentes.
Modificación del concepto Ontology:
Se dispone de un metadato con valor
múltiple y ese metadato se representa por
medio de tuplas de la lengua y del
componente que está en dicha lengua.
Figura 7: Informacion de multilingualidad
modificando el concepto Ontology
En la Figura 6 se puede ver un ejemplo
correspondiente a la primera solución y en la
Figura
7
se
presenta
un
ejemplo
correspondiente a la segunda solución.
Cualquiera de las dos soluciones resolvería
la expresión de información sobre la
multilingualidad. Además, la representación de
la información de multilingualidad es
independiente del enfoque que se siga para la
representación del contenido.
6.1.1
6.2
Modelización
La segunda de las perspectivas que hemos
mencionado es la modelización. En este
ámbito, la modelización de la multilingualidad
en ontologías admite tres posibles soluciones:
(a) ampliación con información lingüística del
metamodelo de ontologías, (b) agregación de un
modelo de información lingüística que se
relacionará con el metamodelo de ontologías
para representar la multilingualidad, y (c)
utilización de un modelo de mappings para
relacionar ontologías monolingües y obtener así
multilingualidad.
En los tres subapartados siguientes se
muestran diversos ejemplos de modelizaciones
que ilustran las soluciones propuestas. En
ningún caso se ha pretendido, por razones de
espacio, una exhaustividad total en las posibles
variantes que permita cada solución, sino que el
objetivo es, más bien, facilitar al lector la
comprensión de las teorías expuestas, teniendo
en cuenta que los ejemplos no son reales pero sí
extrapolables.
Ventajas y desventajas
Veamos ahora las implicaciones de cada una de
las dos soluciones. La primera opción (Figura
6) requiere la instanciación del concepto
Language con información del dominio
lingüístico, lo que no es un trabajo trivial.
Además, sistemas que traten con relaciones que
lleven asociadas información semántica (en este
caso is expressed in lleva asociado
component) son difíciles de encontrar. Para
superar este handicap se puede optar por una
reificación, con lo que toma entidad de
concepto Component y se establecen dos
relaciones: Composed by entre Ontology y
Component y is expressed in entre
Component y Language.
84
Multilingualidad en una aplicación basada en el conocimiento
6.2.1 Metamodelo
modificado
de
ontologías
En este caso, dentro del metamodelo de la
ontología se incluye la modelización de la
información de la multilingualidad. Hay que
tener en cuenta que esta información se puede
precisar a nivel de componentes (clase,
propiedad, axioma, etc.) dentro de la ontología.
Así, las modificaciones en el metamodelo de la
ontología pueden ser más o menos profundas,
según el número de componentes al que afecte.
Figura 10: Ejemplo de ampliación con
multilingualidad en atributos de los conceptos
Figura 8: Ejemplo de metamodelo de ontologías
Figura 11: Ejemplo de ampliación con
multilingualidad en etiquetas relacionadas con
los atributos
Figura 9: Ejemplo de ampliación con
multilingualidad de etiquetas en conceptos, con
idiomas previamente fijados
Figura 12: Ejemplo de ampliación con
multilingualidad en etiquetas relacionadas con
los conceptos y atributos
En la Figura 8 se puede ver un ejemplo
simplificado de un metamodelo de ontologías
siguiendo el paradigma de marcos
85
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
En las siguientes figuras presentamos varias
modificaciones de ese metamodelo: con
multilingualidad en etiquetas de conceptos
(Figura 9 y Figura 10); con multilingualidad en
etiquetas de atributos (Figura 11); con
multilingualidad en etiquetas tanto de conceptos
como de atributos (Figura 12) y, finalmente,
incluyéndola en etiquetas de conceptos, de
atributos y de relaciones (Figura 13). En
realidad, puede haber más combinaciones, pero
como se ha mencionado antes, no se pretende
recoger aquí una relación exhaustiva de todas
las posibles.
6.2.2 Metamodelo de ontología y Modelo
de recurso lingüístico
La creación de un modelo para la información
multilingüe utilizando un modelo de recurso
lingüístico permite un aumento de las
posibilidades de inclusión de información
acerca del idioma de expresión de los
componentes de las ontologías. El metamodelo
de multilingualidad constará, pues, del
metamodelo de la ontología, el modelo del
recurso lingüístico y los enlaces entre el
metamodelo de ontologías y el modelo de
recurso lingüístico.
La Figura 14 ilustra una posible solución
para un modelo de etiquetas (modelo del
recurso lingüístico), que no modifica el
metamodelo de ontologías que aparece en la
Figura 8. En este modelo de recurso lingüístico
la etiqueta viene caracterizada por un texto
(Text), por ejemplo ‘vino’.
Figura 13: Ejemplo de ampliación con
multilingualidad en etiquetas relacionadas con
tres componentes
Figura 14: Ejemplo de modelo de etiquetas
Figura 15: Ejemplo de metamodelo de multilingualidad para etiquetas de conceptos
86
Multilingualidad en una aplicación basada en el conocimiento
Figura 16: Ejemplo de metamodelo de multilingualidad para etiquetas de conceptos, de atributos y de
relaciones
Se puede utilizar un modelo de recurso
lingüístico con información específica para
etiquetas o utilizar uno que modele más
información aunque no sea necesaria para este
uso.
Al igual que en la sección anterior, existen
múltiples posibilidades a la hora de combinar
las etiquetas y los componentes de la ontología
para dotar a estos últimos de multilingualidad.
En la Figura 15 se muestra un ejemplo de
metamodelo de multilingualidad para etiquetas
de conceptos. En la Figura 16 se muestra un
metamodelo de multilingualidad para etiquetas
de conceptos, de atributos y de relaciones.
6.2.3 Metamodelo de ontología y Modelo
de mappings
Otra forma de conseguir que el modelo sea
multilingüe es mediante la combinación de un
modelo de mappings con el metamodelo de
ontologías. En este caso, la multilingualidad se
consigue con ontologías del mismo dominio
pero en diferente lengua (todas monolingües) y
mappings de equivalencia entre los términos de
las diferentes lenguas.
Un ejemplo de este metamodelo se muestra
en la Figura 17.
Figura 17: Ejemplo de metamodelo de multilingualidad con mappings para etiquetas de conceptos, de
atributos y de relaciones
87
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
La finalidad de este metamodelo no es ser
un metamodelo de multilingualidad, aunque
con él se pueda representar la multilingualidad
si atendemos sólo a los mappings que
relacionan componentes a través de la función
“translate” o “equivalence label”, por ejemplo.
Así pues, la multilingualidad puede
presentarse de múltiples formas, dependiendo
tanto del modelo de mappings que se utilice
como del metamodelo de ontologías empleado,
y de las relaciones que entre ambos se
establezcan. Por ejemplo, si el mapping no es
de aridad limitada a dos, es decir, relaciona más
de dos elementos, se podría hacer un mapping
múltiple entre todos los términos relacionados y
de esta forma se evitaría un alto número de
mappings binarios entre varias ontologías
monolingües.
Este metamodelo es el menos intuitivo a este
nivel
de
abstracción,
pero
quedará
suficientemente claro al mostrar las diferentes
realizaciones posibles que se derivan de él, y
que se analizan en la sección 6.3.3.
6.3
Realización
La tercera de las perspectivas apuntadas más
arriba es la realización de la multilingualidad,
que está unida irremediablemente a la
modelización de la misma. Estas acciones son
las dos únicas, de las que aparecen en este
documento,
que
tienen
una
estrecha
interrelación, de manera que la una depende de
la otra, ya que la realización no es más que la
instanciación de la modelización, es decir, el
modelo será la instancia del metamodelo.
6.3.1 Información lingüística dentro de la
ontología
En este primer caso, la realización se
corresponde con el enfoque en que se amplía el
metamodelo de la ontología para introducir la
información lingüística que permitirá la
multilingualidad (5.2.1.).
Según sea la modificación del metamodelo
que se haya seguido obtenemos diversas
realizaciones. Así, la Figura 18 muestra un
ejemplo de realización del metamodelo de
ejemplo mostrado en la Figura 9.
Figura 18: Ejemplo de modelo basado en un metamodelo de ontologías ampliado para etiquetas
multilingües en conceptos
Figura 19: Ejemplo de modelo basado en metamodelo de ontologías ampliado para etiquetas
multilingües en conceptos y atributos
En el ejemplo de la Figura 18 se observa
que existen tres etiquetas que identifican a
cada concepto. Sin embargo, tal como se puede
ver en la Figura 9, los atributos no tienen
multilingualidad al sólo disponer de una
etiqueta.
Si la ampliación del metamodelo de
ontologías afectase de igual forma a los
atributos, dotándoles de las mismas tres
etiquetas, se obtendría un modelo como el
reflejado en la Figura 19.
88
Multilingualidad en una aplicación basada en el conocimiento
Figura 20: Ejemplo de modelo basado en metamodelo de ontologías ampliado con etiquetas asociadas
a conceptos
relacional, una base terminológica, un lexicón
multilingüe, un tesauro multilingüe, etc., el
número de emparejamientos ‘modelo de
ontologías’ – ‘conjunto de instancias del
recurso lingüístico’ se dispara. Además, puede
darse el caso de que se utilice un metamodelo
de ontologías que almacene información
lingüística de una lengua en sus etiquetas o bien
que las etiquetas de la ontología no pertenezcan
a ninguna lengua.
Para ejemplificar estas posibilidades se
muestran a continuación dos ejemplos
reflejados en la Figura 21 y la Figura 22. En la
primera de ellas la ontología no contiene
información lingüística y toda la información
que conforma la multilingualidad está
almacenada en el recurso lingüístico, que, para
facilitar la comprensión, se ha optado por
representar de una manera simplificada.
Como se menciona en la sección anterior, se
pueden realizar diferentes ampliaciones en el
metamodelo de ontología para incluir la
información lingüística que permite representar
la multilingualidad. En la Figura 20 se puede
ver un ejemplo de realización correspondiente
al metamodelo que aparece en la Figura 10.
6.3.2 Información lingüística fuera de la
ontología
Cuando la información lingüística toma entidad
y se convierte en modelo separado de la
ontología en sí, estamos ante la posibilidad de
utilizar metamodelos de multilingualidad que
engloben el metamodelo de ontologías, el
modelo del recurso lingüístico y las relaciones
entre estos dos.
Ahora bien, puesto que el modelo del
recurso lingüístico puede ser una base de datos
Figura 21: Ejemplo de modelo basado en un metamodelo de multilingualidad con metamodelo de
ontologías “alingüe” y modelo de recurso lingüístico
89
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
Figura 22: Ejemplo de modelo basado en un metamodelo de multilingualidad con metamodelo de
ontologías monolingüe y modelo de recurso lingüístico
En cambio, en la Figura 22, podemos ver
que la información correspondiente a una de las
lenguas está almacenada en forma de etiquetas
en la ontología.
Para ilustrar mejor estos casos, cabe
mencionar, como ejemplo de un sistema real
que sigue uno de estos modelos, el sistema
Genoma-KB (Cabré et al., 2004a y 2004b).
Como se ha visto en el estado de la cuestión,
este sistema consta de una ontología con
etiquetas que no se atienen a ninguna lengua y
una base terminológica en donde se encuentra
la información lingüística que dota de
multilingualidad a la base de conocimientos.
Aunque en los ejemplos mencionados en
este apartado se toma, por razones de claridad,
la multilingualidad de las etiquetas de los
conceptos, no hay que olvidar que pueden
existir
también
otros
sistemas
con
multilingualidad
para
los
diferentes
componentes de las ontologías (atributos,
relaciones, etc.) y todas sus combinaciones.
6.3.3 Uso
lingüística
de
mappings
con
función
Como ya se ha apuntado en el epígrafe 6.2.3,
los modelos basados en un metamodelo de
multilingualidad que conste de un metamodelo
de ontologías enlazado a un modelo de
mappings pueden tener varias realizaciones
diferentes según sea el modelo de mappings.
Así, aunque se siga el mismo metamodelo de
multilingualidad, se pueden obtener diferentes
realizaciones siempre que las herramientas lo
permitan.
Veamos alguna de estas posibilidades.
Tomando como base el metamodelo del
ejemplo que aparece en la Figura 17, se
muestran a continuación tres realizaciones
diferentes: con mappings binarios entre
conceptualizaciones monolingües en forma de
grafo ortogonal (Figura 23), con mappings narios entre conceptualizaciones monolingües
(Figura 24) y con mappings binarios entre las
conceptualizaciones monolingües y una
conceptualización intermedia en forma de grafo
radial (Figura 25).
Figura 23: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings binarios en
grafo ortogonal
90
Multilingualidad en una aplicación basada en el conocimiento
Figura 24: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings n-arios
Figura 25: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings binarios en
grafo radial
con mappings binarios, se puede recurrir a la
construcción de una conceptualización sin
información lingüística que haga las veces de
solución reificada de la anterior.
La realización que sigue este último modelo,
ejemplificado en la Figura 25, es similar a la
utilizada por EuroWordNet (Vossen, 2002 y
2004), analizada en el estado de la cuestión,
donde la conceptualización intermedia es una
Interlingua (ILI) que no pertenece a ninguna de
las lenguas que reconoce el sistema. En
EuroWordNet las ontologías no son meras
traducciones tal y como las tomamos para la
realización, sino conceptualizaciones propias de
cada lengua.
Al igual que se ha explicado en el apartado
anterior, todos los modelos de ejemplo
correspondientes a esta sección se están
tomando como multilingües a nivel de etiquetas
de concepto, pero, siempre que lo admita el
metamodelo de mappings, se puede representar
multilingualidad del componente o conjunto de
componentes que se desee.
En el caso del modelo de la Figura 24 se
pueden ver mappings de aridad tres, pues la
aridad ha de ser igual al número de ontologías
monolingües del sistema.
La gran desventaja de esta solución es que
ningún sistema contempla mappings de aridad
superior a dos, salvo soluciones ad hoc para
operaciones concretas. Sin embargo, para
expresar esta misma información de otro modo
91
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
6.4
Comparativa de las soluciones
Objetivo de la
Nivel de
modificación
complejidad
Metamodelo
3
n modelos o conjuntos de
2
instancias
1 modelo
1
Para poder elegir entre una de las soluciones
que aquí se han expuesto, es necesario disponer
de unos criterios básicos sobre los que se apoya
la decisión que se vaya a tomar, ponderando
para cada caso particular, la conveniencia de
cada solución.
Para
facilitar
esta
tarea,
hemos
confeccionado una tabla en donde se reflejan
estos datos.
Las características y los criterios que se han
tomado como referencia son:
(a) Número de metamodelos y modelos del
metamodelo de ontologías multilingües
(f) Complejidad del mantenimiento de la
consistencia: este mantenimiento depende
del número de modelos y conjuntos de
instancias del modelo multilingüe. Cuantos
más modelos sean necesarios (más gestores
de esos modelos), mayor dificultad habrá en
mantener la consistencia.
Complejidad
(b) Número de modelos y conjuntos de
instancias del modelo multilingüe
c (constante)
n (lineal)
n² (cuadrática)
(c) Número de razonadores (R): depende del
número de modelos y conjuntos de
instancias. Nos encontraremos 3 tipos de
razonadores:
• Razonadores sobre ontologías (OR)
• Razonadores sobre mappings (MR)
• Razonadores sobre recurso lingüístico
(LRR)
(g) Disponibilidad real de herramientas y
sistemas existentes: este criterio se refiere al
número
de
componentes
(gestores,
razonadores, etc.) con los que se puede
contar realmente.
(d) Complejidad de las consultas: el nivel de
complejidad de una consulta se infiere del
número de modelos y conjuntos de
instancias del modelo multilingüe y del
número de componentes de ellos que han de
ser consultados para obtener el resultado.
Así, hemos identificado 5 niveles de
complejidad diferentes
para nuestro
propósito, que estarán comprendidos en un
rango de 1 (la más baja complejidad) a 5 (la
más alta complejidad).
Nivel de
complejidad
1 componente
2 componentes
3 componentes
1 modelo o
conjunto de
instancias
1
2
-
Nivel de
complejidad
1
2
3
Una vez establecidos los criterios de
evaluación, veamos cómo se aplican a los
ejemplos de los 3 metamodelos multilingües
presentados en la sección anterior.
1) Metamodelo de ontologías modificado.
En los ejemplos recogidos en la Figura 9, la
Figura 10, la Figura 11, la Figura 12 y la Figura
13, pueden verse los modelos multilingües fruto
de la inserción de la información lingüística
dentro de una clase del metamodelo de las
ontologías.
2 modelos o
conjuntos de
instancias
3
4
5
En estos modelos, el número de modelos (a)
es 1, y, por tanto, el número de razonadores (c)
es también 1. El nivel de complejidad de la
consulta (d) reflejado en los modelos de la
Figura 18 y la Figura 19 es también 1, porque
para obtener el resultado se necesita consultar
un modelo y un único componente, lo que
representa una gran ventaja. Sin embargo, para
los modelos multilingües provenientes de
incorporar información lingüística como clases
dentro del metamodelo de ontologías (Figura
20), la complejidad de la consulta aumenta a 2,
ya que en las resoluciones se requiere de dos
componentes (las clases con información
conceptual y las clases con información
lingüística).
(e) Complejidad de adición de una nueva
lengua: el grado de complejidad que nos
encontraremos cuando queramos añadir una
nueva lengua a nuestra base de
conocimiento depende de los elementos que
haya que modificar, pudiéndo estar entre 1
(la menor) y 3 (la mayor):
92
Multilingualidad en una aplicación basada en el conocimiento
Por otra parte, para añadir una nueva lengua
(e), nos encontramos con algunas limitaciones,
porque el número de lenguas en el metamodelo
multilingüe de la Figura 10 se ha establecido en
tiempo de diseño y, por lo tanto, es fijo.
Aumentar el número de lenguas supondría una
gran desventaja, porque sería necesario cambiar
el metamodelo de toda la base de conocimiento.
Por esto es por lo que la complejidad de esta
tarea sería 3. En cambio, para el caso de añadir
otras lenguas en los casos reflejados en la
Figura 10, Figura 11, la Figura 12 y la Figura
13 no haría falta cambiar el metamodelo, con lo
que la complejidad de esta tarea sería 1.
Metamodelo de
ontologías
multilingüe
Metamodelo
ontologías
modificando
Concept
Figura 9
Metamodelo
ontologías
insertando
conceptos
Figura 10,
Figura 11,
Figura 12 y
2) Metamodelo de ontologías + Modelo de
recurso lingüístico. Veamos ahora el caso de
metamodelos de ontologías enlazados con
modelos de recursos lingüísticos (Figura 15 y
Figura 16), que se corresponden con los dos
ejemplos
de
modelos
multilingües,
representados en la Figura 21 y la Figura 22. En
estos casos, nos encontramos con 2 modelos o
conjuntos de instancias (a), que implican 2
razonadores (c), y el nivel de complejidad de
las consultas (d) es 3.
Metamodelo
ontologías +
modelo RL
Figura 15 y
Metamodelo ontologías + modelo mappings
Figura 17
Figura 16
Figura 13
Modelo de
ontologías
multilingüe
Número de
metamodelos y
modelos (a)
Número de
modelos y
conjuntos de
instancias:
ontologías (O),
mappings (M)
y LR (b)
Número de
razonadores (c)
Complejidad
de consultas (d)
Complejidad
de adición de
lengua (e)
Complejidad
mantenimiento
consistencia (f)
Disponibilidad
real (g)
Figura 18 y
Figura 19
Figura 20
Mappings en
distribución
ortogonal
Mappings en
distribución
radial
Figura 23
Figura 25
2
2
2
2
1(O) +
n(O) +
n (O) +
n+1(O) +
1 (LR)
n(n-1)/2 (M)
1(M)
n (M)
Figura 21 y
Figura 22
Mappings de
aridad n
Figura 24
1
1
1(O)
1(O)
1 OR
1 OR
1 OR
1 LRR
1 OR
1 MR
1 OR
1 MR
1 OR
1 MR
1
2
3
4
5
4
3
1
del recurso
lingüístico)
2
1
1
1
1
2
n + n(n+1)/2
n+1
2n+1
SÍ
SÍ
(depende del
recurso
lingüístico)
SÍ
SÍ
NO
1-3 (depende
Tabla 1: Criterios de selección de soluciones
lingüístico. Si ello implica modificación del
modelo en el recurso lingüístico la complejidad
será 3 (en este caso representará una desventaja
Por otra parte, el nivel de complejidad de
añadir una nueva lengua (e) puede variar de 1 a
3, dependiendo del modelo del recurso
93
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
importante), pero si sólo se trata de añadir
nuevas instancias de la información lingüística,
la complejidad será 1. Del mismo modo, el
criterio de la disponibilidad de las herramientas
y sistemas existentes está condicionado al
modelo del recurso lingüístico.
sólo un conjunto de instancias de mappings
ha de modificarse.
• Si el sistema se forma con mappings n-arios
(Figura 24) el nivel de complejidad será el
mismo que en el caso anterior, ya que sólo
habrá que modificar un conjunto de
instancias de mappings.
3) Metamodelo de ontologías + Modelo de
mappings. El metamodelo de multilingualidad
formado por el metamodelo de ontologías y el
modelo de mappings (Figura 17) tiene 2
metamodelos o modelos (a), pero el número de
modelos de ontologías y conjuntos de instancias
de mappings sobre los que mantener la
consistencia (f) no es igual para cada
instanciación. Así, se obtienen tres diferentes
planteamientos, representados en la Figura 23,
la Figura 24 y la Figura 25, respectivamente,
donde este número varía:
• Si el sistema se forma con mappings
binarios en una distribución ortogonal
(Figura 23) el número es: n (ontologías) +
n(n-1)/2 (conjuntos de mappings).
Sin embargo, el problema para el uso de la
última solución (Figura 24) no es la
complejidad asociada que lleve, sino que no
existen sistemas y herramientas que sean
capaces de manejar mappings de aridad mayor
que dos.
Para hacer uso de la tabla y obtener la
solución más adecuada a nuestras necesidades,
habrá de tener en cuenta todas las
características de la situación de partida a la
hora de crear nuestra aplicación. Así, a los
aspectos reflejados directamente en la tabla y
que son propios del uso de la aplicación
(frecuencia de modificaciones en el número de
idiomas, frecuencia de consultas, etc.), se
añaden los derivados de las situaciones
particulares de cada caso. Por ejemplo, si
partimos de cero y queremos crear un sistema
basado en el conocimiento y una aplicación
multilingüe sobre cualquier plataforma ya
existente que gestione este sistema, no implica
ninguna
restricción
adicional
a
las
características intrínsecas del uso de la
aplicación. Sin embargo, si partimos de una
ontología creada y que está alojada en un
determinado servidor que nos conviene
mantener, las características de este servidor
harán que el número de posibles soluciones a
adoptar sea inferior (el servidor puede limitar el
número máximo de modelos a usar, no dar
soporte a mappings, etc.).
• Si el sistema se forma con mappings
binarios en una distribución radial (Figura
25) el número es: n + 1 (ontologías) + n
(conjuntos de mappings).
• Si el sistema se forma con mappings n-arios
(Figura 24) el número es: n (ontologías) + 1
(conjuntos de mappings).
Estas soluciones tienen una gran desventaja
al tener que repetir información conceptual en
todas las ontologías (monolingües). La
complejidad de las consultas (d) está entre 4 y 5
porque el número de modelos y los multiples
componentes que habría que consultar para
resolverlas. Una limitación importante a tener
en cuenta es el mantenimiento de la
consistencia. El número de mappings puede ser
muy alto, en consonancia con el número de
modelos de ontologías, con lo que la
consistencia puede verse amenazada. La adición
de una nueva lengua (e) supone un nivel de
complejidad bajo:
• Si el sistema se forma con mappings
binarios en una distrbución ortogonal
(Figura 23) el nivel será el más alto de los
tres casos, siendo de 2, al ser necesario tener
que cambiar n conjuntos de instancias de
mappings.
7
Datos
El último de los niveles en los que se manifiesta
la multilingualidad es en los datos, es decir, la
información sobre los individuos. En este caso,
vendrá condicionada por la propia naturaleza de
los individuos y estará modelada en la
representación del conocimiento que se toma
para el dominio.
Dependiendo de la naturaleza de los datos y
del dominio de que se trate, la modelización de
la multilingualidad dentro de la representación
del conocimiento puede ser muy variada. La
• Si el sistema se forma con mappings
binarios en una distribución radial (Figura
25) el nivel de complejidad es 1, porque tan
94
Multilingualidad en una aplicación basada en el conocimiento
la representación de conocimiento por la
característica Language, que es parte de la
descripción del concepto (Article o Man).
En la Figura 27 se muestra otro ejemplo de
datos multilingües, pero en este caso los
individuos que aparecen son mono y
multilingües.
multilingualidad se tratará como otro carácter
del dominio que habrá que modelar.
En la Figura 26 se muestran dos ejemplos de
datos multilingües modelados con una
representación del conocimiento monolingüe.
En ambos casos, los datos individualmente son
monolingües, pero su conjunto es multilingüe y
esa multilingualidad está contemplada dentro de
Figura 26: Ejemplos de datos multilingües (individuos monolingües)
Figura 27: Ejemplo de datos multilingües (individuos multilingües)
8
embargo, aportar la multilingualidad para
atributos y relaciones a través de la conexión
con un metamodelo de un recurso lingüístico.
Se podría incluso optar por tener
multilingualidad a nivel de aplicación global
para el contenido, realizándose la traducción de
las relaciones en tiempo de ejecución, mientras
que los atributos se pueden traducir en tiempo
de diseño.
Hibridaciones
Como se ha explicado a lo largo de este trabajo,
la multilingualidad de la base de conocimiento
se puede dar en uno o en varios componentes de
la representación del conocimiento. Por tanto,
pueden diseñarse sistemas en los que se haya
optado por dotar de multilingualidad a cada
componente, mediante una solución distinta.
Por ejemplo, se puede tener la multilingualidad
correspondiente a las etiquetas de los conceptos
dentro del metamodelo de la ontología y, sin
95
Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla
9
ontologías monolingües (c) tiene dos
implicaciones importantes: la primera se refiere
a la existencia de ontologías en todas y cada
una de las lenguas, y la segunda a que la
disponibilidad de herramientas que traten con el
modelo de mappings dependerá de la aridad de
los mismos.
Finalmente, cabe destacar la posibilidad de
combinar opciones de representación a los
distintos niveles e incluso para los distintos
componentes, creando de ese modo sistemas
híbridos que se pueden adaptar a las
necesidades del recurso y, lo que es más
importante, dejan la puerta abierta a la
reutilización de recursos existentes.
Conclusiones
Como se ha explicado, el problema de dotar
de multilingualidad a las aplicaciones sobre
sistemas basados en el conocimiento, también
denominado proceso de “localización”, ha
adquirido gran importancia. Tras una revisión
de diversos recursos multilingües, nos
centramos en ofrecer una breve explicación de
las nociones más relevantes de los tres niveles
que pueden soportar multilingualidad en una de
estas aplicaciones, es decir, la interfaz, la
representación del conocimiento y los datos. En
este trabajo se hace un examen exhaustivo de
las diferentes posibilidades de representación y
sus implicaciones a nivel técnico. Cabe destacar
la importancia de la identificación de las
ventajas e inconvenientes en todos y cada uno
de los aspectos de la representación del
conocimiento, principalmente en la elección de
la modelización de la multilingualidad.
Los metamodelos de representación de
multilingualidad que en este artículo se recogen
son tres:
(a) Metamodelo de ontología modificado
(b) Metamodelo de ontología y Modelo de
recurso lingüístico
(c) Metamodelo de ontología y Modelo de
mappings
10
Agradecimientos
El trabajo aquí expuesto ha sido financiado por
el proyecto europeo NeOn: Networked
Ontologies (FP6-027595).
Bibliografía
Abascal, J. y R. Moriyón. 2002. Tendencias en
interacción Persona-Computador. Revista
Iberoamericana de Inteligencia Artificial,
Vol. 6, nº 16.
Esselink, B. 2000. A practical guide to software
lozalization. John Benjamins Publishing.
Todos ellos cumplen con la función de
proporcionar multilingualidad al sistema. Sin
embargo, las implicaciones que se deriven de
cada elección pueden tener distintos alcances,
como se ha resumido en la Tabla 1,
principalmente en cuanto a la complejidad de la
consulta y la complejidad que implica la
inclusión de una nueva lengua. Así pues, un
metamodelo de ontología ampliado con
información lingüística (a) presenta distintas
modificaciones del metamodelo dependiendo de
los componentes de la ontología que vayan a
soportar multilingualidad, lo que a su vez
implica cambios en la complejidad de la
consulta. El caso (b) de agregación de un
modelo de recurso lingüístico relacionado con
el metamodelo de ontología permite una única
conceptualización para todas las lenguas y la
independencia de la información lingüística. En
cuanto a la complejidad de la consulta, ésta
aumenta por la existencia de dos modelos,
mientras que la inclusión de una nueva lengua
no requiere mayor complejidad que la que
plantee el recurso lingüístico. Por último, el uso
de un modelo de mappings para relacionar
Hartmann, J. y R. Palma. 2006. OMV Ontology Metadata Vocabulary for the
Semantic Web, 2006. v. 2.0, available at
http://omv.ontoware.org/
Peñas, A. y J. Gonzalo. 2004. Acceso a
información
multilingüe.
Número
monográfico de la Revista Iberoamericana
de Inteligencia Artificial, Vol. 8. nº 22.
Cabré, M. T., C. Bach, R. Estopà, J. Feliu, G.
Martínez y J. Vivaldi. 2004a. The
GENOMA-KB project: towards the
integration of concepts, terms, textual
corpora and entities. LREC 2004 Fourth
International Conference on Language
Resources
and
Evaluation.
Lisboa:
European Languages Resources Association.
pp. 87-90.
Cabré, M. T., R. Estopà y J. Feliu. 2004b. A
Specialized
Knowledge
Base:
from
Distributed Information to the Specialized
Dictionary Construction. 11th EURALEX
International
Conference
Proceedings
Lorient: Euralex. pp. 867-872.
96
Multilingualidad en una aplicación basada en el conocimiento
Feliu, J., J. Vivaldi y M.T. Cabré. 2002.
Towards an Ontology for a Human Genome
Knowledge Base. LREC2002. Third
International Conference on Language
Resources and Evaluation. Proceedings. Las
Palmas de Gran Canaria, pp. 1885-1890.
ISBN: 295-1740-808.
Miller G., R. Beckwith, C. Fellbaum, D. Gross
y K. J. Miller. 1990. Revised in 1993.
Introduction to WordNet: An On-line
Lexical Database. International Journal of
Lexicography, 3(4), 235–244.
Moreno, A. 2000. Diseño e implementación de
un lexicón computacional para lexicografía
y traducción automática. Estudios de
Lingüística Española, Volumen 9.
Soergel D., B. Lauser, A. Liang, F. Fisseha, J.
Keizer y S. Katz . 2006. Reengineering
Thesauri for New Applications: the
AGROVOC
Example.
http://journals.tdl.org/jodi/article/viewArticl
e/jodi-126/111
Vossen, P. 2002. EuroWordNet General
Document.
Disponible
en
http://www.vossen.info/docs/2002/EWNGen
eral.pdf
Vossen, P. 2004. EuroWordNet: a multilingual
database of autonomous and languagespecific wordnets connected via an InterLingual-Index. Semi-special issue on
multilingual databases, IJL 17/2.
97
Ontologías mixtas para la representación conceptual de objetos de
aprendizaje
Haliuska Hernández Ramírez
Universidad Agraria de la Habana, Cuba
[email protected]
Maximiliano Saiz Noeda
Universidad de Alicante, España
[email protected]
Resumen: En materia de aprendizaje virtual, son numerosos los recursos que existen y se
almacenan en repositorios. La tendencia hacia la estandarización de estos almacenes ha
contribuido a mejorar la compartición, búsqueda y recuperación de la información, además de
fomentar la interoperabilidad entre las diferentes plataformas existentes. Los metadatos que
siguen estos estándares aportan información básicamente sintáctica, por lo que se hace necesaria
una estructura semántica que la enriquezca. En este artículo se propone la representación del
conocimiento vinculado a los Objetos de Aprendizaje (OAs) ubicados en un repositorio. Nuestra
aproximación se basa tanto en el diseño de una ontología que describa la semántica existente en
los metadatos así como en la definición de una marco de trabajo sobre ontologías multilingües,
relacionadas entre sí por una conceptualización interlingua que describa los dominios de los
diversos OAs existentes en los repositorios.
Palabras clave: ontologías, e-learning, objetos de aprendizaje, ontología interlingua
Abstract: Lot of resources in virtual learning are stored in repositories. The tendency towards
standarization of these repositories has improved information sharing, searching and retrieval
and fomented the interoperability among existing platforms. The metadata esencially contribute
basic syntactic information, so it is necessary a semantic structure to enrich Learning Objects
(LOs) management into the repositories. In this paper, the knowledge representation related to
the LOs in the repository is proposed. Our approach is based in the design of an ontology to
describe metadata semantic and in the definition of a framework with multilingual ontologies to
describe different domains for the existing LOs. These domain ontologies can be linked one
each other through an interlingua conceptualization.
Keywords: ontologies, e-learning, learning objects, interlingua ontology
1
Introducción
El incremento sustancial de información en
Internet y la necesidad de aprovechar al
máximo la gran cantidad de recursos
disponibles, han dado a la luz proyectos como
la Web Semántica. Esta iniciativa ha estado
marcada por el uso de técnicas de
representación del conocimiento,
con el
objetivo de que los ordenadores, además de
representar la información almacenada, sean
capaces
de
entenderla
y
gestionarla
inteligentemente. En este proyecto confluyen la
Inteligencia Artificial y las tecnologías web y se
proponen nuevas técnicas y paradigmas para la
representación
del
conocimiento
que
contribuyan a la localización e integración de
recursos a través de la www (Berners-Lee,
ISSN: 1135-5948
2001). La web semántica se apoya en la
utilización de ontologías como vehículo para
cumplir este objetivo (Gruber, 1993).
En la misma medida que la información en
la Web se incrementa, también lo hacen los
recursos que pueden utilizarse en el sector
educativo. El término “objeto de aprendizaje”
(OA) ha surgido con la finalidad de compartir
recursos y reutilizarlos en el dominio del elearning. Esta definición es aplicable a los
materiales digitales creados como pequeñas
piezas de contenido o de información (Wiley,
2000) con el objetivo de que puedan ser
utilizados en diferentes escenarios educativos.
Estos objetos actualmente se organizan en
repositorios y son descritos a través de
estándares
que
contribuyen
a
la
interoperabilidad
entre
las
diferentes
© Sociedad Española para el Procesamiento del Lenguaje Natural
Haliuska Hernández Ramírez, Maximiliano Saiz Noeda
plataformas del dominio. Existen diferentes
iniciativas de estándares para describir OAs
(LOM, Dublin Core, IMS, SCORM, …). Aún
así la gestión de objetos de aprendizaje dentro
de los repositorios no es óptima sólo con la
aportación sintáctica de los metadatos. Se hace
necesario incorporar una aportación semántica
que describa efectivamente a los OAs,
metadatos y las relaciones OA-OA y OAmetadatos. De aquí que el uso de las ontologías
no se reduce sólo al ámbito de la Web
Semántica sino que se ha extendido al dominio
del e-learning, dando lugar a numerosas
iniciativas ontológicas que contribuyen a una
efectiva gestión tanto interna como externa de
los OAs en los repositorios.
LoraServer y se han implementado otras
aplicaciones periféricas para la creación de
metadatos, la indexación o la búsqueda de OAs.
Una de las particularidades de este
repositorio es el uso del formato Virtua
MetaData (VMD) para describir los OAs que se
incorporan a este almacén. VMD no es un
estándar, sino un tipo de metadato genérico
que agrupa los diferentes estándares existentes
más empleados (IMS-MD, LOM, SCORM,
IMS-LD, CanCore, Dublin Core). La
utilización de VMD permite la importación de
OAs descritos en cualquier formato o
incorporar nuevos objetos, así como la
exportación de OAs descritos en el marco
cualquiera de los estándares mencionados.
Los repositorios actuales de OAs, tales como
MERLOT 1 , ARIADNE 2 , EDNA 3 y CAREO 4 ,
proporcionan un soporte para albergar los
objetos y sus metadatos (aunque pueden
también almacenar sólo metadatos y una
referencia a la ubicación física del recurso). En
estos repositorios se garantiza una búsqueda
más estructurada que la que se realiza a través
de la Web, aunque también permiten revisiones
cooperativas de los OAs, de modo que la
calidad de la información es cuestionada por los
diferentes usuarios del repositorio. La
desventaja de estos almacenes es que carecen
“de un modelo conceptual que establezca qué es
un objeto de aprendizaje y qué descriptores de
metadatos hay asociados a cada una de las
diferentes conceptualizaciones” (Soto, García,
Sánchez, 2006). La información que definen los
diferentes estándares es de propósito
descriptivo y no está orientada a ser procesada
por agentes de software, por lo que se dificulta
la generación de conocimiento y la autonomía
de agentes que puedan interactuar en los
diferentes procesos de un repositorio
(búsqueda, recuperación, etiquetado, etc.).
A partir de este proyecto, en este artículo se
propone el modelado de una ontología para la
representación de OAs en repositorios de tipo
[email protected], además de la utilización de diferentes
ontologías de dominio multilingües que
describen los principales conceptos y relaciones
existentes en los diversos dominios educativos.
2
2.1
Propuesta de ontologías mixtas
Ontologías educacionales
Se considera una ontología educacional a
cualquiera que pueda ser utilizada en la
enseñanza basada en tecnologías Web.
Podemos clasificar las ontologías educacionales
de la siguiente forma (Devedzic, 2006):
ƒ Ontología de dominio: describe los
conceptos esenciales, relaciones y teorías de
los diferentes dominios de interés.
ƒ Ontología de tareas: los conceptos y
relaciones que se incluyen en este tipo de
ontología pertenecen a los tipos de
problemas, estructuras, partes, actividades y
pasos a seguir en el proceso de solución de
problemas.
ƒ Ontología para la estrategia de la
enseñanza: provee instructores y actores
con la facilidad de modelar experiencias en
la enseñanza, especificando el conocimiento
y los principios de las diferentes acciones
pedagógicas y comportamientos.
ƒ Ontología de modelo de aprendizaje: se
utiliza para construir modelos y es esencial
para los sistemas que representan escenarios
de aprendizaje adaptativo.
ƒ Ontología de interfaz: especifica el
comportamiento adaptativo y las técnicas en
el nivel de interfaz de usuario.
Una de las iniciativas desarrolladas en esta
línea es el proyecto [email protected] 5 , (Iriarte et al.,
2006) que propone una arquitectura para el uso
de repositorios de OAs. Dentro de esta
arquitectura se ha desarrollado el repositorio
1
http://www.merlot.org/
http://www.ariadne-eu.org/
3
http://www.edna.edu.au/edna/page1.html
4
http://careo.ucalgary.ca/
5
http://wiki.contenidos-abiertos.org/doku.php/
uaes:universidad_de_alicante_espana
2
100
Ontologías mixtas para la representación conceptual de objetos de aprendizaje
ƒ Ontología de comunicación: se utiliza en el
intercambio de mensajes entre las diferentes
plataformas, repositorios y servicios
educativos. Define la semántica en que se
basarán los mensajes, por ejemplo, el
vocabulario de términos que se utilizarán en
la comunicación.
ƒ Ontología de servicios educacionales:
estrechamente relacionada con la ontología
de comunicación, está basada en OWL-S y
proporciona
medios
para
crear
descripciones,
procesables
por
los
ordenadores, de los servicios educacionales,
de las consecuencias de la utilización de
estos servicios y una representación
explícita de su lógica.
LOM a través de una ontología. La Universidad
de Belgrado ha desarrollado una arquitectura
basada
en
ontologías
para
recuperar
información relevante para los OAs y los
diseños de aprendizaje (Jovanovi et al., 2006).
Sus aportaciones principales son: una ontología
dedicada a capturar información del estado
actual de un OA dentro del diseño de
aprendizaje (actividad de aprendizaje en que se
utiliza, ejercicios, etc.) y una ontología basada
en el estándar IMS-LD.
Cómo se puede apreciar, las aproximaciones
descritas se desarrollan en el marco de los
diferentes estándares existentes, en aras de
solucionar las limitaciones semánticas en la
gestión de OAs actualmente. Nuestra propuesta
tiene un objetivo más amplio, dado que está
dirigida a repositorios heterogéneos de tipo
[email protected] y, por tanto, la ontología basada en
metadatos que se propone describe las
relaciones entre conceptos (comunes o no) de
los estándares más utilizados en el campo del elearning. La Figura 1 muestra un fragmento de
esta ontología con algunos conceptos esenciales
de VMD.
En el presente trabajo se propone, por un
lado, la definición de una ontología (no incluida
explícitamente en la anterior clasificación)
basada en VMD que describa los conceptos y
relaciones entre los metadatos. Por otro lado, y
de acuerdo a esta clasificación, proponemos el
uso de un conjunto de ontologías de dominio
(desarrolladas en varias lenguas) que
representen el conocimiento contenido en los
diversos OAs de un repositorio.
2.3 Ontologias de dominios con
interlingua
2.2 Diseño de ontologías basadas en
metadatos
Una de las principales motivaciones de este
trabajo es la necesidad de organizar el creciente
volumen de recursos desarrollados para el Aula
Virtual de Español (AVE) del Instituto
Cervantes. AVE es un entorno didáctico que
ofrece cursos para aprender español por Internet
y para el que se hizo necesaria una estructura
que almacenara y gestionara sus recursos.
En los últimos años se han desarrollado
diversas iniciativas para la representación
semántica de metadatos orientadas a tareas
como la anotación automática o la
recomendación de OAs. Entre estas propuestas
cabe citar el trabajo realizado por la
Universidad Nacional de Taiwan, Chung Kung,
que propone un modelo de recomendación de
OAs, etiquetados bajo el estándar SCORM,
basado en métodos ontológicos (Tsai et al.,
2006). Por otra parte resulta muy interesante la
propuesta del departamento de informática de la
Escuela Superior de Electricidad, Francia. Esta
muestra una herramienta semi-automática para
la extracción de OAs a partir de páginas html y
etiquetarlos bajo el estándar LOM (Doan,
Bourda, Dumitrascu, 2006). Para ello se hace
uso de una ontología que describe el estándar.
Esta misma institución ha propuesto un sistema
educacional basado en múltiples ontologías con
el objetivo de facilitar el intercambio de
recursos, basados en LOM, con otras
instituciones (Doan, Bourda, 2006). Se hace
uso también de la descripción semántica de
Los repositorios tipo [email protected], como Loraserver,
no están dirigidos a un único tipo de recursos
(como los que se requieren para la enseñanza
del español), sino que son capaces de gestionar
OAs de diversas materias. Su arquitectura
abierta permite también el intercambio de OAs
entre repositorios, lo que hace que usuarios de
diversos países y lenguas puedan interactuar
con los OAs. Esto contribuye a que el
repositorio no sea sólo un almacén heterogéneo
de recursos, sino que pueda constar de OAs en
diferentes lenguas. A pesar de esto Loraserver,
al igual que los repositorios actuales, no
dispone de un modelo semántico para
representar la información.
101
Haliuska Hernández Ramírez, Maximiliano Saiz Noeda
Learning
Object
Composite
Object
Unit Of
Learning
General
Description
LifeCycle
Metadata
Organization
Resources
Learning Design
Identifier
Ref
Type
Identifier
Status
Catalog
Entry
Identifier
IsVisible
Level
Sequence-used
Version
Structure
Contribute
Learning Objective
Condition
Criteria
Action word:taxonpath
Language
Title
Metadata
Shema
Role
Entity
Date
Descrption
Method
Component
Identifier
IsVisble
Prerequisite
Metadata
Shema
Keyword
Activity
Description
Coverage
Enviroment
Activity
Activity
Structure
Esta formado por (IsFormedBy)
Es un (Is_a)
Role
Feedback
Description
Information
Figura 1. Fragmento de ontología que describe metadatos de VMD y sus relaciones
de recuperación, búsqueda y etiquetado de
objetos independientemente de la lengua. A
pesar de lo ambicioso del planteamiento, no es
nuestro objetivo el de crear nuevas ontologías
de dominio, sino más bien el de definir un
marco de interacción de ontologías multilingües
(que podrían existir ya) a través de un módulo
interlingua (ver Figura 2).
Es evidente que el uso de ontologías
ofrecerá un entorno enriquecido para prestar
servicios y gestionar la terminología de
cualquier materia. Esto contribuye a la
búsqueda y recuperación de recursos, no sólo
proporcionando acceso a los documentos
específicos sino también ofreciendo sugerencias
relativas a oros recursos potencialmente
pertinentes para el tema de interés. Es por esto
que nuestra iniciativa propone el uso de
ontologías de dominio para representar las
relaciones entre los conceptos de las diversas
áreas del conocimiento a las que pertenecen los
OAs de un repositorio. Estas ontologías pueden,
además, ser de naturaleza multilingüe ya que
esto contribuye a una mejor representación de
los OAs, enriqueciendo sobre todo su búsqueda
y recuperación. Esto se convierte en una
fortaleza dentro del repositorio, sobre todo en el
e-learning donde la información es más
importante que el idioma de representación.
Para dar solidez a esta estructura ontológica
multilingüe, se propone la existencia de una
ontología “puente” (fundamentada en la
universalidad del inglés como lengua) que sirva
de
enlace
(interlingua)
proporcionando
relaciones entre clases e instancias de las
diferentes ontologías. Esta arquitectura, como
ya se ha demostrado en otros recursos
semánticos (Vossen, 2000), facilitará las tareas
Figura 2: Ejemplo de ontología interlingua para
la enseñanza de la sintaxis en español
102
Ontologías mixtas para la representación conceptual de objetos de aprendizaje
2.4
Coverage en VMD podría indicar que este
objeto es útil en la enseñanza de la
Programación Orientada a Objetos.
Conexión metadatos-dominio
Además de la definición de una ontología
basada en los metadatos del estándar VMD y
una arquitectura multilingüe para las ontologías
de dominio, proponemos también la posibilidad
de cooperación entre ambas representaciones
conceptuales.
Por otro lado, y aunque hasta el momento no
se ha profundizado en este tema, las ontologías
de dominio supondrían también una evidente
ventaja en cualquier tarea de búsqueda y
recuperación multilingüe de objetos de
aprendizaje en un repositorio, permitiendo la
expansión de las solicitudes (preguntas) así
como la de las posibles respuestas.
La Figura 3 muestra el esquema de
interacción y uso de las ontologías comentadas.
Un ejemplo de la utilidad de esta acción
conjunta (metadatos y dominio) es el proceso
de etiquetado de OAs. Es posible automatizar
este proceso desde la extracción de información
a través del uso, por ejemplo, de palabras clave
definidas en la ontología y presentes en los
documentos html a etiquetar. Para esto
podemos definir reglas que conjuntamente con
la ontología permitan extraer la información
necesaria para el etiquetado. Por ejemplo en:
Ontologías de Dominio
Multilingüe
Oración
Ontología VMD
SV
SN
ORel
det
<?xml version “1.0”?>
<General>
<ExtractFromHtmlTag=”Title”
MetaTagID=”Identifier” MetaTagID=”Title”/>
<MatchMetaTag=”Description” Step=”12”/>
<MatchKeyword=“Subject” Step=”8”
MetaTagID=”KeyWords” />
Pron
APO
SP
adj
art
sust
Frase
bolsa
perro
negro
Phrase
bello
SV
SV
SN
SN
det
FRel
APO
Pron
SP
PRel
det
nom
art
Pron
agg
nom
art
adj
sacc hetto
cane
nero
bello
Sentence
sac
chien
noir
beau
VS
NS
det
noun
dog
ORel
APPO
bag
Pron
PS
adj
art
black
beautiful
se definen las siguientes etiquetas:
LoraServer
ƒ ExtractFromHtmlTag: extrae el texto que
se encuentra en la etiqueta html definida.
ƒ MetaTagID: posiciona el texto extraído a
través de cualquier regla en la etiqueta
equivalente en el documento XML del
metadato.
ƒ MatchMetaTag: busca en el documento
html palabras que coincidan directamente
con los campos definidos en el estándar y
extrae el texto a partir de la posición “Step”,
después de que se encuentra la palabra.
ƒ MatchKeyword: Busca palabras claves y
sitúa el texto extraído a partir de la posición
“Step” en la etiqueta correspondiente en el
XML del metadato.
Documentos
heterogéneos
multilingües
Etiquetado
OAs
Búsqueda
Recuperación
Figura 3: Papel de las ontologías en un
repositorio [email protected]
2.5
Metodología de diseño
Para el diseño de cualquier ontología es
necesario contar con una metodología
específica. Son muchas las propuestas
existentes. De entre ellas podemos destacar
algunas como la metodología Cyc (Lenat et al,
1990), en la que primeramente se extrae
manualmente el conocimiento común que está
implícito en diferentes fuentes para después,
cuando se tenga suficiente conocimiento en la
ontología, adquirir nuevo conocimiento común
usando herramientas de procesamiento de
lenguaje natural o aprendizaje computacional.
Por otro lado la ontología de dominio
colaboraría en este proceso aportando
información catalogada en los metadatos e
inferida a partir del contenido del documento.
Por ejemplo, el campo Coverage describe el
escenario óptimo de uso del objeto en cuestión.
Así, en el supuesto caso en que se esté
catalogando un documento relacionado con los
constructores y destructores en C++, es posible
determinar a través de una ontología del
dominio de la programación que el campo
La Metodología de Uschold y King
(Uschold et al.; 95) propone los siguientes
pasos para desarrollar ontologías: (1) identificar
el propósito; (2) capturar los conceptos y
relaciones entre estos conceptos y los términos
103
SP
Haliuska Hernández Ramírez, Maximiliano Saiz Noeda
seleccionan automáticamente los términos
relevantes para describir el dominio y acotar la
ontología Sensus. Consecuentemente, el
algoritmo devuelve el conjunto de términos
estructurados jerárquicamente para describir un
dominio, que puede ser usado como esqueleto
para la base de conocimiento.
utilizados para referirse a estos conceptos y
relaciones; (3) codificar la ontología. La
ontología debe ser documentada y evaluada, y
se pueden usar otras ontologías para crear la
nueva.
En la metodología de Grüninger y Fox
(Grüninger et al.; 95) el primer paso es
identificar intuitivamente las aplicaciones
posibles en las que se usará la ontología. Luego,
se utilizan un conjunto de preguntas en lenguaje
natural, llamadas cuestiones de competencia,
para determinar el ámbito de la ontología. Se
usan estas preguntas para extraer los conceptos
principales, sus propiedades, relaciones y
axiomas, los cuales se definen formalmente en
Prolog.
La metodología On-To-Knowledge (Staab et
al., 2001) aplica ontologías a la información
disponible electrónicamente para mejorar la
calidad de la gestión de conocimiento en
organizaciones grandes y distribuidas. Esta
incluye la identificación de metas que deberían
ser conseguidas por herramientas de gestión de
conocimiento y está basada en el análisis de
escenarios de uso y en los diferentes papeles
desempeñados
por
trabajadores
de
conocimiento
y
accionistas
en
las
organizaciones.
En la metodología Kactus (Bernaras et al,
1996) se construye la ontología sobre una base
de conocimiento por medio de un proceso de
abstracción. Kactus define los siguientes pasos
(1) Especificación de la aplicación, (2) diseño
preliminar basado en categorías ontológicas
top-level relevantes y (3) refinamiento y
estructuración de la ontología.
La metodología Terminae (Aussenac-Gilles
et al, 2002) aporta tanto una metodología como
una herramienta para la construcción de
ontologías a partir de textos. Se basa en un
análisis lingüístico de los textos, el cual se
realiza mediante la aplicación de diferentes
herramientas para el procesamiento del lenguaje
natural. En particular se usan dos herramientas:
(1) Syntex para identificar términos y
relaciones; y (2) Caméléon para identificar roles
o relaciones. La metodología funciona como
sigue. Mediante la aplicación de Syntex
obtenemos una lista de posibles palabras y
frases del texto y algunas dependencias
sintácticas y gramaticales entre ellas. Estos
datos se usan como entrada para el proceso de
modelado junto con el texto original.
La metodología Methontology (FernándezLópez, Gómez-Pérez, Jurista, 1997) permite
construir ontologías totalmente nuevas o
reutilizar otras ontologías. El entorno incluye la
identificación del proceso de desarrollo de la
ontología donde se incluyen las principales
actividades (evaluación, conceptualización,
configuración, integración, implementación,
etc.), un ciclo de vida basado en prototipos
evolucionados y la metodología propiamente
dicha, que especifica los pasos a ejecutar en
cada actividad, las técnicas usadas, los
productos a obtener y su forma de evaluación.
Esta metodología está parcialmente soportada
por el entorno de desarrollo ontológico
WebODE y propone las siguientes etapas:
(1) especificación, (2) conceptualización, (3)
formalización, (4) implementación y (5)
mantenimiento.
La ontología basada en metadatos que se
propone en este artículo describirá las
relaciones que se establecen entre los conceptos
de VMD, donde están reflejados los estándares
LOM, SCORM, Dublin Core, CanCore, OAI,
IMS-MD, e IMS-LD. Este último se dedica a
describir Unidades de Aprendizajes, o lo que es
lo mismo: un OA más complejo donde
intervienen uno o más recursos y actividades
educativas que responden a un diseño de
aprendizaje determinado. La propuesta aquí
presentada tomará como base la descripción
ontológica realizada por Amorim (2006),
basada en la especificación IMS-LD en nuestra
propuesta agregando nuevos las nuevas
relaciones que se establecen entre los conceptos
La metodología Sensus (Swartout et al,
1997) es un enfoque top-down para derivar
ontologías específicas del dominio a partir de
grandes ontologías. En esta metodología se
identifican un conjunto de términos semilla que
son relevantes en un dominio particular. Tales
términos se enlazan manualmente a una
ontología de amplia cobertura. Los usuarios
104
Ontologías mixtas para la representación conceptual de objetos de aprendizaje
de un conjunto de estándares para etiquetar
objetos de aprendizaje, junto con el uso de una
estructura multilingüe, encabezada por una
ontología interlingua, que modelará el
conocimiento de dominio contenido en dichos
objetos.
La
interacción
de
ambas
representaciones dotará a los procesos de
gestión y recuperación de OAs de una
semántica propia de repositorios inteligentes.
de IMS-LD y los de otros estándares. Por estas
razones hemos considerado utilizar para la
implementación de la ontología la metodología
Methontology.
En esta primera fase de diseño de la
ontología se han tenido en cuenta varios
criterios de acuerdo con algunos principios de
diseño (Gruber, 1995); Bernaras et al., 1996);
(Borgo et al., 1996) ;(Gómez-Pérez, Benjamins,
1999). Por ejemplo, la claridad y objetividad,
que significan que la ontología debería
proporcionar el significado de los términos
definidos al proporcionar definiciones objetivas
y también documentación en lenguaje natural;
la completitud, coherencia, modularidad, la
extensibilidad monótona máxima, lo cual
permite la inclusión de nuevos términos sin que
se afecten las definiciones existentes. La
diversificación de jerarquías para aumentar la
potencia proporcionada por los mecanismos de
herencia múltiple, también ha sido un aspecto a
valorar en el diseño de la propuesta, junto con
la minimización de la distancia semántica entre
conceptos hermanos, esto significa que se
agrupan los conceptos similares y se
representan usando las mismas primitivas.
A pesar de tratarse de una aproximación aún
preliminar, estamos convencidos de que la
solvencia de las arquitecturas, estándares y
metodologías en que se basa, unido a la poco
explorada semántica en objetos de aprendizaje,
la
hacen
una
propuesta
interesante.
Pretendemos, en las etapas inmediatamente
siguientes de este trabajo, definir en
profundidad las técnicas de recuperación de
información desde las ontologías de dominio
así como las reglas de etiquetado a partir de la
ontología basada en metadatos.
Bibliografía
Amorim, R. R., Lama, M., Sánchez, E., Riera,
A., Vila, X. A. 2006. A Learning Design
Ontology based on the IMS Specification.
Educational Technology & Society, 9 (1),
pp. 38-57.
Para la fase de implementación de la
ontología propuesta se ha valorado el lenguaje
OWL. Una de las ventajas de este lenguaje es
su fortaleza para describir las relaciones entre
clases, propiedades, etc. Por ejemplo, se puede
especificar en OWL si una propiedad es
simétrica (Symetric), inversa de otra
(InverseOf),
si
es
equivalente
(EquivalentProperty), si una clase es una
intersección (InterseccionOf) o una unión de
otras (UnionOf), etc.
3
Aussenac-Gilles, N., Biebow, B., Szulman, S.
2002. Modelling the travelling domain from
a NLP description with Terminae. Workshop
on Evaluation of Ontology Tools, European
Knowledge.
Acquisition
Workshop,
Sigüenza, España.
Bernaras, A., Laresgoiti, I., Corera, J. 1996.
Building and Reusing Ontologies for
Electrical.
Network
Applications.
Proceedings of the European Conference on
Artificial Intelligence (ECAI96), pp. 298302.
Conclusiones
La representación ontológica de la información
relativa a los OAs dentro de repositorios como
LoraServer constituye una alternativa para la
mejora de servicios tales como la búsqueda,
etiquetado, recuperación, etc. Esta semántica
incorporada es la base para que agentes de
software puedan inferir conocimiento a partir de
los axiomas declarados en las ontologías.
Berners-Lee, T., Hendler, J., Lassila, O. The
Semantic Web. Scientific American. Vol.
284, n. 5. (May, 2001).
Borgo, S., Guarino, N., Masolo, C. 1996.
Stratified Ontologies: the case of physical
objects. Proceedings of the Workshop on
Ontological
Engineering.
Held
in
conjunction with ECAI96. pp. 5-15.
Budapest.
Se ha presentado una arquitectura mixta que
define una ontología orientada a la
conceptualización de los metadatos procedentes
105
Haliuska Hernández Ramírez, Maximiliano Saiz Noeda
Devedziz, V. 2006. Semantic Web and
education. Springer’s Integrated Series in
Information Systems.
Learning Technologies (ICALT'06), pp. 669673.
Lenat, D.B., Guha, R.V. 1990. Building large
knowledge-based systems. Addison-Wesley
Publising Company, Inc. 1990.
Doan, B., Bourda, Y. 2006. An Educational
System Based on Several Ontologies
Proceedings of the Sixth International
Conference
on
Advanced
Learning
Technologies (ICALT'06), pp. 179-183
Soto, J., García, E., Sánchez, S. Repositorios
Semánticos para Objetos de Aprendizaje.
2006. Expolearning2006 Barcelona, España.
Doan, B., Bourda, Y., Dumitrascu,V. 2006 A
Semi-Automatic Tool using Ontology to
Extract Learning Objects. Proceedings of
the Sixth International Conference on
Advanced
Learning
Technologies
(ICALT'06), pp. 92-93
Swartout, B., Patil, R. Knight, K., Russ, T.
1997. Toward distributed use of large-scale
ontologies. In AAAI-97 Spring Symposium
Series on Ontological Engineering.
Tsai, K., Kai, T. Chiu, Che, M., I, T. 2006. A
Learning Objects Recommendation Model
based on the Preference and Ontological
Approaches. Proceedings of the Sixth
International Conference on Advanced
Learning Technologies (ICALT'06). pp. 3640
Fernández-López M, Gómez-Pérez A, Juristo N
1997
METHONTOLOGY:
From
Ontological Art Towards Ontological
Engineering.
Spring
Symposium
on
Ontological. Engineering of AAAI. Stanford
University, California, pp. 33–40.
Uschold, M., King, M. 1995. Towards a
Methodology for Building Ontologies.
Workshop on Basic Ontological Issues in
Knowledge Sharing.
Gómez-Pérez, A., Benjamins, V.R. 1999.
Overview of knowledge sharing and reuse
components: ontologies and problemsolving methods. In V.R. Benjamins,
B.Chandrasekaran,
A.Gómez-Pérez,
N.Guarino
and
M.Uschol.d
(Eds),
Proceedings of the IJCAI-99 workshop on
Ontologies and Problem-Solving Methods,
Stockholm, Sweden.
Vossen, P. 2000. EuroWordNet: a Multilingual
Database withWordNets in 8 languages. The
ELRA Newsletter, 5(1):9–10.
Wiley, D. 2000. (Ed), Connecting learning
objects to instructional design theory: A
definition, a metaphor, and a taxonomy. The
Instructional Use of Learning Objects:
Online
Version.
Association
for
Instructional Technology .
Gruber, T. R. 1993.A Translation Approach to
Portable Ontologies. Knowledge Acquisition.
Vol. 5, n. 2, pp. 199-220.
Gruber, T. R. 1995. Towards Principles of the
Design of Ontologies Used for Knowledge
Sharing. International Journal of Human
Computer Studies, 43. pp. 907-928.
Gruninger, M., Fox, M.S. 1995. The logic of
enterprise modelling. In J. Brown & D.O.
Sullivan, Eds. Reenginering the Enterprise.
pp. 83-98. London: Chapman & Hall.
Iriarte, L., Marco, M., Morón, D., Pernías, P.
2006. Architecture Oriented towards the
management
of
Learning
Objects
Repositories ([email protected]). Proceedings of the
Sixth International Conference on Advanced
Learning Technologies (ICALT'06), pp. 255256.
Jovanovi, J., Knight, C., Gaševi, D., Richards,
G. 2006. Learning Object Context on the
Semantic Web. Proceedings of the Sixth
International Conference on Advanced
106
Acceso a la información bilingüe utilizando
ontologías específicas del dominio biomédico
Francisco Carrero García
Jacinto Mata
José María Gómez Hidalgo
Manuel Maña López
Universidad de Huelva
Manuel de Buenaga Rodríguez
Universidad Europea de Madrid
Escuela Politécnica Superior
28035 Villaviciosa de Odón, Madrid, SPAIN 21071 Palos de la Frontera, Huelva, España
{franscisco.carrero,jmgomez,buenaga}@uem.es [email protected], [email protected]
Resumen: Unos de los enfoques más prometedores en la Recuperación de Información
Croslingüe es la utilización de recursos léxico-semánticos para realizar una indexación
conceptual de los documentos y consultas. Hemos seguido esta aproximación para proponer un
sistema de acceso a la información para profesionales sanitarios, que facilita la preparación de
casos clínicos, y la realización de estudios e investigaciones. En nuestra propuesta se conecta la
documentación de los pacientes (la historia clínica), en castellano, con la información científica
relacionada (artículos científicos), en inglés y castellano, usando para ellos recursos de gran
cobertura y calidad como la ontología SNOMED. Se describe asimismo como se gestiona la
confidencialidad de la información.
Palabras clave: Recuperación de Información Croslingüe, información biomédica, ontologías,
recursos léxicos y semánticos, Unified Medical Language System (UMLS), SNOMED, Medical
Subject Headings (MeSH)
Abstract: One of the most promising approaches to Cross-Language Information Retrieval is
the utilization of lexical-semantic resources for concept-indexing documents and queries. We
have followed this approach in a proposal of an Information Access system designed for
medicine professionals, aiming at easing the preparation of clinical cases, and the development
of studies and research. In our proposal, the clinical record information, in Spanish, is connected
to related scientific information (research papers), in English and Spanish, by using high
quality and coverage resources like the SNOMED ontology. We also describe how we have
addressed information privacy.
Keywords: Cross-Language Information Retrieval, biomedicine, ontologies, lexical and
semantic resources, Unified Medical Language System (UMLS), SNOMED, Medical Subject
Headings (MeSH)
1
Introducción
La posibilidad de acceder, utilizando diferentes
medios y desde cualquier lugar, al gran
volumen de información que se genera cada día
en el mundo es el elemento que caracteriza,
cada vez más, la época actual. En este marco de
innumerables ventajas, también cobra un peso
creciente el problema general de la sobrecarga
de información, y se hace cada vez mayor la
necesidad del desarrollo de técnicas que ayuden
a los usuarios a organizar, buscar y comprender
la información (Buenaga, Fernández-Manjón y
Fernández-Valmayor, 1995).
ISSN: 1135-5948
En esta situación, general, se encuentra
también, con especial relevancia, el ámbito
médico: los investigadores y profesionales en
general de este ámbito, necesitan de forma cada
vez más crucial, herramientas que faciliten el
acceso a la información adecuada a sus
necesidades (Hersh y Bhupatiraju, 2003).
Como agravante de la situación descrita, la
información se encuentra disponible en
múltiples idiomas, y no siempre la más
relevante se encuentra disponible en el idioma
materno del usuario, lo que no impide que sea
comprensible para el mismo. Es necesario
superar las barreras del lenguaje para entregar
al usuario información en varios idiomas, ante
© Sociedad Española para el Procesamiento del Lenguaje Natural
Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López
consultas suyas en uno solo. Ya no se trata de
un entorno multilingüe, sino de recuperación
croslingüe – Cross-Language Information
Retrieval ó CLIR (Grefenstette, 1998). Un
entorno de trabajo tan retador exige soluciones
nuevas, que pasan por la utilización creciente de
recursos léxico-semánticos o de sistemas de
traducción de gran cobertura y calidad.
En este artículo presentamos una propuesta
de método de acceso a la información para el
profesional sanitario, que se basa en asociar
distintos tipos de información (especialmente
clínica y científica) en dos idiomas. El modo
previsto de trabajo es la presentación de
información científica en inglés y castellano,
relacionada de manera conceptual con la
historia clínica del paciente objetivo. Esta
propuesta se basa en la utilización de una
ontología multilingüe específica del dominio
biomédico para la representación de los
documentos
textuales,
concretamente
SNOMED (Spackman, Campbell y Côté,
1997). La asociación de conceptos de
SNOMED a los documentos objetivo se aborda
como una tarea de categorización automática
(Sebastiani, 2002), y la asociación entre
documentos de varios idiomas emplea el
Modelo del Espacio Vectorial (Salton, 1989)
usando como vocabulario de indexación los
conceptos de la ontología.
El trabajo aquí descrito se encuentra
enmarcado dentro de los proyectos de
investigación SINAMED e ISIS 1 (Maña et al.,
2006), cuyo objetivo es desarrollar nuevos
mecanismos de acceso a la información
mediante la aplicación de técnicas de análisis
del lenguaje humano, en el ámbito de la
biomedicina.
Hemos organizado este trabajo del modo
siguiente. En la sección 2 se presenta el
esquema general de acceso bilingüe, y se
presenta brevemente el aspecto funcional de
nuestra propuesta. En la siguiente sección se
describen y comparan los recursos léxicosemánticos más adecuados para nuestro trabajo.
En la sección 4 se introducen las fuentes de
información utilizadas en nuestro enfoque,
junto con las técnicas actuales y las que
nosotros hemos empleado hasta el momento
para tratar la información confidencial. A
continuación presentamos los elementos
técnicos más relevantes de nuestra propuesta,
finalizando este trabajo con una presentación de
nuestros siguientes pasos.
2 Acceso bilingüe a la información
biomédica
2.1 La Recuperación de Información
Croslingüe
La
globalización
de
la
información,
especialmente a través de Internet, exige que los
sistemas de Recuperación de Información sean
capaces de trabajan en entornos multilingües.
Un entorno multilingüe es aquél en el que el
usuario puede trabajar en varios idiomas, tanto
a la hora de plantear consultas como a la de
examinar resultados. Por ejemplo, algunos
buscadores Web como Google, permiten la
recuperación de resultados en múltiples idiomas
ante una consulta en español.
Hay que resaltar que esta recuperación se
realiza identificando los documentos en los que
aparecen los términos de la consulta,
independientemente del idioma de los
documentos. Por ejemplo, la consulta “Java”
podría arrojar resultados en múltiples idiomas,
al tratarse de un nombre propio. Sin embargo,
la consulta “lenguajes de programación
orientados a objetos” difícilmente arrojaría
resultados que no fuesen en castellano. De
manera adicional, los resultados se pueden
traducir al idioma nativo del usuario, usando
sistemas de traducción automática.
Obviamente, este tipo de sistemas ofrecen
funcionalidades multilingües limitadas. En los
últimos años hemos asistido a un creciente
interés por parte de investigadores y
desarrolladores en los sistemas de Recuperación
de
Información
Croslingüe
–
CLIR
(Grefenstette, 1998). En este tipo de sistemas,
se ofrece la posibilidad de superar de una
manera efectiva las barreras del idioma,
recuperando documentos en múltiples idiomas
ante consultas en uno solo, de manera eficaz.
Siguiendo el ejemplo anterior, un sistema
croslingüe
recuperaría
documentos
en
1
SINAMED (Diseño e integración de técnicas
de generación de resúmenes y categorización
automática de textos para el acceso a información
bilingüe en el ámbito biomédico) está parcialmente
financiado por el Ministerio de Educación y Ciencia
(TIN2005-08988-C02-01). ISIS (Sistema Inteligente
de Acceso Integrado a la Información de Historial
Clínico del Paciente y Documentación Médica
Relacionada), ha sido parcialmente financiado por el
Ministerio de Industria (FIT-350200-2005-16).
Este trabajo ha contado también con la
financiación de la Comunidad Autónoma de Madrid,
bajo la red de I+D MAVIR (S-0505/TIC-0267)
108
Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
castellano e inglés ante la consulta “lenguajes
de programación orientados a objetos”, con la
misma efectividad que si la consulta también se
hubiese expresado en inglés, como “objectoriented programming languages”.
Si Internet constituye un marco de referencia
para los sistemas de recuperación croslingüe,
debido a la abundancia de información en una
gran cantidad de idiomas (por ejemplo,
Wikipedia), no menos lo es el dominio de la
biomedicina. No sólo recursos como MedLine
indexan y ofrecen el acceso a medio millón de
nuevas referencias al año 2 , sino que los
médicos se ven enfrentados de una manera
diaria a la tarea de preparar casos de pacientes
en base a información científica frecuentemente
en otros idiomas. Si la necesidad de sistemas de
recuperación croslingüe se hace patente al
examinar la búsqueda en la Web, con más razón
existe en dominios como el de la biomedicina.
En la próxima sección presentamos el esquema
de una aplicación de acceso a la información
bilingüe (inglés-castellano) para el dominio de
la biomedicina, con múltiples aplicaciones para
médicos, investigadores y estudiantes.
clínica de un paciente objetivo, en español), y
se permite acceder a información científica
relacionada con el mismo (usualmente,
informes científicos aparecidos en revistas de
biomedicina, en inglés y castellano). Nuestro
sistema tiene tres tipos posibles de usuarios:
• Los médicos en ejercicio, al preparar un
caso clínico de un paciente concreto.
• Los investigadores cuando están analizando
un caso arquetípico.
• Los estudiantes de ciencias biomédicas
cuando están preparando un caso teórico.
En los tres casos, el usuario precisa acceder
a la información científica más relevante para el
diagnóstico y la toma de decisiones sobre
pruebas o tratamientos del paciente, bien de
manera teórica o práctica. En los últimos dos
casos, el historial clínico se ha de presentar
convenientemente anonimizado 3 , para evitar
que el usuario tenga acceso a datos protegidos
por las leyes vigentes de protección de
información 4 . El tema de la anonimización, sin
ser el centro de este trabajo particular, se
discute con detalle en la sección 5.
La información científica mencionada puede
encontrarse en múltiples idiomas 5 . El problema
tipo para un potencial usuario de nuestro
sistema es encontrar información científica en
inglés y castellano, en relación con un historial
en castellano. El elemento clave de nuestra
propuesta es el modo de realizar esta conexión
entre documentación médica en castellano y en
otros idiomas, que tratamos en las próximas
secciones.
2.2 Una propuesta de sistema Bilingüe
de Acceso a la Información
Nuestra experiencia en los proyectos
SINAMED e ISIS, incluye la observación de
las fuentes de información que utilizan los
médicos en su trabajo diario, en entornos como
el Hospital de Fuenlabrada. También hemos
trabajado con investigadores biomédicos, y con
estudiantes de distintas disciplinas médicas
(fisioterapia, enfermería, etc.) en el marco
docente de la Universidad Europea de Madrid.
De dichas observaciones se desprende que los
médicos, científicos y estudiantes trabajan con
información cuando menos bilingüe, a la hora
de preparar casos, o elaborar informes y
trabajos técnicos.
Con el fin de proporcionar a estos usuarios
un acceso más sofisticado y efectivo a la
información relevante para su trabajo, hemos
ideado un sistema de acceso a la información
bilingüe que permite relacionar el documento
base de trabajo, el historial clínico, con la
información científica relevante al mismo. En
este sistema, se presenta un documento
principal de trabajo (típicamente la historia
2.3 Técnicas de Recuperación
Croslingüe
Con el fin de enmarcar adecuadamente nuestro
trabajo, se hace necesario discutir aunque sea
3
La anonimización es el proceso por el cual se
eliminan o sustituyen todos los datos de un archivo
de manera que no sea posible, en ningún caso,
reconstruir la información original, identificado
directa o indirectamente al sujeto o sujetos
mencionados.
4
En el caso de la legislación nacional, el
precepto más relevante es la Ley Orgánica 15/1999,
de 13 de diciembre, de Protección de Datos de
Carácter Personal (frecuentemente designada como
la LOPD).
5
Por ejemplo, en el portal PubMed (NLMb,
2007), se proporciona acceso a más de 33.000
revistas científicas en 60 idiomas, en muchos casos
con el texto de los artículos parcial o totalmente
disponible en la Web.
2
Según los “Key MEDLINE® Indicators”
(NLMa, 2007), se han agregado, por ejemplo,
606.000 referencias en 2005, y 623.089 en 2006.
109
Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López
• La práctica inexistencia de recursos lexicosemánticos de suficiente cobertura y calidad
para un entorno genérico de recuperación,
e.g. los motores de búsqueda en la Web.
• Las limitaciones en la eficacia de los
sistemas de desambiguación de términos a
significados y conceptos, que es también
uno de los principales problemas en la
calidad de los sistemas de traducción
automática.
Sin embargo, cada vez existen más recursos
del tipo requerido (aunque, desde luego, no de
la cobertura necesaria), siendo quizá uno de los
más representativos la base de datos léxica
EuroWordNet (Gonzalo et al., 1998).
Justamente en este trabajo se presenta cómo
utilizar la componente independiente del idioma
de EuroWordNet, el InterLingual Index (ILI),
para realizar una recuperación croslingüe, de la
manera más inmediata: usando los conceptos
del ILI como elementos de indexación o
índices. Sin embargo, la limitada cobertura no
inglesa de EuroWordNet, junto con la baja
efectividad de la desambiguación necesaria para
identificar el concepto asociado a cada término,
dificultan enormemente su implantación
práctica y efectiva.
Sin embargo, existe un número creciente de
recursos
eventualmente
utilizables
en
Recuperación de Información Croslingüe en
biomedicina. En la próxima sección discutimos
algunos de estos recursos y cómo se están
utilizando. Por otra parte, el tipo de información
con la que trabajamos en nuestra propuesta,
permiten
abordar
los
problemas
de
desambiguación con perspectivas de alcanzar la
efectividad necesaria para que la recuperación
sea precisa. Discutimos estas fuentes de
información en la sección 4, para describir con
más detalle nuestra propuesta en la 5.
brevemente los enfoques generales para la
Recuperación de Información Croslingüe.
Existen múltiples taxonomías de métodos de
este tipo, usualmente organizados en términos
de los recursos utilizados para la tarea:
diccionarios bilingües, córpora paralelos o
comparables, etc. (Eichmann, Ruiz y
Srinivasan, 1998; Gonzalo et al. 1998; Schauble
y Sheridan, 1997; Volk et al. 2003). Por
conveniencia,
nosotros
tomamos
como
referencia la clasificación realizada en el
capítulo 4 de (Grossman y Frieder, 2004). En
dicho capítulo se presentan, tres enfoques
básicos para la recuperación croslingüe:
1. Traducción de consultas. La consulta se
traduce a todos los idiomas objetivo y se
recupera independientemente en cada uno de
ellos, fusionando los resultados en una sola
lista. Para ello, se utilizan recursos léxicos
multilingües
(diccionarios
bilingües,
tesauros, listas bilingües de términos
generadas automáticamente, etc.).
2. Traducción de documentos. De manera
alternativa a la anterior, se traducen todos
los documentos al idioma de la consulta y se
recupera en dicho idioma. Una ventaja
importante sobre la traducción de consultas
es que se dispone de más texto que en la
consulta, y es de esperar que la traducción
sea más precisa.
3. Utilización de una representación interna
para consulta y documentos. En este
enfoque, los documentos y la consulta se
representan de una manera conceptual,
típicamente independiente del idioma. El
vocabulario de representación no está
formado ya por los términos de los
documentos, sino
por los conceptos
independientes del idioma a los que dichos
términos hacen referencia. Identificados los
conceptos a los que hace referencia una
consulta, se recuperan los documentos
indexados bajo ellos, independientemente de
su idioma.
Los dos primeros métodos, no estando
exentos de problemas que se escapan del
ámbito de este artículo, son con diferencia los
dominantes 6 . El tercer método claramente
adolece de dos problemas:
3
Recursos biomédicos y uso en CLIR
En esta sección nos centramos en los tres
recursos que, tras un análisis detallado
conducido en las primeras fases del proyecto
SINAMED, hemos considerado que se tratan de
los tres de los más relevantes y utilizados en
recuperación de información, especialmente
croslingüe. Estos recursos son SNOMED, los
MeSH y el UMLS.
6
En los artículos y libros citados previamente, el
tercer enfoque prácticamente ni se menciona. Por
otra parte, en la taxonomía de Grossman y Frieder
(2004), este tercer enfoque está también basado en la
traducción, pero nosotros nos hemos permitido
reinterpretarlo para acomodar nuestro razonamiento.
110
Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
3.1
alfabética de descriptores con las respectivas
referencias cruzadas de sinónimos y términos
relacionados; la segunda es una clasificación
jerárquica que agrupa a todos los descriptores
en 16 categorías, que se subdividen a su vez en
subcategorías con un mayor nivel de
especificidad.
Estos árboles de descriptores no constituyen
una clasificación exhaustiva de las materias, y
se utilizan como guía para las personas
encargadas de asignar categorías a documentos.
En su última versión, MeSH dispone de
22.997 descriptores, así como de más de
151.000
conceptos
suplementarios
(Supplementary Concept Records) recogidos en
un tesauro separado. Existen también más de
136.000 referencias cruzadas que ayudan a
determinar el descriptor de MeSH más
apropiado para cada caso.
La principal aplicación de MeSH se
encuentra en su uso por parte del NLM para
indexar artículos de más de 4.800 de las
principales revistas biomédicas para la base de
datos MEDLINE/PubMED (NLMa, 2007).
SNOMED-CT
SNOMED-CT (Systematized Nomenclature of
Medicine Clinical Terms®) es una extensa
terminología clínica desarrollada de manera
conjunta por el NHS Connecting for Health y el
College of American Pathologists (SNOMED
Internacional, 2007).
La terminología SNOMED-CT cubre
enfermedades,
hallazgos
clínicos
y
procedimientos, y ayuda a realizar indexación,
almacenamiento, recuperación y agregación de
datos clínicos de forma consistente. Para ello,
permite estructurar y gestionar por ordenador
los registros médicos, reduciendo la
variabilidad en la manera en que se pueden
adquirir, utilizar y codificar los datos necesarios
para el cuidado clínico de los pacientes y la
investigación.
Sus elementos básicos son:
• Conceptos: representan una unidad mínima
de significado.
• Jerarquías: compuestas por categorías de
primer nivel y sus correspondientes
subcategorías.
• Relaciones: las de tipo “es_un” permiten
enlazar conceptos con jerarquías; las
relaciones de atributos conectan conceptos
entre jerarquías.
• Descripciones:
términos
o
nombres
asociados a un concepto.
La última versión se compone de más de
308.000 conceptos organizados en 19 categorías
jerárquicas de primer nivel. Además, contiene
más de 770.000 descripciones y más de 924.000
relaciones.
Existe una versión en español de SNOMEDCT que mantiene el diseño técnico, la
arquitectura, el contenido (tablas de conceptos,
descripciones y relaciones, tablas de relaciones
históricas, referencias cruzadas con la CIE,
etc.), y la documentación técnica relacionada.
3.2
3.3
UMLS
El UMLS (Unified Medical Language System)
es un sistema desarrollado por la Biblioteca
Nacional de Medicina de los Estados Unidos.
Está compuesto por un meta-tesauro, una red
semántica y un lexicón especializado,
distribuidos con una serie de herramientas que
facilitan su uso (NLMd, 2007).
El meta-tesauro es una base de datos
multilingüe y multipropósito que contiene
información sobre conceptos biomédicos y
relacionados con la salud, incluyendo sus
diferentes nombres y sus relaciones.
La red semántica proporciona una
clasificación consistente de todos los conceptos
representados en el meta-tesauro, además de un
conjunto de relaciones entre dichos conceptos.
Todos los conceptos del meta-tesauro tienen
asignado al menos un tipo semántico de la red
semántica.
El lexicón especializado pretende ser un
lexicón general que incluye términos
biomédicos. La mayoría de los términos que
aparecen en los nombres de conceptos del metatesauro aparecen igualmente en el lexicón.
Es de reseñar que UMLS se nutre de
múltiples lexicones y ontologías, entre los qure
se encuentran tanto MeSH como SNOMED. De
alguna manera, el UMLS es un “super-sistema”
MESH
Los Medical Subject Headings (MeSH) son un
tesauro desarrollado por la Biblioteca Nacional
de Medicina de los Estados Unidos (NLMc,
2007). Se compone de una serie de términos
asociados a descriptores, dispuestos en una
estructura jerárquica que permite realizar
búsquedas
con
diversos
niveles
de
especificidad.
Los descriptores de MeSH se organizan de
dos maneras distintas: la primera es una lista
111
Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López
• En (Marko, Schulz y Hahn, 2005) se
presenta el sistema MorphoSaurus, que
realiza recuperación croslingüe usando
UMLS para la indexación interlingüe, y se
realiza un experimento que compara la
efectividad de dicho enfoque con uno
basado en traducción de consultas,
resultando favorable al primero la
evaluación.
Estos informes, junto con la naturaleza
específica de la información con la que trabaja
nuestro sistema (y que discutimos a
continuación), nos permite concluir que nuestro
enfoque es viable y muy prometedor en
términos de efectividad.
que incluye a los anteriores y proporciona una
estructura común a estos y otros recursos.
3.4
Utilización en CLIR
Los recursos léxico-semánticos anteriores han
sido concebidos desde un principio con el fin de
proporcionar modos de acceso más unificados y
efectivos a la información biomédica. En
conjunto, se han convertido en los vocabularios
controlados de indexación de la información
biomédica, permitiendo a los usuarios no sólo
búsquedas con texto libre a diversos canales de
información,
sino
también
búsquedas
conceptuales que han demostrado su efectividad
en la práctica 7 (Lowe y Barnett, 1994).
Con el fin de sistematizar toda la literatura
médica, y no sólo la inglesa, han ido
apareciendo versiones de los recursos en
distintos idiomas, y de manera natural, se han
empleado en el desarrollo de sistemas e
investigaciones multilingües y croslingües. Por
su relación con nuestro trabajo, destacamos los
siguientes:
• En (Hersh y Donohoe, 1998) se presenta el
sistema SHAPIRE Internacional, una
adaptación del sistema de recuperación
conceptual
SHAPIRE
a
entornos
multilingües. Este sistema permite recuperar
conceptos de UMLS en inglés ante consultas
en múltiples idiomas, incluyendo el
castellano y el alemán. Al no devolver
textos, no se puede hablar de una
herramienta de recuperación de textos plena,
pero si incluye su componente fundamental,
que es el acceso a los conceptos
independientes del idioma a partir de textos
(consultas) en múltiples idiomas.
• En (Volk et. al, 2002) se describe el enfoque
de indexación conceptual usando UMLS que
se realiza en el marco del proyecto de
investigación europeo MUCHMORE, con el
fin de evaluar la viabilidad técnica de
construir sistemas de CLIR basados en
indexación conceptual interlingüe. El énfasis
es en el nivel de procesamiento del lenguaje
necesario para alcanzar niveles razonables
de calidad en la indexación, que los
experimentos permiten afirmar que son
suficientes.
4
Fuentes de información
La información médica es voluminosa y de
extrema complejidad. Uno de los factores con
una mayor repercusión en la heterogeneidad del
los contenidos médicos es la diversidad de
fuentes. Cada fuente (escritos científicos, bases
de datos de resúmenes, bases de datos
estructuradas o semi-estructuradas, servicios
Web o historiales clínicos de pacientes) tiene
diferentes elementos y aspectos, como or
ejemplo, la existencia o no de una estructura
externa del documento, la existencia de texto
libre con datos estructurados (tablas con
resultados clínicos) o la longitud de los
documentos. Estas diferencias en dominio,
estructura y escala, dificultan el desarrollo de
sistemas robustos e independientes que faciliten
el acceso a este tipo de contenidos. Esta
dificultad se agrava con la naturaleza
multilingüe de la información, y es a lo que
pretendemos dar respuesta con nuestra
propuesta.
En nuestra propuesta, se conectan dos tipos
de información que se discuten a continuación.
Dado que las historias clínicas contienen
información sensible desde un punto de vista de
la confidencialidad, también se discute su
anonimización.
4.1
Documentación médica
Considerando por ejemplo, los artículos
científicos médicos, hay miles de revistas
científicas en inglés, y el problema crece si
consideramos otros lenguajes y fuentes.
Medline, la base de datos bibliográfica más
importante y consultada en el dominio
biomédico constituye un ejemplo principal.
Medline almacena referencias a artículos de
revistas desde 1966 hasta la actualidad,
7
Una búsqueda en PubMed por “UMLS and
information and retrieval” devuelve más de 200
resultados, correspondientes a informes científicos
en los que UMLS se utiliza de alguna forma en un
sistema de Recuperación de Información.
112
Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
historial) e informes de alta (49 informes
completos redactados al abandonar un paciente
el hospital). En puntos siguientes se dan más
detalles sobre este tipo de fuente en inglés.
contiene más de 13 millones de referencias, con
un crecimiento de entre 1.500 y 3.500
referencias por día. Esta gran cantidad de
información hace difícil a los expertos sacar
partido de toda la información publicada.
En los sistemas desarrollados en nuestros
proyectos, para ser probados y evaluados sobre
usuarios finales, y para el que nos ocupa en
particular, hemos trabajado sobre conjuntos
representativos de esta información. En
concreto se ha seguido un criterio para
seleccionar
un
conjunto
de
revistas
considerando el lenguaje (castellano e inglés),
relevancia de la revista al proyecto (estábamos
especialmente interesados en neumonía,
enfermedades del corazón y alumbramientos) y
acceso libre al texto completo. Teniendo
presentes estas guías se seleccionaron: British
Medical Journal, Journal of the American
Association y las revistas en castellano
Archivos de Bronconeumología y Anales de
Pediatría. Estas revistas publican artículos de
diferentes clases, entre los que hemos
seleccionado: scientific papers (trabajos de
investigación originales), clinical reviews
(revisiones de literatura disponible en un tema),
practice (escritos breves que están centrados en
historias de casos específicos), técnicas y
procedimientos, y noticias.
4.2
4.3 Tratamiento de información
confidencial
Los historiales clínicos almacenan información
que puede ser de gran utilidad en la
investigación médica. Sin embargo, como los
historiales contienen también información
confidencial estos deben ser tratados con la
debida cautela. La Ley 16/2003 de Cohesión y
Calidad del Sistema Nacional de Salud
garantiza la confidencialidad e integridad de los
datos en el intercambio de información entre los
organismos del Sistema Nacional de Salud.
En general, el uso por terceros de
información médica que incluya datos
personales del paciente requiere el permiso
expreso de este. Cuando la información que se
desea tratar se encuentra almacenada de cierto
tiempo, puede ser imposible conseguir este
permiso. En este caso, la anonimización de la
información clínica mantiene el nivel de
confidencialidad deseado a la vez que permite
el acceso a la información (Kalra et al., 2006).
La anonimización del historial médico de un
paciente consiste en eliminar la información
que puede identificar a las personas
involucradas en el proceso asistencial; tanto el
paciente como los profesionales sanitarios que
lo atendieron. La legislación estadounidense, a
diferencia de la europea, define en el Health
Information Portability and Accountability Act
(HIPAA) (US Government, 1996), los
elementos que deben ser excluidos en el
proceso de anonimización. De entre ellos,
destacamos los que suelen aparecer en un
historial clínico: nombre y apellidos de los
pacientes, representantes legales y familiares;
nombres y apellidos de los médicos; números
de identificación; números de teléfonos, fax y
buscapersonas;
nombres
de
hospitales;
direcciones y localizaciones geográficas;
fechas. La relevancia, cada vez mayor, de esta
tarea está estimulando la organización de
congresos, talleres y competiciones como i2b2:
Challenges in NLP for Clinical Data: Deidentification Challenge (i2b2 NCBC, 2007).
Dentro del proyecto ISIS (Buenaga et al.,
2006) se trabajó con dos tipos de documentos
pertenecientes al historial clínico del paciente
que, en el marco de dicho proyecto, fueron
proporcionados por el Hospital de Fuenlabrada.
Historiales clínicos
El historial clínico del paciente se define como
el conjunto de documentos (datos, análisis,
diagnósticos y otros tipos de información) que
son generados a lo largo del proceso asistencial
del paciente. El sistema de registros en papel
clásico presenta toda una serie de limitaciones
(información poco legible, desorganización,
ausencia de consistencia, accesibilidad limitada,
garantía incierta de confidencialidad, etc.) que
pueden mejorarse con la utilización de registros
electrónicos integrados.
Alguna de las ventajas del historial clínico
electrónico son: mejor accesibilidad a la
información y mejora en la confidencialidad,
homogenización de datos, visión completa del
paciente, coordinación de tratamientos médicos,
etc.
En sistemas desarrollados en nuestros
proyectos, hemos trabajado con información
anonimizada en Español del hospital (Hospital
de Fuenlabrada) que formaba parte del
consorcio, de dos tipos: notas de evolución
(9413 notas de evolución de 3666 historiales
clínicos diferentes – una media 2,6 notas por
113
Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López
<PAC: "PACIENTE:">
<FPAC: (("--")|("\n"))>
<FD: ("FDO")>
<DR: ("dr.")|("Dra")>
void exprBasica():{}{ <PAC>((nombre()(<BLANCO4>)?<FPAC>
|…
|<FD>firmado() }
void firmado():{}{
(<BLANCO1>)*<DR>(<BLANCO1>)*(<DOSPUNTOS>)?nombre()(<FPAC>)?(<BLANCO3>)?(<BLANCO4>)?
|<DOSPUNTOS>(blancos())*(<DR>)?(<BLANCO1>)*(<BARRA><DR>)?(<PUNTO>)?(<BLANCO1>)*doctor()
|(<PUNTO>)?(<DOSPUNTOS>)?(<BLANCO1>)*(<DR>)?(<PUNTO>)? (<BLANCO1>)*fin_firmado()
}
Figura 1: Ejemplo de regla sintáctica para la eliminación de nombres de pacientes y médicos.
más utilizada es la aplicación de aprendizaje
automático. El problema de la anonimización se
puede plantear como una tarea de
reconocimiento de entidades nombradas (REN),
donde las entidades que se desean identificar
son los datos con carácter confidencial. Este es
el enfoque seguido en todos los trabajos
presentados al i2b2. Los participantes en la
competición dispusieron de una colección de
entrenamiento formada por 671 informes de
altas escritos en inglés que incluyen 14.309
entidades con información de carácter personal.
En [Guo et al., 2006] los autores hacen uso de
Support Vector Machines sobre características a
nivel de token y otras específicas para cada tipo
de entidad a reconocer. Otra aproximación
distinta es la que se propone [Aramaki et al.,
2006], donde además de características locales
emplean otras dos de carácter global:
información de las frases previa y siguiente, y
consistencia de etiquetas de clasificación en el
informe y en el corpus. También, en una
componente de nuestro proyecto SINAMED
que hemos evaluado de forma preliminar sobre
los datos de I2B2 (para Smoking Challenge),
hemos conseguido unos resultados muy
cercanos a la media construyendo el
clasificador únicamente utilizando atributos
léxicos y morfológicos, sobre la arquitectura
que estamos desarrollando y que describimos
en el punto siguente (en concreto un valor para
la f-measure de 0,765 frente a 0,795 de la
media). El uso de estos atributos léxicos y
morfológicos en combinación con los conceptos
de Snomed podrían ayudarnos a obtener
mejores resultados.
Estos tipos de documentos son las notas de
evolución clínica y los informes de alta.
Las notas de evolución clínica son informes
escritos por los médicos acerca de los cambios
que se producen durante el proceso asistencial.
El Hospital de Fuenlabrada proporcionó 9.413
notas de evolución pertenecientes a 3.666
historiales distintos, lo que supone una media
de 2,6 notas por historial. El tratamiento de esta
información requería un proceso previo de
anonimización, ya que, contenían nombres de
pacientes y médicos. La aproximación elegida,
en este caso, fue la de analizar manualmente
unas 100 notas de las que se extrajeron
alrededor de 120 reglas sintácticas. Mediante la
aplicación de estas reglas se consiguió eliminar,
de forma automática, 393 nombres de médicos
y pacientes. Finalmente, se eliminaron otros 30
nombres de forma manual.
En la Figura 1 se muestra un ejemplo de una
de las reglas sintácticas utilizadas. Esta regla
permite la identificación del nombre del
paciente después de la palabra “PACIENTE:” o
la del nombre del médico después de la
aparición de la expresión “FDO Dr.”.
Los informes clínicos de alta constituyen un
resumen del proceso asistencial del paciente
que redactan los médicos al finalizar dicho
proceso. El Hospital de Fuenlabrada
proporcionó 49 informes de diferentes servicios
hospitalarios: urgencias, urgencias pediátricas,
cirugía general y digestiva, pediatría,
maternidad, traumatología, medicina interna y
medicina intensiva. Para la anonimización de
estos informes se llevó a cabo un proceso
similar al descrito para las notas de evolución.
De esta manera, se eliminó cualquier
información personal sobre datos de los
pacientes y los médicos que los trataron.
A pesar de que la técnica empleada consigue
anonimizar ambos tipos de documentos de
forma efectiva, en la actualidad, la estrategia
5
Enfoque técnico de nuestra propuesta
Nuestra propuesta está basada en los elementos
anteriormente descritos. Se propone el
desarrollo y evaluación de un sistema de acceso
a la información para profesionales y
114
Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
HISTORIAL
SNOMED.SP
SNOMED.EN
ARTÍCULOS
CIENTÍFICOS
(CASTELLANO)
ARTÍCULOS
CIENTÍFICOS
(INGLÉS)
Conceptos para
un texto
Biyección de
conceptos
Figura 2: Método de conexión de del historial con la información científica relacionada vía e.g.
SNOMED.
como usuarios del sistema, se está utilizando
la ontología SNOMED.
• La utilización de técnicas de categorización
automática (Sebastián, 2002), y no de
desambiguación, para la asignación de
conceptos de SNOMED a los documentos
objetivo.
Nosotros entendemos que en gran medida,
los conceptos de SNOMED y en general del
UMLS son más categorías temáticas que
conceptos semánticos de grano fino como los
de e.g. EuroWordNet, por lo que se pretende
evitar una aplicación término a concepto, y
promover una sistema texto a categoría. Los
sistemas de categorización basados en
aprendizaje han alcanzado niveles de
efectividad comparables a los de profesionales
humanos entrenados. Nuestra experiencia en
este sentido es prolongada 8 , y avala nuestras
perspectivas.
Gran parte de la información médica
científica se haya clasificada de acuerdo a los
vocabularios
conceptuales
estándar
mencionados anteriormente. Sin embargo, la
información de los historiales médicos no está
clasificada de esta manera. Esto supone un
alimitación, dado que nos proponemos realizar
la clasificación usando sistemas basados en
aprendizaje, que dependen de la existencia de
material manualmente clasificado para su
estudiantes sanitarios, en el que se relacione la
información básica de trabajo (la historia
clínica), típicamente en castellano, con la
información científica apropiada, típicamente
en inglés y castellano. El objeto de este sistema
es simplificar la preparación de casos,
investigaciones o trabajos, al evitar la necesidad
de realizar búsquedas explícitas de información
científica, al tiempo que realizar esta búsqueda
implícita con mayor eficacia que el propio
usuario.
El esquema de asociación de las fuentes de
información se presenta de forma gráfica en la
figura 2. En dicha figura se observa como los
historiales médicos se asocian a conceptos de
e.g. la ontología de SNOMED en castellano,
cuyos conceptos están a su vez asociados a los
de SNOMED en inglés de una manera cuasibiyectiva. Por medio de los conceptos en
español, se recuperan documentos científicos en
español. También se recuperan documentos
científicos en inglés usando estos conceptos en
inglés, que han sido también asociados de
manera automática con dichos documentos.
Los pilares del sistema son:
• La utilización de técnicas de recuperación
croslingüe basadas en indexación conceptual
interlingüe, avalada por otros trabajos, y que
en nuestro caso se simplifica al no tener que
desambiguar consultas sino fragmentos de
información más extensos (los historiales
clínicos). Inicialmente, y en vista del interés
demostrado por los médicos que actuarán
8
Véase como guía e.g. (Gómez et al., 2004;
Gómez, Buenaga y Cortizo, 2005).
115
Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López
Finalmente, integraremos los clasificadores
en la herramienta y se llevarán a cabo
experimentos que permitan validar la utilidad
del sistema con cada uno de estos perfiles.
entrenamiento. Lo habitual en estas situaciones
es utilizar una técnica de bootstrapping, que
consiste en clasificar un conjunto semilla de
documentos, usarlos para entrenar el sistema,
clasificar con él un segundo grupo de
documentos, y revisar manualmente las
decisiones
menos
seguras.
Repetido
iterativamente, este proceso permite construir
una colección de datos de una magnitud
suficiente de manera efectiva. Una vez obtenida
esta colección, el sistema se entrena sobre ella,
alcanzando niveles de calidad adecuados en sus
decisiones sobre nuevos documentos.
6
Bibliografía
Aramaki,
E.,
Miyo,
K.
Automatic
Deidentification by Using Sentence Features
and Label Consistency. Proceedings of the
Workshop on Challenges in Natural
Language Processing for Clinical Data,
2006.
Buenaga,
M.,
Fernández-Manjón,
B.,
Fernández-Valmayor,
A,
“Information
Overload at the Information Age”. Collis,
B., Davies, G. (eds) “Innovating Adult
Learning with Innovative Technologies”,
Ed. Elsevier, 1995.
Conclusiones y trabajo futuro
En este artículo, se ha presentado una visión de
cómo conseguir el acceso a informes científicos
en inglés y castellano a partir de un historial en
castellano,
utilizando
para
ello
una
categorización automática respecto a una
ontología bilingüe. También se han discutido
las diferencias fundamentales entre dos de las
ontologías más relevantes en el ámbito
biomédico: SNOMED y MESH. Se han
descrito las fuentes de información más
significativas en el marco del problema,
considerando el aspecto fundamental de la
confidencialidad de la información médica que
incluye datos de carácter personal. Para
solventar este problema, se ha expuesto la
solución utilizada sobre dos colecciones de
documentos proporcionadas por el Hospital de
Fuenlabrada y se han discutido soluciones
distintas sobre colecciones de informes de alta
en inglés.
En el futuro planificamos integrar en un
sistema, la categorización de los documentos, la
recuperación de los mismos y la anonimización
de los informes médicos. Este sistema debe
permitir un acceso personalizado en función del
perfil del usuario. Se han concebido tres perfiles
de usuario para el sistema: médicos en atención
hospitalaria, investigadores médicos y alumnos
de titulaciones relacionadas con la biomedicina.
Con la ayuda de un número significativo de
usuarios de cada perfil, se diseñarán las
interfaces adecuadas.
Una vez completada esta primera fase,
hemos
planificado
la
realización
de
implementaciones más efectivas de los distintos
clasificadores que forman el sistema. Estas
nuevas implementaciones se evaluarán sobre
colecciones de referencia, como la utilizada en
i2b2 para la anonimización.
Buenaga, M., Maña, M.J., Gachet, D., Mata, J.,
2006. The SINAMED and ISIS Projects:
Applying Text Mining Techniques to
Improve Access to a Medical Digital
Library. LNCS: Research and Advanced
Technology for Digital Libraries, vol. 4172,
pp. 548-551.
Eichmann, D., Ruiz, M.E., y Srinivasan, P. ,
1998. Cross-Language Information Retrieval
with the UMLS Metathesaurus. SIGIR'98 21st International ACM SIGIR Conference
on Research and Development in
Information Retrieval, Melbourne, Australia,
August 24 – 28.
Gómez, J.M., Cortizo, J.C., Puertas, E., Ruíz,
M., 2004. Concept Indexing for Automated
Text Categorization. In Natural Language
Processing and Information Systems: 9th
International Conference on Applications of
Natural Language to Information Systems,
NLDB 2004, Salford, UK, June 23-25, 2004,
Proceedings, Lecture Notes in Computer
Science, Vol. 3136, Springer, pp. 195-206.
Gómez, J.M., Buenaga, M. de, Cortizo, J.C.,
2005. The Role of Word Sense
Disambiguation
in
Automated
Text
Categorization. Montoyo, A.; Muñoz, R.;
Métais, Elisabeth (Eds.), Natural Language
Processing and Information Systems: 10th
International Conference on Applications of
Natural Language to Information Systems,
NLDB 2005, Alicante, Spain, June 15-17,
Proceedings, Lecture Notes in Computer
Science, Vol. 3513, Springer, pp. 298-309.
116
Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico
Gonzalo, J., Verdejo, F., Peters, C. y Calzolari,
N., 1998. Applying EuroWordNet to CrossLanguage Text Retrieval. Computers and the
Humanities, 32, 2-3, 185-207.
http://www.nlm.nih.gov/bsd/bsd_key.html.
Acceso: 28 de enero de 2007.
NLM (National Library of Medicine), 2007.
PubMed. URL: http://www.pubmed.gov/.
Acceso: 28 de enero de 2007.
Grefenstette, G., (ed.) 1998. Cross-language
information
retrieval.
The
Kluwer
international series on information retrieval
2, Kluwer Academic.
NLM (National Library of Medicine), 2007.
Medical
Subject
Headings.
URL:
http://www.nlm.nih.gov/mesh/. Acceso: 28
de enero de 2007.
Grossman, D.A., Frieder, O., 2004. Information
Retrieval: Algorithms and Heuristics.
Second Edition. Springer.
NLM (National Library of Medicine), 2007.
Unified Medical language System. URL:
http://www.nlm.nih.gov/research/umls/.
Acceso: 28 de enero de 2007.
Guo, Y., Gaizauskas, R., Roberts, I.,
Demetriou, G., Hepple, M., 2006.
Identifying Personal Health Information
Using
Support
Vector
Machines.
Proceedings of the Workshop on Challenges
in Natural Language Processing for Clinical
Data.
Salton, G. 1989. Automatic text processing: the
transformation, analysis and retrieval of
information by computer. Addison-Wesley,
Reading, US.
Hersh,
W.R., Donohoe L.C,, SAPHIRE
International: a tool for cross-language
information retrieval. Proceedings of the
1998 AMIA Annual Symposium, 1998, 673677.
Schauble, P. y Sheridan, P., 1997. CrossLanguage Information Retrieval (CLIR)
Track Overview. The Sixth Text REtrieval
Conference (TREC-6), National Institute of
Standards and Technology (NIST), Special
Publication 500-240.
Hersh, W. y Bhupatiraju, R.T., 2003. TREC
Genomics Track Overview. NIST Special
Publication: SP 500-255 (The Twelfth Text
Retrieval Conference), pp. 14-23.
Sebastiani, F. 2002. Machine Learning in
Automated Text Categorization. ACM
Computing Surveys, 34(1):1-47.
SNOMED International, 2007. SNOMED-CT.
http://www.snomed.org/snomedct.
URL:
Acceso: 28 de enero de 2007.
i2b2 (Informatics for Integrating Biology and
the Bedside) National Center for Biomedical
Computing (NCBC), 2007. Challenges in
Natural Language Processing for Clinical
Data.
URL: https://www.i2b2.org/NLP/.
Acceso: 28 de enero de 2007.
Spackman, K.A., Campbell, K.E, Côté, R.A.,
1997.
SNOMED-RT:
a
reference
terminology for health care. Proceedings of
the AMIA Annual Fall Symposium, pp. 6404.
Kalra, D., Gertz, R., Singleton, P., Inskip,
H.M., 2006. Confidentiality of personal
health information used for research. British
Medical Journal, vol. 333, pp. 196-198.
US Government, 1996. Health Information
Portability
and
Accountability
Act.
Washington, D.C.: US Government Printing
Office.
Lowe, H. y Barnett, G. 1994. Understanding
and Using the Medical Subject Headings
(MeSH) Vocabulary to Perform Literature
Searches. Journal of the American Medical
Association,271(14):1103–1108.
Volk M, Ripplinger B, Vintar S, Buitelaar P,
Raileanu D, Sacaleanu B., 2002. Semantic
annotation for concept-based cross-language
medical information retrieval. International
Journal of Medical Informatics, 67 (1-3), pp.
97-112.
Marko, K., Schulz, S., Hahn, U., 2005.
MorphoSaurus--design and evaluation of an
interlingua-based, cross-language document
retrieval engine for the medical domain.
Methods of Information in Medicine, 44(4),
pp. 537-45.
NLM (National Library of Medicine), 2007.
Indicators.
URL:
Key
MEDLINE®
117
Mejora de los sistemas multimodales mediante el uso de ganancia
de información
Manuel Carlos Díaz Galiano
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
Arturo Montejo Raez
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
Mª Teresa Martín Valdivia
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
L. Alfonso Ureña López
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
Resumen: En este trabajo se discute la utilización de la ganancia de información (IG) para
reducir y mejorar la información textual incluida en los sistemas de recuperación de
información multimodal. Además se muestran los distintos experimentos realizados
combinando esta técnica de reducción con la mezcla de información visual y textual, para
comprobar que la información textual consigue mejorar los sistemas multimodales
convencionales.
Palabras clave: Recuperación de Información Multimodal, Ganancia de Información, Corpus
médicos multimodales
Abstract: This paper discusses the use of information gain (IG) to reduce and improve the
textual information included in multi-modal information retrieval systems. Furthermore, a
number of experiments are described that combine this reduction technique with a visual- and
textual-information merge. These show that the textual information manages to improve
conventional multi-modal systems.
Keywords: Multimodal Information Retrieval, Information Gain, Medical Multimodal Corpus
1
Introducción
La ingente cantidad de información disponible
electrónicamente en cualquier formato pone de
manifiesto la necesidad de desarrollar técnicas
que permitan acceder a dicha información de
una manera eficiente. Actualmente, la
información disponible electrónicamente tiende
a ser cada vez más multimodal, incluyendo
cualquier tipo de información. La adición de
imagen y sonido a los sistemas informáticos
suponen un gran avance tecnológico desde el
punto de vista del usuario puesto que la
comunicación humana es intrínsecamente
multimodal
(incluye
sonidos,
textos,
fotografías, imágenes en movimiento…) (Lewis
et al, 2006). Sin embargo, sería un error pensar
que simplemente el tener más información,
aunque esta información sea multimodal, puede
resolver los problemas de acceso a la misma de
ISSN: 1135-5948
manera eficiente. Todo lo contrario, si no
disponemos de sistemas que sean capaces de
realizar una recuperación eficaz, no importará
la calidad de la información disponible puesto
que no seremos capaces de acceder a ella
aunque esté ahí.
Los
sistemas
de
recuperación
de
información visual o sistemas de recuperación
de imágenes basados en contenido, han sido
denominados de diversas formas: sistemas
CBIR (Content Based Information Retrieval),
CBVIR (Content Based Visual Information
Retrieval) o QBIC 1 (Query by imagen content),
este último fue el nombre que IBM dio a su
primer sistema implementado en los años 90.
Un sistema CBIR es una aplicación que busca
dentro de una colección de imágenes aquellas
que son semejantes o que tienen un contenido
similar a una imagen dada como consulta. Que
1
http://wwwqbic.almaden.ibm.com/
© Sociedad Española para el Procesamiento del Lenguaje Natural
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López
dichos sistemas sean basados en contenido
significa que la búsqueda se realiza basándose
en las características y el contenido de la
imagen y no en otro tipo de información
añadida manualmente, como por ejemplo el
título de la imagen o palabras clave 2 . La
primera vez que se utilizó el término CBIR fue
por Kato (1992), para describir sus
experimentos donde realizaba una recuperación
visual basándose en los colores y las formas de
las imágenes.
Actualmente, están generando bastante
interés sistemas en los que además de
almacenar imágenes se incluye cierto texto
asociado a dichas imágenes (meta-datos). Es el
caso, por ejemplo, de los expedientes médicos
en los que una radiografía puede tener asociada
una información textual relativa al historial
clínico del paciente, al comentario de un
especialista sobre la radiografía, información
sobre el tratamiento propuesto al paciente…
Otro ejemplo sería una colección de fotografías
con comentarios sobre las mismas. Las
fotografías pueden ser cuadros de un museo,
fotografías asociadas a noticias en un periódico
o catálogos de productos de cualquier tipo. Una
manera de recuperar información en este tipo de
sistemas podría incluir la recuperación visual
por una parte, la recuperación textual por otra, y
finalmente, una mezcla de resultados parciales
(visuales y textuales) que persigan la
optimización de la respuesta dada.
Un ejemplo práctico de la utilización de un
sistema mixto (CBIR+IR), lo tenemos en el
trabajo diario de un médico. Éste posee casos
clínicos de sus pacientes. Dichos casos están
compuestos por textos descriptivos del caso e
imágenes que ilustran la dolencia. Con un
sistema CBIR, ayudado por un sistema IR,
como el que se muestra en la Figura 1, el
médico podría utilizar una imagen de una
dolencia (por ejemplo, una radiografía) y
obtener información de casos similares a dicha
dolencia. Por lo tanto, la recuperación sería
tanto visual como textual, ya que los casos
están compuestos tanto por información textual
del caso como por imágenes.
Cabe pues plantearse que una recuperación
eficiente del texto puede ayudar a mejorar la
calidad de los sistemas multimodales en
general. El texto puede beneficiarse de las
imágenes y viceversa. De hecho, así se pone de
manifiesto en distintos foros y conferencias
realizadas en los últimos años (Clough et al.,
2006, Declerck et al., 2004, Müller et al., 2006).
En una colección con gran cantidad de
metadatos nos encontramos con la problemática
de elegir aquellos metadatos que son de mayor
utilidad y desechar aquellos que pueden añadir
información no relevante (ruido) en nuestro
Recuperar los
casos de dichas
imágenes
Buscar imágenes
similares
Casos Clínicos
Obtención
de las
imágenes de
los casos
más
relevantes
Mezclar
imágenes
y casos
clínicos
Recuperar los casos
de dichas imágenes
Casos Clínicos
Figura 1: Ejemplo de utilización de un sistema mixto CBIR + IR
2
http://en.wikipedia.org/wiki/CBIR
120
Mejora de los sistemas multimodales mediante el uso de ganancia de información
•
•
sistema. La ganancia de información es una
técnica a través de la cual podemos seleccionar
aquellos metadatos que aportan mayor
información al sistema ignorando aquellos que
no sólo no aportan información alguna, sino
que en ocasiones incluso introducen ruido y
pueden distorsionar la respuesta del sistema.
En este trabajo se propone el uso de la
ganancia de información como técnica para
mejorar la calidad del corpus textual asociado a
una colección de documentos que representan
expedientes médicos. Una mejora del corpus
textual implica una mayor eficacia en la
recuperación de este tipo de información, lo que
repercute directamente en la eficacia del
sistema multimodal global.
El resto de este artículo se organiza de la
siguiente manera. En primer lugar, se hace una
breve introducción a la ganancia de
información, indicando su formulación y sus
principales aplicaciones. A continuación se
describe la colección de documentos que se ha
utilizado para realizar los experimentos. En el
apartado 4 se explica cómo se ha utilizado la
ganancia de información para seleccionar las
etiquetas con mayor información sobre la
colección de documentos multimodales. En el
apartado 5, se presentan los experimentos
realizados sobre la colección multimodal así
como los resultados obtenidos. Por último, se
muestran los resultados obtenidos y se
presentan las conclusiones junto con un avance
sobre la orientación de los trabajos futuros que
dan continuidad a esta investigación.
2
H(C): es la entropía del sistema
H(C|E): es la entropía relativa de
sistema conocido el valor de la etiqueta
E.
La entropía del sistema nos indica el grado
de desorden del mismo y viene dada por la
siguiente fórmula:
|C|
H(C) = −∑ p(ci )log 2 p(ci )
donde p(ci) es la probabilidad del valor i.
La entropía relativa se calcula de la siguiente
manera:
H(C | E) =
|E|
⎛ |C|
⎞ (3)
= ∑ p(e j )⎜⎜ − ∑ p(ci | e j )log 2 p(ci | e j ) ⎟⎟
j=1
⎝ i=1
⎠
donde p(ei) es la probabilidad del valor i para la
característica e, y p(ci|ej) es la probabilidad de ci
relativa a ej
La principal aplicación de la IG es la
selección de características. Por lo tanto, es un
buen candidato para la selección de aquellos
meta-datos que son útiles para el dominio en el
que se usa la colección.
La IG se ha empleado en multitud de
estudios (Quinlan, 1986), la mayoría de ellos de
clasificación. Algunos ejemplos son la
categorización de textos (Text Categorization –
TC) (Yang y Pedersen, 1997), aprendizaje
automático (Machine Learning – ML)
(Mitchell, 1996) o detección de anomalías
(Anomaly Detection – AD) (Lee y Xiang,
2001).
Nosotros partimos de una colección
multimodal que representa informes médicos
consistentes en a un conjunto de imágenes
médicas, y a cada una de ellas se asocia
información textual mediante diferentes
etiquetas (meta-datos) algunas de las cuales no
aportan apenas información. Por ejemplo, este
es el caso de la etiqueta LANGUAGE, ya que
esta etiqueta contiene el mismo valor para toda
la colección. Con la finalidad de depurar y
mejorar la calidad del corpus textual, hemos
calculado la ganancia de información de las
etiquetas para poder realizar una selección de
aquellas que aporten una información más
discriminante.
Ganancia de Información
La Ganancia de Información (Information Gain
– IG) es una medida basada en la entropía de un
sistema, es decir, en el grado de desorden de un
sistema (Shannon, 1948). Esta medida nos
indica cuánto se reduce la entropía de todo el
sistema si conocemos el valor de un atributo
determinado. De esta forma, podemos conocer
cómo se relaciona el sistema completo con
respecto a un atributo, o lo que es lo mismo,
cuánta información aporta dicho atributo al
sistema.
La fórmula para calcular la IG es la
siguiente:
IG(C|E) = H(C) − H(C|E)
(2)
i=1
(1)
3 Descripción de la colección
multimodal
donde
• IG(C|E): es la ganancia de información
de la etiqueta o característica E,
Para realizar los experimentos se ha utilizado la
colección suministrada por la organización de la
121
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López
competición CLEF (Cross Language Evaluation
Forum) 3 en la tarea concreta sobre recuperación
de imágenes médicas (Müller et al., 2006). Esta
tarea se conoce como ImageCLEFmed 4 . La
colección de documentos proporcionada para
esta subtarea está formada por 4 subcolecciones
de datos: CASImage, Pathopic, Peir y MIR, e
incluyen unas 50,000 images.
Cada subcolección se organiza en “casos”
(véase Figura 2). Un caso está formado por una
o varias imágenes (dependiendo de la
colección) y un conjunto de anotaciones en
formato texto asociadas a dicha imagen. Las
anotaciones están marcadas con etiquetas y
constituyen los metadatos de la colección.
Algunos casos incluyen también otras imágenes
relacionadas con el caso. Por ejemplo, se puede
tener una imagen de una radiografía de un
femur, y asociada a esta imagen disponer de
otras que muestren secciones del mismo femur,
una resonancia magnética, una fotografía, etc.
La colección CASImage 5 contiene unas
8.725 imágenes agrupadas en 2.076 casos. Esta
colección está compuesta de imágenes de
escáner, rayos x, ilustraciones, fotografías y
presentaciones. El 20% de los casos está en
inglés y el resto en francés. La colección MIR
(Mallinckrodt Institute of Radiology) 6 contiene
1.177 imágenes de medicina nuclear repartidas
en 407 casos. Cada caso contiene anotaciones
en inglés. Los casos de la colección PEIR
(Pathology Education Instructional Resource) 7
sólo contienen una imagen por caso. Dicha
colección contiene 32.319 imágenes con sus
respectivos casos anotados en inglés. La
información sobre las imágenes es muy escasa,
aunque está bien clasificada en campos. La
colección PathoPIC 8 contiene 7.805 imágenes
de patologías. Al igual que la colección PEIR,
existe una sola imagen por caso, aunque cada
caso está anotado en dos idiomas, alemán e
inglés. El idioma original de los casos es el
alemán, por lo que las anotaciones en inglés son
traducciones de dichos casos.
Para generar la colección textual se utiliza
un fichero índice que permite determinar qué
imágenes y anotaciones textuales pertenecen a
cada caso 9 . Las anotaciones textuales están en
formato XML y la mayoría se encuentran
escritas en inglés, sin embargo, el 80% de la
subcolección CASImage está etiquetada en
francés. Esto implica que antes de preprocesar
<ID>3349</ID>
<Description>On the frontal and lateral chest x-rays, perivascular haziness
is visible with a ground glass and diffuse nodular
infiltrate.</Description>
<Diagnosis>Acute eosinophilic pneumonia</Diagnosis>
Metadatos
del caso
<ClinicalPresentation>Patient with a fever and respiratory insufficiency
since 5 days.</ClinicalPresentation>
<Commentary>The diagnosis was based on a bronchoscopy with bronchoalveolar
lavage, demonstrating eosinophilia > 25%, as well as the absence of
parasites or any other pathogen.
…
Imágenes
Figura 2: Ejemplo parcial de un caso de la colección CASImage
6
http://gamma.wustl.edu/home.html
http://peir.path.uab.edu
8
http://alf3.urz.unibas.ch/pathopic/intro.htm
9
Para más información de la organización de la
colección consultar la página del CLEF
(http://ir.ohsu.edu/image/2005protocol.html) .
7
3
http://www.clef-campaign.org/
http://ir.ohsu.edu/image/
5
http://www.casimage.com
4
122
Mejora de los sistemas multimodales mediante el uso de ganancia de información
la colección completa es necesario realizar la
traducción automática de las anotaciones del
francés al inglés. Para ello se ha utilizado un
traductor automático a través de Internet.
Concretamente, se ha utilizado el traductor online Reverso 10 . La colección Pathopic contiene
anotaciones en inglés y en alemán pero el
corpus es paralelo (las mismas anotaciones en
inglés están también en alemán). En este caso,
simplemente se han ignorado las anotaciones en
alemán y sólo se han incorporado a la colección
completa las anotaciones en inglés. Algunos
casos (aunque muy pocos) no contienen
ninguna anotación. La calidad de los textos de
las colecciones varía de una subcolección a
otra, e incluso dentro de la misma subcolección.
Se considera que por cada imagen se tiene
un documento textual con las anotaciones sobre
el caso. Si un caso tiene más de una imagen
asociada, el texto del caso se repite tantas veces
como imágenes contenga, tal y como se muestra
en la Figura 3. De esta manera, se genera la
colección textual completa con todos los
documentos de cada una de las subcolecciones.
Tomando como ejemplo de partida el caso
de la Figura 2, la descomposición se realizaría
de acuerdo al esquema mostrado en la Figura 3.
4
Selección de etiquetas
Para depurar y mejorar la calidad de la
colección de documentos, se ha aplicado la
ganancia de información con el fin de permitir
la selección de las mejores etiquetas y eliminar
aquellas que no aportan apenas información.
Para ello, se ha calculado la IG para cada una
de las etiquetas de cada subcolección. Puesto
que cada subcolección
CASImage, Pathopic, Peir y MIR tiene un
conjunto de etiquetas diferente, la IG se calcula
en el ámbito de cada subcolección,
independientemente del resto. Si tomamos la
formula (1), C sería el conjunto de casos y E el
conjunto de posibles valores de la etiqueta
XML de nombre E.
Para calcular el valor de IG, se calcula la
entropía del conjunto de casos C como:
|C|
H(C) = −∑ p(ci )log 2 p(ci ) =
i=1
1
1
1
log 2
= −∑
= −log 2
|
C
|
|
C
|
|
C
|
i=1
|C|
Y la entropía del conjunto de casos C
condicionada por la etiqueta E como:
<ID>3349</ID>
<Description>On the frontal and
lateral chest x-rays, perivascular
haziness is visible with a ground
glass and diffuse nodular
infiltrate.</Description>
<Diagnosis>Acute eosinophilic
pneumonia</Diagnosis>
…
Case3349_En.xml
13187.jpg
13188.jpg
<ID>3349</ID>
<Description>On the frontal and
lateral chest x-rays, perivascular
haziness is visible with a ground
glass and diffuse nodular
infiltrate.</Description>
<Diagnosis>Acute eosinophilic
pneumonia</Diagnosis>
…
<ID>3349</ID>
<Description>On the frontal and
lateral chest x-rays, perivascular
haziness is visible with a ground
glass and diffuse nodular
infiltrate.</Description>
<Diagnosis>Acute eosinophilic
pneumonia</Diagnosis>
…
13187.xml
13188.xml
Figura 3: Extracción de la anotación textual de cada imagen
10
(4)
http://www.reverso.net
123
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López
mayor IG de 10 en 10 por ciento sobre el total,
empezando en el 10% hasta el 100% de las
etiquetas.
También
se
han
realizado
experimentos con una colección que utiliza
todas las etiquetas (sin aplicar el filtro por
frecuencias comentado anteriormente).
Además de la colección multimodal, la
organización del CLEF también pone a
disposición de los participantes 25 consultas
compuestas por una o varias imágenes y por un
texto asociado.
H(C | E) =
| C e | ⎛ |C| 1
1
j ⎜
−∑
log 2
⎜
| Ce
j=1 | C | ⎜ i=1 | C e |
j
j
⎝
|Ce j | | C
ej |
1
log 2
= −∑
| Ce |
i=1 | C |
⎞
⎟
= (5)
| ⎟⎟
⎠
|E|
=∑
j
donde Cej es el subconjunto de casos en C que
tienen el valor ej en la etiqueta E. El valor de ej
es el conjunto de palabras que forman dicha
etiqueta (sin considerar el orden de las
palabras). Conociendo la entropía del sistema y
la entropía condicionada podemos componer la
ecuación final de la siguiente manera:
5.1
Para poder analizar las mejoras que el sistema
híbrido propuesto pudiera aportar, se han
realizado dos casos experimentales que sirven
de base: un caso basado únicamente en las
imágenes, y otro en la información textual.
Como caso base visual se ha tomado el
resultado obtenido para cada consulta utilizando
exclusivamente un sistema CBIR (es decir, sin
tener en cuenta el texto sino únicamente
haciendo uso de la imagen). Para ello, se han
utilizado las listas de resultados suministrada
por la organización del CLEF para cada una de
las 25 consultas. Estas listas (una por consulta)
se obtienen como resultado al presentar una
imagen a un sistema de recuperación de
imágenes denominado GIFT 11 (GNU Image
Finding Tool). Se trata de un sistema CBIR que
usa 4 características de imagen para realizar la
recuperación (Squire et al., 2000). El resultado
obtenido tras una consulta con una imagen al
sistema GIFT consiste en una lista de imágenes
ordenadas según su valor de relevancia con
respecto a la imagen de consulta.
Como caso base textual se considera el
resultado obtenido por cada consulta utilizando
el texto de la misma sobre un sistema de
recuperación de información textual. El sistema
utilizado es LEMUR 12 . Este es un sistema
multiplataforma desarrollado como parte del
Proyecto LEMUR, una colaboración entre los
departamentos de Informática de las
universidades de Massachussets y Carnegie
Mellon. Dicha herramienta permite el filtrado y
la indexación de grandes colecciones
documentales y la recuperación de información
en dichas colecciones, utilizando una gran
variedad de modelos de recuperación. El
resultado obtenido tras una consulta a LEMUR
con el texto de cada una de las 25 consultas es
IG(C | E) =
= −log 2
1
+
|C |
|Ce j | | C
∑
i=1
ej
|C |
|
log 2
1
| Ce |
(6)
j
Se calcula la ganancia de información para
cada una de las etiquetas en cada una de las
colecciones. Una vez que cada etiqueta tiene
asociada su IG, se ordenan utilizando este valor
como referencia. A continuación, la colección
final se crea seleccionando aquellas etiquetas
que tienen los valores de IG más altos. No
obstante, existen etiquetas dentro de la
colección (como por ejemplo el campo
identificador ID) con un valor de IG muy alto y
cuyo contenido es poco representativo, ya que
difiere enormemente para cada caso y el
número de términos que contiene es muy
pequeño. Por lo tanto, antes de ordenar y
seleccionar las mejores etiquetas, se eliminan
aquellas cuya frecuencia media de palabras en
la subcolección sea inferior a un umbral. De
esta forma, una colección generada utilizando el
contenido del 100% de la etiquetas con mejor
IG contendrá, no obstante, menos etiquetas (y
por lo tanto, menos texto) que una colección
con todas la etiquetas.
5
Casos base visual y textual
Experimentos y resultados
El objetivo principal que se persigue es
demostrar que los resultados obtenidos con un
corpus en el que se han filtrado aquellas
etiquetas que aportan poca información (es
decir, con una IG baja) son mejores que cuando
se utiliza el corpus completo. Para ello se han
realizado experimentos utilizando diferente
número
de
etiquetas
seleccionadas.
Concretamente, se han tomado etiquetas con la
11
12
124
http://www.gnu.org/software/gift/
http://www.lemurproject.org/
Mejora de los sistemas multimodales mediante el uso de ganancia de información
una lista de documentos ordenados por su valor
de relevancia.
Show me
photographs of
benign or
malignant skin
lesions
5.2 Expansión de las consultas
textuales
Para mejorar los resultados de los casos base se
ha utilizado la información textual disponible
de cada caso y aplicando un método de
retroalimentación. De este modo, hemos
expandido las consultas originales con el texto
asociado a las 4 primeras imágenes recuperadas
con el sistema GIFT. El texto utilizado para
realizar la expansión depende de la colección
donde se realiza la recuperación de información
textual (10%, …, 100% o todas).
Además de los casos base textual y visual, se
han realizado 3 tipos de experimentos:
• Solo texto y GIFT: La forma más sencilla
de incorporar información visual al
resultado final consiste en mezclar el caso
base textual con el caso base visual dando
distintos pesos a los valores de relevancia
(RSV) de ambos casos (Figura 4). La
fórmula sería la siguiente:
•
•
5.4
Consulta Textual
Sistema CBIR
(GIFT)
Sistema IR
(Lemur)
Lista de imágenes
relevantes
(Listvisual)
5.3 Mezcla de resultados textuales y
visuales
RSVfinal = (RSVtext · α) + (RSVvisual · β)
Consulta Visual
Lista de imágenes
relevantes
(Listtext)
Mezclar ambas listas
(RSVtext · α) + (RSVvisual · β)
Lista de imágenes
relevantes
(Listfinal)
(5)
donde α y β son los pesos de cada lista y
cumplen que α+β = 1
Consulta textual expandida: Otra manera
de mezclar los resultados textuales y
visuales es utilizando la lista obtenida al
expandir la consulta textual. De esta forma,
la aportación visual al experimento es
mayor (Figura 5).
Consulta textual expandida y GIFT: Por
último, se puede mezclar la lista de la
consulta expandida con la lista del GIFT,
utilizando la fórmula (5), para realizar una
doble aportación visual.
Figura 4: Esquema de mezclado de las listas
visuales y textuales
Una vez calculada la IG de cada etiqueta y
antes de ordenarlas por IG para seleccionar las
etiquetas que tienen mayor valor, se han
eliminado aquellas etiquetas cuya frecuencia
media de palabras es inferior a un umbral dado.
De esta forma, eliminamos aquellas etiquetas
que teniendo pocas palabras (es decir, poca
información) tienen un valor de IG alto. Así
pues, el corpus denominado Coll_100 filtrado
por IG contiene el 100% de las etiquetas que
han superado el umbral de corte, y por lo tanto
dicho corpus contiene menos etiquetas que el
corpus completo (Coll_All).
Para dar nombre a los experimentos de
mezcla de listas se ha optado por la siguiente
nomenclatura:
Talfa_Ccoleción
(para los experimentos de mezcla)
Resumen de experimentos
Cada uno de los experimentos diseñados () se
ha lanzado contra cada una de las colecciones
generadas usando filtrado de etiquetas con IG.
A dichas colecciones se le ha denominado
según el porcentaje de etiquetas seleccionadas:
Coll_10, Coll_20, ..., Coll_100. Al corpus
completo con todas las etiquetas se le ha
denominado Coll_All. Recordemos que los
corpus con el 100% de las etiquetas y con todas
las etiquetas no son iguales.
donde:
125
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López
•
•
alfa: el porcentaje dado al RSV textual
colección: porcentaje de etiquetas que tiene
la colección donde se realiza la
recuperación textual
Show me
photographs of
benign or
malignant skin
lesions
Por ejemplo, si un experimento se nombra
T90C30, significa que se le ha dado un 90% de
importancia al RSV textual (y en consecuencia
un 10% al RSV visual) y que se ha utilizado la
colección con el 30% de etiquetas con mejor
IG.
Para los experimentos donde se realiza
expansión de la consulta con las 4 primeras
imágenes del GIFT, los experimentos se han
nombrado de la siguiente manera:
Consulta Visual
Sistema CBIR
(GIFT)
Lista de imágenes
relevantes
(Listvisual)
Expand_Ccoleción
(para los experimentos de expansión)
donde colección es el porcentaje de etiquetas
que tiene la colección donde se realiza la
recuperación de información. Por ejemplo, un
experimento llamado ExpandCall, significa que
se ha utilizado la colección con todas las
etiquetas (all) para realizar la recuperación de
información.
En cuanto a los experimentos donde se
realiza expansión de la consulta con las 4
primeras imágenes del GIFT más la mezcla de
dichos resultados con el caso base textual, los
experimentos se han nombrado de la siguiente
manera:
ExpandTalfa_Ccoleción
(para los experimentos de expansión)
Experimento
GIFT
(caso base visual)
OnlyText
(caso base textual)
Texto expandido
con GIFT
0%
100%
10%, …,
100%
Consulta Textual
+
texto de las 4
primeras imágenes
de Listvisual
Consulta expandida
Sistema IR
(Lemur)
Lista de imágenes
relevantes
(Listfinal)
Figura 5: Esquema de expansión de la consulta
utilizando las 4 primeras imágenes obtenidas
con GIFT
Por ejemplo, un experimento con nombre
ExpandT50C20, significa que se le ha dado un
50% de importancia al RSV textual expandido
(y en consecuencia un 50% al RSV visual) y
que se ha utilizado la colección con el 20% de
etiquetas con mejor IG.
α
(porcentaje
textual)
Consulta Textual
5.5
Resultados
Dependiendo del experimento, tenemos varios
tipos de resultados
5.5.1 Sólo texto con diferentes colecciones
Colección
utilizada
Ninguna
textual
10%, …,
100%, all
10%, …,
100%, all
Con los primeros resultados obtenidos,
podemos comparar cómo se comportan las
distintas colecciones generadas, es decir,
aquellas colecciones que tienen diferente
porcentaje de etiquetas (etiquetas elegidas
según su IG).
Como se puede comprobar en la Figura 6, al
utilizar sólo las consultas textuales para
recuperar las imágenes relevantes, se obtienen
mejores resultado que utilizando únicamente el
Tabla 1: Resumen de experimentos realizados.
126
Mejora de los sistemas multimodales mediante el uso de ganancia de información
0,3
0,25
MAP
0,2
onlytext
0,15
GIFT
0,1
0,05
0
10
20
30
40
50
60
70
80
90
100
All
Coll
Figura 6: Comparación entre los casos base visual y textual
sistema GIFT 13 , obteniéndose una precisión
media (MAP) de casi el doble en el mejor de
los casos (usando la colección con el 30% de
etiquetas).
En términos generales, las colecciones que
tienen un porcentaje de etiquetas reducido
(entre el 20% y el 50%) obtienen los mejores
resultados, con un valor de MAP entre 0,18 y
0,17.
5.5.2 Mezcla de solo texto y GIFT
El uso de colecciones con un menor número
de etiquetas también mejora los resultados
obtenidos (Figura 7). En este caso, podemos
comprobar cómo se acentúa la influencia que
produce la cantidad de etiquetas de la colección.
El experimento que mejor se comporta es aquel
que da un 60% de importancia al texto (α=0,6;
β=0,4). En este experimento se comprueba que
utilizar una colección que posea un número de
etiquetas reducido (entre el 20% y el 40%)
mejora la calidad de las soluciones.
Como se puede comprobar, la mezcla de
resultados supera con creces los resultados
visuales (GIFT), incluso en aquellas mezclas en
los que los resultados están por debajo del caso
base textual.
5.5.3 Consulta textual expandida
En cuanto a los experimentos realizados
mezclando ambas listas (visual y textual),
podemos comprobar que aquellos que dan más
peso al texto obtienen mejores resultados, tal y
como era de esperar, ya que la recuperación
textual genera mejores resultados que la
recuperación visual con GIFT. No obstante,
aquellos experimentos donde el peso dado al
texto está entre el 40% y el 90% también
consiguen superar al caso base textual (Figura
6).
Los experimentos con mejores resultados
son aquellos en los que el peso de la parte
textual no es muy elevado (50%, 60% y 70%)
lo que efectivamente demuestra que la
combinación de los dos tipos de resultados
(textual y visual) permite superar los resultados
obtenidos de manera independiente (Tabla 2).
13
Cuando se genera una nueva consulta con el
texto original de la consulta más el texto
asociado a las cuatro primeras imágenes de la
lista visual, el resultado no difiere mucho de
utilizar sólo texto. De hecho, los resultados
obtenidos no son nada significativos puesto que
prácticamente son iguales a los obtenidos con el
caso base textual (la mayor diferencia entre
resultados es de 0.001). Por este motivo, no se
muestran dichos resultados.
El valor MAP para el GIFT es 0.094
127
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López
onlytext
T10
T20
T30
T40
T50
T60
T70
T80
T90
C10
0,1645
0,1132
0,1309
0,1544
0,1875
0,2073
0,2140
0,2055
0,1922
0,1804
C20
0,1695
0,1150
0,1341
0,1581
0,1912
0,2115
0,2164
0,2040
0,1915
0,1825
C30
0,1791
0,1161
0,1360
0,1610
0,1965
0,2198
0,2252
0,2131
0,2013
0,1920
C40
0,1762
0,1153
0,1347
0,1584
0,1898
0,2151
0,2238
0,2120
0,1995
0,1891
C50
0,1695
0,1147
0,1335
0,1568
0,1862
0,2012
0,2074
0,1988
0,1882
0,1806
C60
0,1599
0,1144
0,1326
0,1538
0,1792
0,1930
0,1955
0,1885
0,1785
0,1705
C70
0,166
0,1155
0,1342
0,1554
0,1795
0,1970
0,2010
0,1941
0,1851
0,1776
C80
0,1659
0,1153
0,1339
0,1552
0,1791
0,1962
0,2001
0,1930
0,1843
0,1768
C90
0,1659
0,1154
0,1342
0,1553
0,1791
0,1963
0,2000
0,1933
0,1846
0,1772
C100
0,1659
0,1154
0,1342
0,1553
0,1791
0,1963
0,2000
0,1933
0,1846
0,1772
CAll
0,1614
0,1166
0,1360
0,1572
0,1780
0,1919
0,1995
0,1901
0,1800
0,1716
C100
0,1659
0,1154
0,1341
0,1554
0,1795
0,1964
0,2004
0,1934
0,1847
0,1773
CAll
0,1614
0,1168
0,1363
0,1581
0,1784
0,1932
0,1997
0,1905
0,1807
0,1729
Tabla 2. Mezcla de solo texto y GIFT
onlytext
ExpandT10
ExpandT20
ExpandT30
ExpandT40
ExpandT50
ExpandT60
ExpandT70
ExpandT80
ExpandT90
C10
0,1645
0,1131
0,1309
0,1545
0,1876
0,2072
0,2139
0,2063
0,1925
0,1808
C20
0,1695
0,1150
0,1342
0,1582
0,1915
0,2119
0,2164
0,2043
0,1918
0,1828
C30
0,1791
0,1161
0,1362
0,1611
0,1966
0,2202
0,2256
0,2129
0,2013
0,1920
C40
0,1762
0,1151
0,1346
0,1579
0,1894
0,2145
0,2228
0,2110
0,1988
0,1882
C50
0,1695
0,1147
0,1335
0,1566
0,1863
0,2014
0,2073
0,1989
0,1886
0,1806
C60
0,1599
0,1143
0,1327
0,1537
0,1794
0,1931
0,1958
0,1884
0,1785
0,1705
C70
0,166
0,1155
0,1340
0,1552
0,1793
0,1970
0,2009
0,1935
0,1848
0,1774
C80
0,1659
0,1156
0,1344
0,1554
0,1797
0,1967
0,2006
0,1936
0,1845
0,1774
C90
0,1659
0,1154
0,1341
0,1554
0,1795
0,1964
0,2004
0,1934
0,1847
0,1773
Tabla 3. Mezcla de la consulta textual expandida y GIFT
0,25
0,2
OnlyText
T10
T20
0,15
T30
MAP
T40
T50
T60
0,1
T70
T80
T90
0,05
0
10
20
30
40
50
60
70
80
90
100
All
coll
Figura 7: Gráfica comparativa de los distintos métodos de mezclado de listas (visual y textual)
128
Mejora de los sistemas multimodales mediante el uso de ganancia de información
5.5.4 Mezcla de
expandida y GIFT
la
consulta
Este sistema de selección no necesita ningún
tipo de entrenamiento ni conocimiento externo,
simplemente estudia la importancia de cada
etiqueta con respecto al total de documentos.
Además, es independiente del corpus analizado,
ya que en nuestros experimentos el cálculo de la
IG se ha realizado de forma independiente en
cada subcolección.
Además, se ha comprobado que el uso y
combinación de varias fuentes de información
(textual y visual) mejora significativamente la
utilización de una única fuente. Aunque por una
parte, la recuperación textual por si sola supera
a la recuperación visual, cuando se utilizan
conjuntamente, los resultados superan a los
obtenidos
con
las
resuperaciones
independientes.
Por último, también se ha comprobado que
la expansión de la consulta textual incorporando
texto a partir de las imágenes de la recuperación
textual no aporta apenas beneficios.
En el futuro se intentará estudiar la
incidencia de aplicar esta técnica en sistemas
que necesitan más información, como por
ejemplo, sistemas de búsqueda de respuestas.
Además, se aplicarán todos los resultados
obtenidos sobre otras colecciones con
metadatos como por ejemplo a las colecciones
TRECVid.
textual
Cuando utilizamos conjuntamente la expansión
y la mezcla de listas los resultados son similares
a la simple mezcla de listas, ya que como se ha
comentado en el apartado anterior, la expansión
no mejora los resultados textuales. Sin
embargo, el mejor de los resultados global
(experimento ExpandT60C30) es levemente
superior al mejor de los resultados de la simple
mezcla (experimento T60C30), tal y como se
puede observar en la Tabla 3. En realidad, si se
compara toda la tabla en general, la diferencia
es ínfima.
En la Figura 8, podemos observar
claramente cómo los mejores resultados se
concentran cuando se utilizan colecciones con
un porcentaje de etiquetas menor y el peso de la
lista textual es superior a la de la lista visual.
Conclusiones y trabajos futuros
La selección de etiquetas utilizando el método
de IG permite filtrar un corpus con el fin de
mejorar la calidad y obtener así mejores
resultados en la recuperación de información.
Además de reducir el tamaño de los corpus
utilizados, este método permite seleccionar
aquellas etiquetas más significativas dentro del
corpus, o por lo menos, aquellas que más
información aportan.
0,2500
0,2000
0,2000-0,2500
0,1500-0,2000
0,1500
0,1000-0,1500
MAP
0,0500-0,1000
0,1000
ExpandT90
0,0500
0,0000-0,0500
ExpandT70
0,0000
90
coll
ExpandT30
70
50
30
10
ExpandT50
ExpandT10
All
6
Figura 8: Gráfica comparativa entre los experimentos que utilizan expansión y mezcla de listas
129
Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López
7
annotation tasks. Evaluation of Multilingual
and Multi-modal Information Retrieval –
Seventh Workshop of the Cross-Language
Evaluation Forum, CLEF 2006. LNCS 2006.
Agradecimientos
Queremos expresar nuestra gratitud a la
organización del CLEF y más concretamente a
Carol Peters, por permitirnos utilizar y
referenciar los distintos recursos disponibles en
dicho foro.
Este trabajo ha sido parcialmente financiado
por el Ministerio de Ciencia y Tecnología a
través del proyecto TIMOM (TIN2006-15265C06-03).
Quinlan, J. R. 1986. Induction of Decision
Trees. Machine Learning, (1), 81-106.
Shannon, C. E. 1948.A mathematical theory of
communication. Bell System Technical
Journal, vol. 27, pp. 379-423 y 623-656.
Squire, D., W. Müller, H. Müller, T. Pun. 2000.
Content-based query of image databases:
inspirations from text retrieval. Pattern
Recognition Letters. Selected Papers from
The 11th Scandinavian Conference on
Image Analysis SCIA '99, 21(13-14):11931198.
Bibliografía
Clough, P., H. Müller, T. Deselaers , M.
Grubinger, T. Lehmann, J. Jensen, W.
Hersh. 2005. The CLEF 2005 CrossLanguage Image Retrieval Track. In
Proceedings of the Cross Language
Evaluation Forum (CLEF 2005).
Yang, Y., J. O. Pedersen. 1997. A Comparative
Study on Feature Selection in Text
Categorization. Proceedings of ICML-97,
14th International Conference on Machine
Learning.
Clough, P., M. Grubinger, T. Deselaers, A.
Hanbury y H. Müller. 2006. Overview of the
ImageCLEF 2006 photographic retrieval
and object annotation tasks. Evaluation of
Multilingual and Multi-modal Information
Retrieval – Seventh Workshop of the CrossLanguage Evaluation Forum, CLEF 2006.
Declerck, T., J. Kuper, H. Saggion, A.
Samiotou, P. Wittenburg y J. Contreras.
2004. Contribution of NLP to the Content
Indexing of Multimedia Documents. Image
and Video Retrieval. LNCS 2004. Volume
3115/2004.
Kato, T. 1992. Database architecture for
content-based image retrieval. Image
Storage and Retrieval Systems, Proc. SPIE
3312, 162-173.
Lee, W., D. Xiang. 2001. Information-Theoretic
Measures for Anomaly Detection. Proc. of
the 2001 IEEE Symposium on Security and
Privacy.
Lewis, M. S., N. Sebe, C. Djeraba y R. Jain.
2006.
Content-Based
Multimedia
Information Retrieval: State of the Art and
Challenges.
ACM
Transactions
on
Multimedia Computing, Communications,
and Applications, Volume 2. February 2006.
Mitchell, T. 1996. Machine Learning. McGraw
Hill.
Müller, H., T. Deselaers, T. Lehmann, P.
Clough y W. Hersh. 2006. Overview of the
ImageCLEFmed 2006 medical retrieval and
130
La anotación del habla en corpus de vı́deo
Manuel Alcántara Plá
DFKI GmbH
Saarbrücken
[email protected]
Resumen: La anotación lingüı́stica del habla en corpus multimodales es una labor
tan nueva como costosa, pero también es prometedora para tareas como la extracción
y el resumen de contenido, ası́ como para abrir nuevos caminos en el análisis del
habla espontánea. El presente artı́culo repasa el estado de la cuestión en los distintos
niveles de análisis con ejemplos de proyectos internacionales y nacionales, resaltando
la importancia de encontrar una base común a pesar de la actual falta de estándares.
Palabras clave: anotación lingüı́stica, corpus multimodal, estandarización
Abstract: The linguistic tagging of spoken language in multimodal corpora is a new
and complex task. However, its possibilities for other tasks such as content extraction/summarization and for further linguistic analysis are promising. This article
reports on the state-of-the-art in the different analysis levels including experiences
from international projects and stressing the importance of a common ground in
spite of the current lack of standards.
Keywords: linguistic tagging, multimodal corpora, standardization
1.
Introducción
El análisis lingüı́stico de las transcripciones del habla extraı́das de corpus de vı́deo es
un campo de investigación muy reciente dentro de la lingüı́stica computacional. La cantidad de colecciones de habla es también muy
limitada y aún más si sólo tenemos en consideración los corpus que incluyen algún tipo de anotación lingüı́stica. La aplicación en
los corpus orales de los etiquetados diseñados
para la lengua escrita requiere de una adaptación costosa que empieza incluso en las bases teóricas gramaticales, sólo probadas hasta
ahora -en el mejor de los casos- sobre textos
escritos.
La necesidad de corpus anotados de estas caracterı́sticas es cada vez más obvia y
acuciante tanto en la lingüı́stica como en las
aplicaciones enmarcadas dentro de la inteligencia artificial. Por este motivo, el número
de corpus de habla espontánea ha crecido de
manera importante durante los últimos años
y su desarrollo ha suscitado un buen número de cuestiones que se están multiplicando
ahora al incluir las relaciones entre el habla y
el resto de elementos presentes en un corpus
multimodal.
Este artı́culo describe cuáles son los problemas más graves encontrados en este nuevo
reto de la lingüı́stica de corpus ası́ como algunas de las medidas que han sido adoptadas
hasta el momento para resolverlos. Dado que
ISSN: 1135-5948
muchos de los proyectos mencionados están
aún desarrollándose, he optado por citar a
pie de página el respectivo sitio de internet
en cada primera mención para facilitar el acceso a su estado actual. En las conclusiones
finales, se resaltará la necesidad de una base de trabajo común para el etiquetado del
habla.
2.
La transcripción del habla
La anotación del habla depende en primera instancia de las caracterı́sticas de la transcripción. La mayorı́a de las transcripciones
se realizan o generan siguiendo las convenciones ortográficas de la lengua que se trate tal
y como recomiendan, entre otros, el Corpus
de Habla Holandés (CGN)1 , el Corpus Nacional Británico (BNC)2 y el Corpus de Japonés
Espontáneo (CSJ)3 . Debido a que la transcripción fonética se considera aún demasiado
compleja para el habla espontánea, los corpus que incluyen transcripciones de este tipo
en lugar -o además- de ortográficas se basan
en alfabetos fonémicos en lugar de fonéticos.
Con este fin, se utiliza el AFI en la última
versión del UAM-C-Oral-Rom (Moreno et al.,
2005) y en el Corpus Taiwanés de Lengua Infantil (TAICORP) (Tsay, 2005), el sistema
1
http://lands.let.kun.nl/cgn/ehome.htm
http://www-dev.natcorp.ox.ac.uk/
3
http://www2.kokken.go.jp/ csj/public/
2
© Sociedad Española para el Procesamiento del Lenguaje Natural
Manuel Alcántara Pla
SAMPA4 en el CGN y las sı́labas Kana en
el CSJ. Precisamente este último es un buen
ejemplo de intento de realizar transcripciones
fonéticas con el objetivo de etiquetar fenómenos como la palatalización. Sus conclusiones
no son, sin embargo, muy alentadoras puesto que no fueron capaces de etiquetar todos
los rasgos fonéticos que pretendı́an originalmente por el bajo nivel de acuerdo que se
encontraron entre los anotadores.
La transcripción, aun siendo ortográfica,
implica un buen número de decisiones arbitrarias tales como el tratamiento de las
mayúsculas, los acrónimos y los sı́mbolos, la
puntuación, las marcas diacrı́ticas, los números, los préstamos lingüı́sticos y las palabras
que no aparecen normalmente en fuentes escritas. Entre estas últimas, son especialmente
importantes por su frecuencia las decisiones
con respecto a los rasgos dialectales, las interjecciones y los marcadores discursivos. A
este respecto, es importante señalar la existencia de guı́as como el Estándar de Codificación de Corpus (XCES) del grupo EAGLES5 ,
que desgraciadamente sólo cubren los aspectos más generales.
Las convenciones ortográficas han probado ser problemáticas por dos razones curiosamente opuestas. Por un lado, hay casos en los
que son excesivamente ambiguas y necesitan
ser restringidas. Un ejemplo es el CSJ, que
hace un uso del Kanji (pictogramas chinos)
y del Kana (silabario japonés) mucho más
estricto que el propuesto por las normas ortográficas del japonés estándar de modo que
a cada forma sólo le corresponda una cadena
fónica.
Por otro lado, las convenciones pueden ser
excesivamente restrictivas como para reflejar
la creatividad del habla. El TAICORP es un
ejemplo en el que se usa la ortografı́a china
como base, pero se la acompaña del sistema
de romanización Taiwan Southern Min para
las palabras que no se pueden encontrar en
los diccionarios tradicionales.
Otro aspecto importante a tener en cuenta a la hora de analizar un corpus de habla es
el modo en que se ha realizado la transcripción: de forma manual o automática. El estado actual de los sistemas de reconocimiento
automático de habla (ASR) no permite obtener aún unos resultados fiables para el análisis lingüı́stico (Alcántara y Declerck, 2007).
4
5
Los sistemas más avanzados logran alrededor
del 90 % de palabras correctas, pero sólo en
las mejores condiciones (lo que significa habla con guión producida en un laboratorio).
Si el corpus incluye diferentes hablantes y las
grabaciones han sido realizadas en contextos
naturales, el porcentaje baja a bastante menos de la mitad.
3.
Elementos no lingüı́sticos
Las transcripciones de habla suelen incluir
la anotación de rasgos no lingüı́sticos que
ayudan a su posterior análisis. Estos datos,
generalmente en la cabecera del documento o
en un documento externo, están relacionados
tanto con la transcripción como con la fuente
original del vı́deo. Con respecto a los documentos, datos tı́picos son su tamaño, su calidad acústica, los formatos, las fuentes, los hablantes que aparecen (generalmente con algunas caracterı́sticas como su edad, nivel educativo y género), los responsables de las transcripciones y los enlaces a otros archivos o documentos relacionados. La información sobre
la calidad acústica suele acompañarse de detalles de la grabación tales como el tipo de
micrófonos, la frecuencia o si el tratamiento
es digital o analógico. La información sobre la
fuente es especialmente importante si los textos han sido tomados de corpus preexistentes.
En cuanto a los enlaces a otros documentos,
es recomendable realizarlos a través de un documento externo de modo que sea más sencilla su gestión y la posibilidad de compartir o
reutilizar los contenidos del corpus. El marco
europeo Isle Meta Data Initiative 6 está proponiendo un estándar para este tipo de gestión de corpus multimodales/multimedia.
En algunos casos, es fundamental la inclusión de información sobre el contexto y sobre
los rasgos sociolingüı́sticos de la interacción
contenida en el documento (como, por ejemplo, en CHILDES7 o C-Oral-Rom). Etiquetas
tı́picas sobre el contexto son las condiciones
en las que se produjo la grabación (incluyendo el papel que tuvo el grabador y el nivel
de espontaneidad), la fecha y el lugar en que
se produjo. Las anotaciones sociolingüı́sticas
informan sobre los participantes de la interacción (nombres, edades y lugares de nacimiento, géneros, papel en la conversación, nivel
educativo, etc.) y son un criterio común para
http://www.phon.ucl.ac.uk/home/sampa/home.htm
http://www.cs.vassar.edu/XCES/
132
6
7
http://www.mpi.nl/IMDI/
http://childes.psy.cmu.edu/
La notación del habla en corpus de vídeo
el diseño de los corpus (p.ej. CGN, CHILDES o C-Oral-Rom). Si el discurso está dividido en turnos, un identificador único se relaciona con cada participante para permitir
referencias en el diálogo a la información del
hablante. Otros rasgos sociolingüı́sticos como
el dialecto o el registro son, aunque también
frecuentes, más dependientes del objetivo del
corpus. El CSJ, por ejemplo, incluye datos
especı́ficos sobre el nivel de fluidez, de expresividad y de claridad articulatoria de los hablantes.
Por último, algunas anotaciones legales
pueden ser obligatorias dependiendo de la legislación vigente. El consentimiento de los
hablantes a ser grabados y los derechos de
la propiedad intelectual tienen que aparecer
explı́citos en los corpus de la Unión Europea.
Los consentimientos deben explicitar si el sonido puede ser transcrito, usado para la investigación y publicado. Aunque los derechos de
propiedad intelectual son más tı́picos de los
documentos escritos, también son relevantes
en grabaciones literarias o con valor cientı́fico
(por ejemplo, conferencias) ası́ como en documentos tomados de medios de comunicación.
Este aspecto puede repercutir en el valor del
corpus de dos maneras diferentes. Por un lado, las ventajas de un corpus que cuenta con
todos los permisos para su utilización y publicación son evidentes para una investigación
exitosa. Por otro lado, estos requisitos legales pueden comprometer la espontaneidad de
lo grabado puesto que es difı́cil lograr una interacción natural después de haber advertido
a los interlocutores de que sus palabras no
van a ser sólo grabadas, sino también minuciosamente analizadas y probablemente publicadas.
Como ocurre también con los demás niveles de anotación en el corpus, las etiquetas
elegidas para los elementos no lingüı́sticos difieren completamente entre los distintos proyectos. Por este motivo, son de gran importancia iniciativas como la citada IMDI, que
nos facilitarán en el futuro tanto el diseño de
nuevos corpus como la utilización de los ya
existentes.
4.
mos señalar, no obstante, que existen corpus,
generalmente no entre los más recientes, que
sı́ se guı́an por la puntuación (p.ej. el CORLEC8 ). El análisis de este último muestra que
la puntuación normativa influye a veces en la
fiabilidad de la transcripción. El transcriptor
tiende a adaptar lo que escucha a las formas
normativamente correctas ya que en muchas
ocasiones no es posible de otro modo ponerle
puntos y comas al habla espontánea.
Como consecuencia en parte de que los
estudios se hayan centrado tradicionalmente en la lengua escrita, las unidades de
análisis prosódicas son todavı́a controvertidas en cuanto a su definición y nomenclatura. La proferencia (utterance) es el término
más común (Cresti y Moneglia, 2005; Miller y Weinert, 1998), pero no hay acuerdo
en cuanto a su definición. Para algunos corpus como el CIAIR-Corpus de Diálogos en
Coches (Kawaguchi et al., 2005) o el CSJ,
los silencios son las pistas determinantes,
pero la mayorı́a de corpus combinan criterios de otros niveles lingüı́sticos, sobre todo
pragmáticos y sintácticos. Estos criterios son,
no obstante, también discutidos con frecuencia. Mientras que los pragmáticos se critican
por basarse en los actos de habla de Austin, considerados a menudo demasiado subjetivos para una anotación extensa y coherente, los sintácticos se critican por la dificultad
de aplicar reglas fundamentadas en la lengua
escrita sobre textos que tienen caracterı́sticas diferentes como, por poner un ejemplo,
un tercio de oraciones no verbales (Cresti y
Moneglia, 2005).
Algunos proyectos proponen criterios mixtos para evitar estos problemas. El corpus
TRAINS93, por ejemplo, se basa en dos claves para establecer los lı́mites prosódicos: por
un lado, se da una ruptura en el discurso del
hablante y otro hablante interviene; por otro
lado, se produce una ruptura en la entonación, en la sintaxis (coincidencia con un lı́mite
de categorı́a sintáctica) o hay una respiración
(Heeman y Allen, 1995). En C-Oral-Rom, se
distingue entre proferencias simples y complejas (con una o más de una unidad tonal) y
se comparan las proferencias con los actos de
habla de Austin (Austin, 1962) y las unidades tonales con las unidades informativas de
Halliday (Halliday, 1976), pero siempre considerando los cambios entonativos la pista más
Los lı́mites prosódicos
La falta de una puntuación ortográfica en
la lengua oral le da una especial relevancia
a otros criterios más lingüı́sticos, en especial
los lı́mites prosódicos (p.ej. las proferencias) y
pragmáticos (p.ej. los actos de habla). Debe-
8
133
ftp://ftp.lllf.uam.es/pub/corpus/oral/
Manuel Alcántara Pla
determinante a la hora de anotar lı́mites, con
un fuerte protagonismo de los perfiles terminales (Crystal, 1975). Cabe señalar que este
último ejemplo lo es de una experiencia exitosa puesto que el proyecto contó con un 95 %
de acuerdo ent re los anotadores.
Otras unidades han sido utilizadas en
otros proyectos dependiendo del objetivo de
sus análisis. Por poner dos ejemplos distintos,
el CGN tiene anotadas las sı́labas prominentes, los lı́mites prosódicos entre palabras y los
alargamientos segmentales (Hoekstra et al.,
2002) mientras que el sistema de Multilevel
Annotation Tools Engineering (MATE9 ) etiqueta grupos de acentos, pies, sı́labas y moras.
Entre las aproximaciones más acústicas, el
sistema TOBI10 (Tone and Break-Index) se
ha utilizado como estándar para la transcripción de entonación y estructuras prosódicas al
menos para el inglés, el alemán, el japonés, el
coreano y el griego, con las adaptaciones pertinentes en cada caso. Junto con el contorno
de la frecuencia fundamental y la transcripción ortográfica, el TOBI incluye un nivel para los tonos y otro para los ı́ndices de los distintos lı́mites. Las etiquetas transcriben las
variaciones de tono como secuencias de tonos altos (H) y bajos (L) e incluyen marcas
diacrı́ticas con su función (el inventario de
eventos tonales está basado en análisis autosegmentales). Los lı́mites marcan los grupos prosódicos en una proferencia etiquetando el final de cada palabra sobre una escala
del 0 (la unión perceptible más fuerte con la
siguiente palabra) al 4 (la mayor separación).
Un ejemplo de adaptación del sistema es el
X-JTOBI, versión del TOBI de japonés leı́do
para el habla espontánea11 . Las etiquetas para los tonos y los lı́mites fueron extendidas
en el X-JTOBI para poder representar rasgos
paralingüı́sticos propios de la entonación espontánea, incluyendo fenómenos de disfluencia tales como las pausas largas, las palabras
fragmentadas y las pausas dentro de una palabra.
Los diferentes sistemas existentes no se
diferencian sólo en el modo en que se definen los conceptos que manejan, sino también
en cómo estos son anotados. Una convención
muy extendida es la de Gross (Gross, Allen, y
Traum, 1993) con las proferencias separadas
en distintas lı́neas o incluso ficheros, numeradas según el número de turno y el número de proferencia dentro de ese turno (como
describen Nakatani y Traum sobre su corpus
(Nakatani y Traum, 1999)). Otra convención
frecuentemente utilizada es la del asterisco
(*) junto a un código que identifique al hablante para marcar el inicio de un turno y
la de las dobles barras (//) para marcar los
lı́mites prosódicos (p.ej. en CHILDES y en
C-Oral-Rom).
Además de los lı́mites prosódicos, la lengua hablada incluye otros fenómenos que
también suelen etiquetarse dentro de la
anotación prosódica a pesar de que, dadas
sus peculiaridades, afectan a prácticamente
todos los niveles (González et al., 2004). El
citado artı́culo los clasifica en dos grupos: rasgos de producción y rasgos de la interacción.
Los primeros incluyen, entre otros, las palabras fragmentadas, los apoyos vocálicos y
los reinicios. Los segundos son los cambios de
turnos y los solapamientos.
5.
Unidades morfosintácticas
La anotación morfosintáctica de la lengua
hablada es diferente a la de la escrita y no
puede llevarse a cabo con los sistemas de etiquetado preexistentes. La morfosintaxis de la
lengua oral es aún controvertida incluso en
los aspectos más fundamentales. Por poner
un ejemplo básico, algunos corpus utilizan los
blancos para delimitar palabras (lo hacen ası́,
p.ej., el BNC y el CGN) mientras que otros
prefieren considerar palabras aquellos grupos
mı́nimos de sonidos que tienen un significado propio (p.ej. el UAM C-Oral-Rom o el
USAS12 ). Esta última decisión, aunque arbitraria en muchos casos, evita circunstancias
como la descrita en las especificaciones del
BNC, con etiquetados diferentes para formas
distintas de una misma palabra (p.ej. “foxhole” o “fox hole”).
En el habla se encuentran muchas partes
difı́cilmente categorizables dentro de las tipologı́as morfológicas tradicionales. Un uso
común es no transcribirlas como palabras,
sino a través de sı́mbolos (o simplemente no
transcribirlas en absoluto, lo que merma considerablemente la riqueza del corpus). Esta
última solución fue la adoptada por los primeros corpus tales como el CORLEC, carac-
9
http://mate.nis.sdu.dk/
http://www.ling.ohio-state.edu/ tobi/
11
http://www.ling.ohiostate.edu/research/phonetics/J ToBI/
10
12
134
http://www.comp.lancs.ac.uk/ucrel/usas/
La notación del habla en corpus de vídeo
terizados, como hemos visto antes, por seguir
una transcripción ortográfica normativa. Los
corpus más modernos están intentando ampliar la tipologı́a para dar cabida a estas palabras, con lo que están ganando prominencia
categorı́as que antes eran marginales como es
la de los marcadores discursivos.
Como era de esperar, las caracterı́sticas de
cada lengua influyen directamente en las decisiones tomadas con respecto al análisis morfológico de modo que la anotación de corpus
como el CGN y el CSJ es claramente distinta. El último, por ejemplo, distingue entre
palabras cortas (de uno o dos morfemas) y
largas (compuestas de varias cortas y partı́culas), algo que no serı́a pertinente en un corpus
de una lengua romance o germánica. Es importante señalar que esta influencia proviene
frecuentemente más de la tradición lingüı́stica que de la lengua en sı́. Un ejemplo claro
es la imposibilidad de acuerdo para las clases de palabras entre los cuatro grupos de
C-Oral-Rom, cuyas respectivas lenguas (portugués, italiano, francés y español) eran en
teorı́a muy parecidas.
Precisamente las clases de palabras son
la información morfosintáctica más básica y
frecuente en los corpus, casi siempre acompañada de los lemas de las palabras. Los sistemas de etiquetado automático basados en
métodos estadı́sticos como el TnT (Brants,
2000) o el de E. Brill (Brill, 1993) han demostrado resultados satisfactorios (p.ej. en los
sistemas CLAWS4 (Leech, Garside, y Bryant,
1994) y GRAMPAL (Moreno, 1991)), pero
siempre después de su adaptación a la lengua
hablada. Ası́ la última versión de GRAMPAL
incorpora marcadores discursivos y elementos
enfáticos mientras que el BNC utiliza el mencionado sistema CLAWS4 adaptándolo a algunos fenómenos propios de la oralidad como
son las repeticiones. La calidad de la anotación depende también de la adaptación de las
categorı́as que son frecuentes en la escritura puesto que sus posiciones y frecuencias no
suelen coincidir con las del habla. Los marcadores discursivos y las interjecciones, por
ejemplo, son en general palabras utilizadas
con otras funciones al escribir, lo que dificulta su desambiguación categorial hasta el
punto de haber sido obviadas hasta ahora en
la mayorı́a de los corpus (como los mencionados CGN, EAGLES, BNC y XCES). En los
corpus en los que se ha optado por adaptar la
anotación, la redefinición de las categorı́as se
ha realizado desde criterios funcionales (p.ej.
en el UAM C-Oral-Rom) o formales (p.ej. en
el CGN).
Más allá de los problemas de definición,
no podemos olvidar aquellos heredados de
la transcripción, como son la pronunciación
extraña de palabras, la alta frecuencia de
préstamos lingüı́sticos y el uso de neologismos (casi siempre a través de morfemas derivativos), que añaden gran cantidad de ruido
a los análisis morfosintácticos. Por regla general, las normas de etiquetado suelen incluir
un protocolo describiendo las decisiones que
se han tomado para anotar estos fenómenos
orales.
En cuanto a la anotación puramente
sintáctica, muy pocos corpus orales la incluyen por la dificultad de distinguir automáticamente unidades complejas (sintagmas y oraciones) en el habla. Algunos ejemplos de estas experiencias son el CGN y el
CSJ. Un 10 % del primero fue etiquetado
semi-automáticamente con el programa ANNOTATE siguiendo un análisis de dependencias diseñado con la máxima sencillez para
minimizar los costes (Hoekstra et al., 2002).
El mismo criterio llevó a elegir las proposiciones como unidad de anotación de un subcorpus del CSJ de 500.000 palabras tomadas
de monólogos. Las proposiciones son más sencillas de segmentar que las oraciones porque
los verbos conjugados y las conjunciones se
colocan al final de ellas en japonés.
6.
La semántica
La anotación semántica se realiza habitualmente desde dos perspectivas en principio
diferentes: la conceptual y la estructural. Los
sistemas conceptuales etiquetan documentos
o palabras según el campo al que pertenecen y se distinguen entre sı́ por el número de
categorı́as y los criterios involucrados en sus
ontologı́as. Por ejemplo, cada noticia grabada de los telediarios en la Digital Video Library13 se etiqueta automáticamente dentro
de una de sus 3178 categorı́as temáticas gracias a un algoritmo de cercanı́a K. Un ejemplo
de etiquetado de palabras para lengua escrita
y hablada -en inglés- es el USAS utilizado en
el software UCREL para análisis semánticos
automáticos. Incluye 232 categorı́as divididas
en 21 campos (como “educación” o “comida”) y sus reglas de desambiguación depen13
135
http://www.open-video.org/
Manuel Alcántara Pla
den de la categorı́a morfológica de la palabra,
de sus apariciones en el mismo texto, del contexto y del dominio en el que se encuadra el
discurso.
Otro caso tı́pico de etiquetado conceptual
es el del reconocimiento de entidades propias
(NE). En el Corpus Japonés de Diálogos para Análisis de Enfermerı́a (itoh Ozaku et al.,
2005), se utilizó la herramienta NExT para
extraer nombres propios, medicamentos y enfermedades de modo que se pudieran inferir
fácilmente las situaciones que aparecı́an en
cada grabación. Gracias al carácter multimodal del corpus, la desambiguación se llevaba a
cabo teniendo en cuenta datos extralingüı́sticos como la localización en la que se encontraba la enfermera cuando pronunciaba las palabras (las enfermeras llevaban unos sensores
de posición, lo que también permitı́a saber
quién participaba en cada interacción).
La anotación estructural difiere más de la
lengua escrita que la conceptual y es, por lo
tanto, uno de los grandes retos en los nuevos
corpus. Su atractivo es grande debido a las ya
mencionadas dificultades que plantea la estructuración sintáctica del habla espontánea
y aún más si se utiliza conjuntamente con
la información ontológica. Uno de los escasos
ejemplos ya finalizados es SESCO (Alcántara, 2005), donde las estructuras eventivas fueron utilizadas en un etiquetado que buscaba,
de nuevo, la mayor simplicidad para ser flexible en el análisis de un corpus de habla espontánea sin restricciones. La anotación se
basó en la estructuración composicional de
tres únicos tipos eventivos (estados, procesos
y acciones) que podı́an ser subdivididos según
los argumentos que requisieran. El resultado
es un ejemplo claro de la potencialidad de
este tipo de etiquetados puesto que sus estructuras se están utilizando en la actualidad
como base para el análisis de otros niveles
lingüı́sticos.
Otro ejemplo es el Spanish Framenet, actualmente en desarrollo. Aunque el corpus
que se utiliza en este proyecto es básicamente de lengua escrita, incluye también un 12 %
de habla espontánea (alrededor de 35 millones de palabras según los datos expuestos en
la página del proyecto14 ). El etiquetado estructura la lengua en marcos relacionando los
lexemas con situaciones prototı́picas que incluyen diferentes tipos de participantes. Al
14
contrario que en SESCO, aquı́ el proceso no
comienza en el corpus, sino en la identificación de los marcos. Una vez que el marco
está definido, se buscan oraciones en el corpus que ejemplifiquen su tipo, anotando las
distintas partes con las etiquetas apropiadas.
El primer lexicón derivado de este trabajo
está anunciado para principios del 2008.
7.
La pragmática
La codificación de elementos pragmáticos
ha tenido un gran avance en las últimas décadas gracias al desarrollo de sistemas aplicados
para tareas especı́ficas. Un ejemplo conocido
es el Corpus de Tareas con Mapas (MTC)
de la Universidad de Edimburgo (Anderson
et al., 1991), que cuenta con tres niveles de
anotación discursiva. En la superior, el diálogo se divide en transacciones en las que se
completan los pasos de la tareas. Esas tareas
se subdividen a su vez en juegos conversacionales similares a lo que Grosz y Sidner denominan segmentos discursivos (Grosz y Sidner, 1986). Por último, estos juegos se componen de inicios y respuestas clasificados según
tipos de movimientos conversacionales.
También relacionado con el modelo de
Grosz y Sidner, el CSJ ha sido anotado con
un sistema basado en el IAD de Nakatani
(Nakatani et al., 1995). El anotador tiene que
dividir manualmente el discurso en segmentos asignándoles su finalidad. El manual del
proyecto aclara que ésta es una labor muy
costosa que requiere trabajo en equipo y decisiones complejas. Sin embargo, han sido capaces de etiquetar un pequeño subcorpus de
monólogos con patrones de cohesión (es decir, ”oraciones que tienen una relación local
entre ellas”) y subhistorias (la finalidad de
una parte completa del discurso).
Un ejemplo diferente, más conectado con
los aspectos morfosintácticos, es el esquema
propuesto por Marco de Rocha para el análisis de expresiones anafóricas en la lengua hablada (de Rocha, 1997). Cada discurso se etiqueta con un tema que está formado por segmentos, los cuales son anotados según sus
funciones discursivas (p.ej. introducción de
un tema). Por último, las expresiones anafóricas son etiquetadas junto a su tipo, el tipo
morfosintáctico del antecedente, el estatus de
topicalidad del antecedente y el tipo de conocimiento necesario para procesarla.
Nakatani y Traum ofrecen un ejemplo
de etiquetado más centrado en los hablan-
http://gemini.uab.es:9080/SFNsite
136
La notación del habla en corpus de vídeo
tes. Anotan unidades de elementos comunes
(CGU) que marcan “el acuerdo entre los hablantes sobre su entendimiento de lo que se
dice” (Nakatani y Traum, 1999). Cada CGU
contiene las oraciones necesarias para fundamentar un contenido, mientras que varias de
estas unidades son anotadas juntas como unidades intencionales o informativas.
Otro de los corpus mencionados anteriormente, el CIAR, también incluye la anotación
de actos de habla con unas etiquetas denominadas marcas de intención (LIT), que indican la intención que tienen las oraciones para el hablante. Cada LIT está formado por
cuatro niveles: acto discursivo, acción, objeto y argumento, y se asume que la oración
-vinculada al LIT- es la unidad fundamental
del diálogo. Varias oraciones forman una parte del discurso (PoD) que aparece etiquetada
con la tarea principal que esté llevando a cabo el hablante.
8.
pueden ser el cambio de cámara o el movimiento de la imagen. Estas unidades (denominadas shots) raramente coinciden con los
lı́mites lingüı́sticos. Aunque serı́a lo ideal para el análisis del contenido, parece que la relevancia de la segmentación visual para la
anotación lingüı́stica es escasa (Alcántara y
Declerck, 2007).
9.
Conclusiones para el futuro
La multimodalidad supone un paso más
en la evolución que se ha venido produciendo
en la lingüı́stica de corpus durante las últimas dos décadas (Moreno, 2002). Esta nueva
generación de corpus ofrece un gran potencial para el análisis lingüı́stico y el desarrollo
de aplicaciones de inteligencia artificial dentro de un contexto en el que la dependencia
de los corpus y de los avances tecnológicos
está resultando ser claramente bidireccional.
No obstante, las caracterı́sticas de estas colecciones hacen que requieran de un esfuerzo importante en la anotación tanto si se parte de
la reutilización de sistemas como si se crean
otros nuevos.
El mayor problema que afrontamos al desarrollar corpus multimodales es, como se deduce de lo descrito en las secciones previas,
la falta de una estandarización eficiente, un
problema que en parte viene heredado de la
brevı́sima tradición en el trabajo con corpus
de habla (Llisterri, 1997). Como hemos descrito en este artı́culo, cada nivel de análisis
cuenta en la actualidad con experiencias tan
interesantes como dispares y la discrepancia
no se da únicamente en el plano teórico, sino
también en la forma en que se codifican las
informaciones. El uso cada vez más extendido del XML (lo que incluye también la traducción de formatos antiguos a este formato)
nos permite a este respecto compartir recursos con mayor facilidad ahora que en el pasado, pero compatibilizar las diferentes informaciones sigue resultando una tarea ardua.
El contar con sistemas compatibles entre
sı́ nos ayudarı́a a reutilizar y mejorar recursos ya existentes. Además, es un requisito indispensable para poder realizar investigaciones que impliquen más de un nivel lingüı́stico. Este último paso facilitarı́a la resolución
de muchos de los problemas aquı́ planteados.
Un ejemplo claro es la mencionada segmentación del documento en unidades pertinentes
lingüı́sticamente. Las experiencias con habla
espontánea demuestran que no es una tarea
El alineamiento del texto con
el sonido y la imagen
La anotación prosódica está estrechamente relacionada con el alineamiento del sonido
y el texto ya que se suelen tomar unidades
de la prosodia para realizar el proceso. Las
aplicaciones automáticas para el alineamiento se basan en rasgos acústicos (fı́sicamente
reconocibles) que generalmente se corresponden con perfiles terminales, pero sus resultados son aún muy limitados. Algunos proyectos han utilizado unidades de definición más
compleja, pero realizando la tarea manualmente (C-ORAL-ROM), mientras que otros
han sacrificado esta complejidad para facilitar su automatización, tomando unidades
como las pausas mayores de tres segundos
(p.ej. el CGN) o los fonemas (realizado con
un sistema HMM para el CSJ y siendo revisado después manualmente).
El alineamiento del habla con las imágenes en corpus multimodales es un campo en
el que apenas contamos con experiencias, pero los primeros intentos ya han evidenciado la dificultad de sus retos, centrados especialmente en la conciliación entre los rasgos
lingüı́sticos y los puramente audiovisuales. La
segmentación del documento en unidades que
sean relevantes tanto desde un punto de vista
visual como lingüı́stico es el primer problema
a solucionar. Las divisiones para el análisis
audiovisual se basan en rasgos acústicos y de
la imagen detectados automáticamente, como
137
Manuel Alcántara Pla
10.
fácil en ningún nivel, pero el uso combinado de la información obtenida en varios de
ellos nos está dando resultados prometedores
(Alcántara, 2007).
El autor quiere mostrar aquı́ su agradecimiento a la citada red europea de excelencia
K-Space (Knowledge Space of semantic inference for automatic annotation and retrieval of multimedia content, FP6-027026) de la
que forma parte y, especialmente, a los otros
miembros del equipo del DFKI que participan en dicha red, Thierry Declerck y Paul
Buitelaar. El trabajo de este artı́culo ha sido financiado con una beca posdoctoral del
Ministerio de Educación y Ciencia.
Un problema relacionado es el de la excesiva especificidad de muchas anotaciones.
Por poner un ejemplo, pocos proyectos de los
mencionados en este artı́culo están diseñados
para etiquetar más de una lengua. De hecho,
en la mayorı́a de los casos ni tan siquiera
se pretende cubrir una lengua completa, sino
una pequeña parte estrictamente delimitada
por rasgos como el dominio o el tipo de hablantes, dados por los objetivos inmediatos
de cada proyecto. Esta especificidad dificulta
también el intercambio de información y, lo
que es aún más grave, impide la escalabilidad
de los sistemas. Como es lógico, los estudios
lingüı́sticos que estos corpus permiten tampoco se pueden extrapolar a las caracterı́sticas generales de la lengua.
Bibliografı́a
Alcántara, Manuel. 2005. Anotación y recuperación de información semántica eventiva en corpus. Ph.D. tesis, Universidad
Autónoma de Madrid.
Alcántara, Manuel. 2007. Merging semantics
and prosody to structure spoken language.
En Proceedings of the IWCS-7.
Nos encontramos en un momento positivo
porque contamos, por primera vez, con corpus multimodales y las posibilidades técnicas
necesarias para etiquetarlos incluyendo información lingüı́stica. Sin embargo, la escasez de
experiencias comunes y la necesidad de conseguir objetivos en cada caso diferentes nos
sitúan en una posición en la que los avances no son tan importantes como cabrı́a esperar por el interés y el trabajo dedicados.
El progreso en la anotación del habla necesita que nos esforcemos en encontrar una base
común tanto en lo que se etiqueta como en
cómo se etiqueta. En otras ocasiones, como
ocurrió con los corpus de lengua escrita, los
estándares se han ido imponiendo de forma
natural por sistemas de etiquetado que por
diversos motivos han gozado de una aceptación mayoritaria, pero parece que la rapidez de los desarrollos actuales recomienda
la puesta en marcha de propuestas como la
de, por ejemplo, la red europea de excelencia K-Space15 , dirigidas a acelerar ese proceso de convergencia. Esfuerzos de estandarización como el ya mencionado de Eagles (y
otros como el de la Text Encoding Initiative16 o el de la Red de Corpus Europeos de
Referencia-NERC (Teubert, 1993)) son una
base de gran interés para este fin que deberı́a
tenerse en cuenta para los futuros desarrollos.
15
16
Agradecimientos
Alcántara, Manuel y Thierry Declerck. 2007.
Shallow semantic analysis of asr transcripts associated with video shots. En
Proceedings of the IWCS-7.
Anderson, A., M. Bader, E. Bard, E. Boyle, G.M. Doherty, S. Garrod, S. Isard,
J. Kowtko, J. McAllister, J. Miller, C. Sotillo, H.S. Thompson, y R. Weinert. 1991.
The hcrc map task corpus. Language and
Speech, 34.
Austin, J.L. 1962. How to do Things With
Words. Harvard University Press.
Brants, Thorsten. 2000. Tnt - a statistical
part-of-speech tagger. En Proceedings of
the Sixth Applied Natural Language Processing Conference ANLP-2000.
Brill, E. 1993. A Corpus-Based Approach
to Language Learning. Ph.D. tesis, Philadelphia.
Cresti, Emanuela y Massimo Moneglia, editores. 2005. C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Language. Benjamins.
Crystal, David. 1975. The English tone of
voice: essays in intonation, prosody and
paralanguage. Edward Arnold.
de Rocha, Marco, 1997. Corpus-Based and
Computational Approaches to Discourse
Anaphora, capı́tulo Corpus-Based Study
of Anaphora in English and Portuguese.
UCL Press.
http://kspace.qmul.net/
http://www.tei-c.org/
138
La notación del habla en corpus de vídeo
Moreno, Antonio. 2002. La evolución de los
corpus de habla espontánea: la experiencia del lli-uam. En Actas de las Segundas
Jornadas de Tecnologı́as del Habla.
González, Ana, Guillermo de la Madrid, Manuel Alcántara, Raúl de la Torre, y Antonio Moreno. 2004. Orality and difficulties
in the transcription of spoken corpora. En
IV International Conference on Language
Resources and Evaluation (LREC2004).
Moreno, Antonio, Guillermo De la Madrid, Ana González, Jose Marı́a Guirao,
Raul De la Torre, y Manuel Alcántara,
2005. C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages, capı́tulo The Spanish corpus. Benjamins.
Gross, Derek, James F. Allen, y David R.
Traum. 1993. The Trains 91 Dialogues.
University of Rochester.
Grosz, B.J. y C.L. Sidner. 1986. Attention,
intention, and the structure of discourse.
Computational Linguistics, 12(3).
Nakatani, C. H. y David R. Traum. 1999.
Coding discourse structure in dialogue
(version 1.0). Informe técnico, University
of Maryland.
Halliday, M.A.K. 1976. System and Function
in Language. Oxford University Press.
Heeman, Peter A. y James F. Allen. 1995.
The Trains spoken dialog corpus (CDROM). Linguistic Data Consortium.
Nakatani, Christine H., Barbara J. Grosz,
David D. Ahn, y Julia Hirschberg. 1995.
Instructions for annotating discourse. Informe técnico, Center for Research in
Computing Technology.
Hoekstra, H., M. Moortgat, B. Renmans,
M. Schouppe, I. Schuurman, y T. van der
Wouden. 2002. Cgn syntactische annotatie. Informe técnico, Radboud University
Nijmegen.
Teubert, W. 1993. Phonetic/phonemic and
prosodic annotation. final report. Informe
técnico, IDS Mannheim.
itoh Ozaku, Hiromi, Akinori Abe, Noriaki
Kuwahara, Futoshi Naya, Kiyoshi Kogure,
y Kaoru Sagara. 2005. Building dialogue
corpora for nursing activity analysis. En
Proceedings of the LINC05.
Tsay, Jane S. 2005. Taiwan child language corpus: Data collection and annotation.
En Fifth Workshop on Asian Language
Resources (ALR-05).
Kawaguchi, Nobuo, Shigeki Matsubara, Kazuya Takeda, y Fumitada Itakura. 2005.
Ciair in-car speech corpus: Influence of
driving status : Corpus-based speech technologies. IEICE transactions on information and systems.
Leech, G., R. Garside, y M. Bryant. 1994.
Claws4: The tagging of the british national corpus. En Proceedings of the 15th International Conference on Computational
Linguistics (COLING 94).
Llisterri, Joaquim. 1997. Transcripción, etiquetado y codificación de corpus orales.
Seminario de Industrias de la Lengua Fundación Duques de Soria.
Miller, J. y R. Weinert. 1998. Spontaneous
Spoken Language. Syntax and Discourse.
Oxford University Press.
Moreno, Antonio. 1991. Un modelo computacional basado en la unificación para el
análisis y la generación de la morfologı́a
del español.
Ph.D. tesis, Universidad
Autónoma de Madrid.
139
Tesis
Resolución de la ambigüedad léxica mediante aprendizaje por
cuantificación vectorial∗
Manuel Garcı́a Vega
Departamento de Informática
Universidad de Jaén
[email protected]
Resumen: Tesis doctoral en Informática Realizada por Manuel Garcı́a Vega y dirigida por el Doctor L. Alfonso Ureña López (Univ. de Jaén). El acto de defensa
de tesis tuvo lugar en Jaén en diciembre de 2006 ante el tribunal formado por los
doctores Miguel Toro Bonilla (Univ. de Sevilla), Manuel Palomar Sanz (Univ. de
Alicante), Lidia Moreno Boronat (Univ. Politécnica de Valencia), Andrés Montoyo
Guijarro (Univ. de Alicante) y Marı́a Teresa Martı́n Valdivia (Univ. de Jaén). La
calificación obtenida fue Sobresaliente Cum Laudem por unanimidad.
Palabras clave: Desambiguación, Redes neuronales, LVQ
Abstract: PhD thesis in Computer Science written by Manuel Garcı́a Vega under
the supervision of Dr. L. Alfonso Ureña López (Univ. of Jaén). The author was
examined in December 2006 in Jaén by the committee formed by Miguel Toro Bonilla
(Univ. of Sevilla), Manuel Palomar Sanz (Univ. of Alicante), Lidia Moreno Boronat
(Univ. Politécnica of Valencia), Andrés Montoyo Guijarro (Univ. of Alicante) y
Marı́a Teresa Martı́n Valdivia (Univ. of Jaén). The grade obtained was Sobresaliente
Cum Laudem.
Keywords: WSD, Neural Nets, LVQ
1.
Introducción
La desambiguación del sentido de las palabras (Word Sense Disambiguation) es el problema de asignar un sentido determinado a
una palabra polisémica, usando su contexto.
Este problema ha sido de interés, prácticamente desde el comienzo de la informática,
en los años 50. La desambiguación es una tarea intermedia y no un fin en sı́ misma. En
particular, es muy útil, a veces imprescindible, para muchos problemas del PLN, como
por ejemplo la recuperación de información,
la categorización de textos, la traducción automática...
Los objetivos de este trabajo son:
1. Implementar un desambiguador del sentido de las palabras basado en el Modelo de Espacio Vectorial optimizando los
pesos de los vectores del entrenamiento
usando la red neuronal LVQ (Learning
Vector Quantization) del modelo neuronal supervisado de Kohonen.
2. Proponer un método uniforme de integración de recursos que sirvan para el
∗
Este trabajo ha sido parcialmente financiado
por los proyectos FIT-150500-2002-416, FIT-1505002003-412 y TIC2003-07158-C04-04
ISSN: 1135-5948
entrenamiento de la red. Los parámetros
de la red LVQ han sido optimizados para
el problema de la desambiguación.
En este trabajo se ha demostrado que las
redes neuronales, concretamente los modelos
de Kohonen, resuelven brillantemente el problema de la resolución de la ambigüedad léxica, aportando robustez, porque la red LVQ
es insensible a pequeños cambios observándose unos resultados homogéneos independientemente del entrenamiento; flexibilidad, porque es fácilmente aplicable a cualquier tarea
de PLN; escalabilidad, porque pueden introducirse multitud de textos de entrenamiento para ajustarlo a cualquier dominio y efectividad, porque los resultados obtenidos son
comparables y en muchos casos superan a los
métodos tradicionales utilizados para resolver los mismos problemas.
Se ha calculado los parámetros óptimos de
configuración de la red LVQ para la tarea de
desambiguación, maximizando la precisión, el
recall y la cobertura.
Se han integrado el corpus SemCor y la
base de datos léxica WordNet. Además, se
ha aportado un método de integración automática de cualquier corpus.
© Sociedad Española para el Procesamiento del Lenguaje Natural
Manuel García Vega
En el capı́tulo 5 se evalúa el desambiguador que se ha construido. Primero, se simula
una participación en la competición Senseval2 en la tarea de English Lexical Sample y
posteriormente se detalla la participación en
Senseval-3, concretamente a las tareas de English Lexical Sample y de English All Words.
En el capı́tulo 6 se detallan las conclusiones, se explican las principales aportaciones
presentadas en esta memoria, ası́ como las
lı́neas futuras de investigación como continuación de este trabajo. Finalmente, se incluye una recopilación de trabajos publicados en
revistas y congresos nacionales e internacionales durante el desarrollo de esta memoria y
relacionadas con ella.
Los experimentos realizados muestran el
buen comportamiento de esta red para el problema concreto de la desambiguación.
2.
Estructura de la tesis
La estructura sigue un esquema clásico, introduciendo el problema, la motivación y las
contribuciones obtenidos.
En el capı́tulo 2 se describe detalladamente el problema de la desambiguación y
la terminologı́a que es comúnmente usada.
Ası́ mismo, se describen con detalle los recursos lingüı́sticos que se usan, concretamente corpus de textos y bases de datos léxicas.
A continuación, se explican las principales
medidas para la evaluación de los sistemas
desambiguadores. Se describe la organización
Senseval que actualmente es el principal medio de evaluación para cualquier sistema de
resolución de la ambigüedad léxica y se describen los principales métodos de desambiguación, ası́ como los mejores desambiguadores presentados en las tres ediciones de Senseval.
El capı́tulo 3 trata de manera general
las redes neuronales artificiales, clasificándolas según diferentes criterios, definiendo sus
partes principales y describiendo sus caracterı́sticas más importantes. A continuación,
se detallan los principales métodos de entrenamiento, haciendo hincapié en su carácter
supervisado o no supervisado. Se sigue con
la cuantificación vectorial, como base matemática del aprendizaje LVQ. El modelo de
Kohonen es presentado a continuación, enlazando la cuantificación vectorial y el aprendizaje competitivo para producir la red neuronal LVQ.
El capı́tulo 4 está dedicado a describir el
desambiguador. Comienza explicando el modelo del espacio vectorial, que da el soporte matemático a la red neuronal. Se detalla
la integración del modelo matemático con la
red LVQ y cómo se ha de realizar el entrenamiento. A continuación, se incluyen en el
entrenamiento las fuentes lingüı́sticas disponibles. En primer lugar, el corpus SemCor,
con el que se hace un experimento para comprobar su validez. Después, se detalla cómo
integrar WordNet en el entrenamiento y se
experimenta con los datos que aporta. Continúa con la integración de ambos recursos
a la vez. Para terminar, se estudian a fondo
los distintos parámetros de la red LVQ para
optimizar su comportamiento.
3.
Aportaciones de la
investigación
Las principales contribuciones de este trabajo de investigación son:
Se ha propuesto un desambiguador basado en el modelo neuronal de Kohonen,
usando la red LVQ.
Proponemos un desambiguador que puede afinarse tanto para precisión como para recall, ajustando adecuadamente un
cierto valor umbral para la probabilidad
de acierto del sentido desambiguado.
Se ha afinado el algoritmo LVQ para una
mayor efectividad en el problema de la
resolución de la ambigüedad léxica, fundamentando el cálculo en el comportamiento del desambiguador con experimentos ya contrastados.
El desambiguador propuesto es muy robusto, mostrando un comportamiento
homogéneo en los distintos experimentos
realizados donde los dominios semánticos de los textos objeto de estudio eran
muy diversos.
Se ha construido un desambiguador independiente de la lengua, siempre y
cuando se disponga de los recursos necesarios: lexicón y textos etiquetados en
la lengua objeto.
Se ha definido un método de integración
de recursos lingüı́sticos heterogéneos para su uso como entrenamiento de la red
LVQ, que permite la incorporación de información especı́fica en cualquier dominio semántico.
144
Integración de técnicas de clasificación de texto y modelado de
usuario para la personalización en servicios de noticias
Alberto Díaz Esteban
Grupo de Diseño y Optimización de Sistemas Informáticos
ITIS CES Felipe II - UCM
C/ Capitán, 39, Aranjuez, Madrid 28300
[email protected]
Resumen: Tesis doctoral en Informática realizada por Alberto Díaz Esteban bajo la dirección
de los doctores Pablo Gervás Gómez-Navarro (Univ. Complutense de Madrid) y Manuel de
Buenaga Rodríguez (Univ. Europea). El acto de defensa de la tesis tuvo lugar el 13 de Julio de
2005 ante el tribunal formado por los doctores Carmen Fernández Chamizo (Univ. Complutense
de Madrid), Manuel Palomar Sanz (Univ. de Alicante), Juan Pavón Mestras (Univ.
Complutense de Madrid), Julio Gonzalo Arroyo (UNED), David Bueno Vallejo (Univ. de
Málaga). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad.
Palabras clave: Personalización de contenidos Web, Modelo de usuario, Evaluación
Abstract: PhD Thesis in Computer Science written by Alberto Díaz Esteban under the
supervision of Dr. Pablo Gervás Gómez-Navarro (Univ. Complutense de Madrid) and Dr.
Manuel de Buenaga Rodríguez (Univ. Europea). The author was examined in July 13th 2005 by
the commitee formed by Dr. Carmen Fernández Chamizo (Univ. Complutense de Madrid), Dr.
Manuel Palomar Sanz (Univ. de Alicante), Dr. Juan Pavón Mestras (Univ. Complutense de
Madrid), Dr. Julio Gonzalo Arroyo (UNED), Dr. David Bueno Vallejo (Univ. de Málaga). The
grade obtained was Sobresaliente Cum Laude.
Keywords: Web contents personalization, User model, Evaluation
1
Introducción
Los contenidos Web aparecen de muy diversas
maneras en distintos dominios de aplicación
pero en la mayoría de ellos la forma de
presentación de la información es la misma para
todos los usuarios, es decir, esos contenidos son
estáticos en el sentido de que no se adaptan a
cada usuario. La personalización de contenidos
es una técnica que trata de eliminar la
sobrecarga de información mediante la
adaptación de los contenidos a cada tipo de
usuario.
En esta tesis se muestra un enfoque
integrado de personalización de contenidos
Web, aplicado a servicios de noticias, basado en
tres funcionalidades principales: selección de
contenidos, adaptación del modelo de usuario y
presentación de resultados. Todos estos
procesos están basados en la representación de
los intereses del usuario que estarán reflejadas
en un perfil o modelo de usuario. La selección
de contenidos se refiere a la elección entre
ISSN: 1135-5948
todos los documentos de entrada de aquellos
más interesantes para un usuario dado. La
adaptación del modelo de usuario es necesaria
ya que las necesidades de los usuarios cambian
a lo largo del tiempo, sobre todo como
resultado de su interacción con la información
que reciben. La presentación de resultados
consiste en, una vez seleccionados los
elementos de información que más le interesan
a un usuario, mostrar un documento resultado
que contenga, para cada elemento seleccionado,
un extracto que sea indicativo de su contenido.
En particular, se ha generado un resumen
personalizado
por
cada elemento de
información seleccionado para cada usuario.
El modelo de usuario utilizado integra
cuatro tipos de sistemas de referencia que
permiten representar los intereses de los
usuarios desde diferentes puntos de vista. Estos
intereses están divididos en dos tipos: intereses
a largo plazo e intereses a corto plazo. Los
primeros representan intereses del usuario que
permanecen constantes a lo largo del tiempo,
mientras que los segundos representan los
© Sociedad Española para el Procesamiento del Lenguaje Natural
Alberto Díaz Esteban
personalización de contenidos Web aplicado a
servicios de noticias.
intereses que se van modificando. A su vez, el
modelo a largo plazo utiliza tres métodos de
clasificación que permiten al usuario definir sus
necesidades de información desde 3 puntos de
vista diferentes: un sistema de clasificación
dependiente
del
dominio,
donde
los
documentos están preclasificados por el autor
del documento (p.ej.: secciones en un
periódico), un sistema de clasificación
independiente del dominio, obtenido a partir de
las categorías del primer nivel de Yahoo!
España y un conjunto de palabras clave.
Los resultados se muestran a los usuarios en
forma de resúmenes personalizados. Esto
permite un ahorro de tiempo a los usuarios a la
hora de detectar si un documento realmente le
interesa sin tener que leerse el texto completo.
Las técnicas utilizadas para permitir la
adaptación de los intereses de los usuarios se
basan en la extracción de los términos más
utilizados en los documentos que el usuario
indica como relevantes de entre los
seleccionados y presentados por el sistema.
La evaluación de los sistemas de
personalización es especialmente compleja
debido a que son necesarias las opiniones de
distintos usuarios para poder obtener
conclusiones
relevantes
sobre
su
funcionamiento. En este trabajo se propone un
marco de evaluación de sistemas de
personalización de contenidos que permite
establecer la efectividad del sistema (evaluación
cuantitativa) y la satisfacción de los usuarios
(evaluación cualitativa) cuando se utilizan
distintas propuestas de personalización.
Para evaluar los distintos procesos de
personalización se han generado varias
colecciones de evaluación donde se almacenan
los juicios de relevancia de varios usuarios
durante varios días de utilización del sistema.
Estas colecciones han permitido probar los
distintos enfoques propuestos para determinar
cuál de ellos era la mejor elección. Además
estas colecciones pueden ser utilizadas
posteriormente por otros investigadores para
comparar los resultados de sus técnicas de
personalización.
Las evaluaciones realizadas han mostrado
que la propuesta de personalización basada en
la combinación de modelos de usuario a largo y
corto plazo, con resúmenes personalizados
como forma de presentar los resultados finales,
permite disminuir la sobrecarga de información
de los usuarios, independientemente del
dominio y del idioma, en un sistema de
2
Estructura de la tesis
En el capítulo inicial se presentan los objetivos
perseguidos y la motivación para el desarrollo
de la tesis.
En el Capítulo 2 se revisan los conceptos
fundamentales
de
los
sistemas
de
personalización de contenidos, primero se
muestran las distintas formas de representar
contenidos, después distintas formas de
representar
modelos
de
usuario
y
posteriormente se divide el proceso de
personalización en las 3 funcionalidades
principales: selección de contenidos, adaptación
del modelo de usuario y presentación de
resultados, y para cada una de ellas se presentan
tanto las técnicas disponibles como los métodos
de evaluación utilizados para juzgar su
efectividad.
En el Capítulo 3 se describen las técnicas
propuestas para realizar la personalización de
contenidos Web. En primer lugar se presenta la
forma elegida para representar la información
manejada por el sistema. A continuación se
muestra la forma de modelar a los usuarios. Por
último se explican las técnicas utilizadas en
cada uno de los procesos de personalización:
selección, adaptación y presentación.
El Capítulo 4 detalla la metodología de
evaluación utilizada en cada uno de los
procesos de personalización, indicando las
métricas más adecuadas para cada tarea.
En el Capítulo 5 se describen las distintas
colecciones de evaluación utilizadas en los
distintos experimentos.
En el Capítulos 6 se describen las distintas
versiones desarrolladas de sistemas de
personalización de noticias. En cada una de
ellas se muestran las técnicas concretas
utilizadas, los experimentos realizados y los
resultados y conclusiones obtenidos.
En el Capítulo 7 se realiza una discusión de
los resultados obtenidos, comparando los
distintos sistemas de personalización entre sí y
con el estado del arte. También se discute la
extrapolación del sistema a un ámbito
multilingüe.
Por último en el Capítulo 8 se resumen las
conclusiones principales y se proponen algunas
líneas de trabajo futuro.
146

Documentos relacionados