Monográfico. Red Temática
Transcripción
Monográfico. Red Temática
Monográfico. Red Temática T I MM Tratamiento de la Información Multilingüe y Multimodal MINISTERIO DE EDUCACIÓN Y CIENCIA Procesamiento del Lenguaje Natural, Revista nº 38, Abril de 2007 ISSN: 1135-5948 Editores: Mª Teresa Martín Valdivia L. Alfonso Ureña López Fernando Martínez Santiago Revisores: De Pablo, César Díaz Galiano, Manuel Carlos Ferrández, Antonio García Cumbreras, Miguel Ángel García Vega, Manuel González, José Carlos Gonzalo, Julio Herrera de la Cruz, Jesús Martín Valdivia, Mª Teresa Martínez Santiago, Fernando Montejo Ráez, Arturo Peñas, Anselmo Rodrigo Yuste, Álvaro Rodríguez Hontoria, Horacio Rosso, Paolo Sanchís Arnal, Emilio Ureña López, L. Alfonso Vicedo, José Luís Colaboradores: Arturo Montejo Ráez Manuel García Vega Manuel Carlos Díaz Galiano Miguel Ángel García Cumbreras ISSN: 1135-5948 Depósito Legal: B:3941-91 Distribuye: Sociedad Española para el Procesamiento del Lenguaje Natural Editado por la Universidad de Jaén Prólogo Este ejemplar de la revista de la Sociedad Española para el Procesamiento de Lenguaje Natural, en su nº 38, constituye una edición monográfica especial. El propósito de este monográfico es dar una perspectiva de la investigación en torno al acceso multilingüe y multimodal. Este monográfico surge a raíz de la Red Temática Nacional de Tratamiento de la Información Multilingüe y Multimodal –TIMM– (http://sinai.ujaen.es/timm) con referencia TIN2005-25825-E. La Red pretende difundir, promover y fomentar la investigación en estas tecnologías. La producción de información se duplica cada vez más con mayor celeridad. Como ejemplo, la información en el mundo se duplicó por primera vez en 1750, actualmente la información se está duplicando en unos 5 años. Esta ingente cantidad de información que se genera actualmente, se encuentra disponible electrónicamente, con carácter multimedia (especialmente en Internet). En este escenario en que el estamos inmersos se pone de manifiesto más que nunca el escenario multimodal de la Web. Así se han popularizado sitios Web colaborativos para difusión de vídeos, fotos, música y texto. Todo ello también con el creciente carácter multilingüe que caracteriza a la Web. Dicha información tiene un carácter multimodal y/o multilingüe, ya que no sólo se genera texto (como documentos o páginas webs) sino que además, existen otra gran cantidad de formatos como las imágenes, los videos o las comunicaciones orales. Ante esta situación surge la necesidad creciente de técnicas y herramientas para el acceso y búsqueda de de información con estas connotaciones. Un hecho que denota la importancia del tratamiento de este tipo de información es el surgimiento de distintos foros (CLEF, TRECvid...) donde intentan mejorar los sistemas que recuperan información, utilizando técnicas tanto de análisis de contenido (CBIR Content Based Information Retrieval) como multilingües. Esperamos que sea de interés y que constituya una fuente referente de información para la comunidad. Quisiéramos agradecer a la Sociedad Española para el Procesamiento de Lenguaje Natural su ofrecimiento, disponibilidad y facilidad para publicar este monográfico en su revista intermedia. También queremos agradecer a los autores su participación. Finalmente, deseamos expresar nuestra gratitud a los revisores de este monográfico, así como a todos los que han colaborado en este proyecto. Los editores Procesamiento del Lenguaje Natural, Revista nº 38, Abril de 2007 ISSN: 1135-5948 Artículos: MCR for CLIR Eneko Aguirre, Iñaki Alegria, German Rigau, Piek Vossen………………………………………… 3 Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras………..17 Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI Sergio Ferrández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno……………………..27 Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda………………………. 35 QALL-ME: Question Answering Learning Technologies in a multiLingual and multimodal Envinroment Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Viñedo, Patricio Martínez, Armando Suarez………………………………………………………………………………33 Web-based Selection of Optimal Translations of Short Queries Paolo Rosso, Davide Buscaldi, Matteo Iskra………………………………………………………… 49 Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar……………………………….. 53 Alineamiento de Entidades con Nombre usando distancia léxica Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal………………………………………………. 61 Anotación semiautomática con papeles temáticos de los corpus CESS-ECE M. Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran…………… 67 Multilingualidad en una aplicación basada en el conocimiento Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla………… 77 Ontologías mixtas para la representación conceptual de objetos de aprendizaje Haliuska Hernández Ramírez, Maximiliano Saiz Noeda…………………………………………… 99 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico Francisco Carrera García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López……………………………………………………………………………. 107 Mejora de los sistemas multimodales mediante el uso de ganancia de información Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Raez, L. Alfonso Ureña López…………………………………………………………………………………………….. 119 La notación del habla en corpus de vídeo Manuel Alcántara Pla…………………………………………………………………………………..131 Tesis: Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación Vectorial Manuel García Vega…………………………………………………………………………………… 143 Integración de técnicas de clasificación de texto y modelado de usuario para la personalización en servicios de noticias Alberto Díaz Esteban…………………………………………………………………………………...145 Artículos MCR for CLIR Piek Vossen Irion Technologies Delftechpark 26 2628XH Delft, Netherlands, [email protected] Eneko Agirre, Iñaki Alegria, German Rigau IXA group Manuel de Lardizábal, 1 20018, Donostia. Basque Country {e.agirre,i.alegria,rigau}@si.ehu.es Abstract: The Multilingual Central Repository (MCR) is based on the design of the EuroWordNet database. The MCR holds WordNets in various languages (English, Spanish, Italian, Catalan and Basque), which are interconnected via an Inter-LingualIndex (ILI). In addition, the MCR holds a number of ontologies and domain labels related to all concepts. This paper describes the integration and evaluation of the MCR in a cross-lingual information retrieval system, developed by Irion Technologies, as well as a public exercise for evaluating combined MCR, WSD and CLIR strategies. Keywords: CLIR, Word Sense Disambiguation, WordNets 1 Introduction The usefulness of WordNets for Information Retrieval and for Document Classification is not commonly accepted. Important evidence for this belief is a study of Voorhees (1994) that showed a decrease in scores for a WordNet-based approach in TREC-5. She claimed that linguistic techniques are only useful if they perform close to perfect. She also states that statistic techniques approximate NLP techniques by exploiting statistical correlations. A similar statement is made by Sanderson (1994) who suggests that WordNet-based approaches are only useful for retrieval if 90% or higher accuracy is achieved to detect the appropriate sense. This study was done by introducing artificial ambiguity in documents by substituting randomly chosen word pairs, e.g. banana and kalashnikov, with artificially ambiguous terms, e.g. banana/kalashnikov. We however still believe that there is an enormous potential for WordNet-based approaches (also see Gonzalo et al 1998). In this paper we give evidence that WordNets can be exploited for generic information retrieval. The reason why this has not been evident is that the incorporation of WordNets is not trivial. WordNets need to be used and integrated in a proper way to benefit from their richness. We have tried to achieve this by pursuing the following goals: ISSN: 1135-5948 • to enrich WordNets with more knowledge that is automatically acquired from corpora and the WWW; • to improve Word Sense Disambiguation (WSD) using novel techniques in combination with the acquired knowledge; • to develop a rich conceptual representation of text that is based on combinations of synsets associated with linguistic phrases; The acquired lexical knowledge from various sources and various languages is stored in the Multilingual Central Repository (MCR) (Atserias et al 04), which is based on the design of the EuroWordNet database (Vossen, 1998). The MCR holds wordnets in various languages (English, Spanish, Italian, Catalan and Basque), which are interconnected via an Inter-LingualIndex (ILI). In addition, the MCR holds a number of ontologies and domain labels related to all concepts. This paper describes the integration and evaluation of the MCR data in a cross-lingual information retrieval system, developed by Irion Technologies. In these applications, text is represented in the form of combinations of concepts that co-occur in linguistic phrases and where concepts are based on the synsets in the WordNet taken from the MCR. In a sense, the complete phrase represents a complex concept as whole, built up of interrelated sub-concepts consisting of synsets. Similarly, a query is considered as a phrase, representing one or more © Sociedad Española para el Procesamiento del Lenguaje Natural Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen concepts. A query consisting of multiple concepts is then compared to phrases with multiple concepts. We carried out a series of task-based evaluations on English and Spanish news collections. The evaluation shows that both recall and precision are significantly higher when using the enriched semantic networks in combination with WSD. The paper is structured as follows. In the next section, we briefly explain the conceptual indexing technology developed at Irion Technologies. Section 2 describes how the information in MCR have been integrated in the Irion system. The following sections describe the evaluation. Section describes a cross-lingual retrieval evaluation on the same Reuters data and Section 3 another CLIR experiment on a database of news pictures with Spanish and English captions from the Spanish publisher EFE. Whereas the Reuters retrieval system used a classical vector-space document ranking, the EFE version uses a novel way of ranking based on the conceptual phrase representation. The EFE database is also used in an end-user evaluation task. This is described in Section 5. In Section 6 we show the use of MCR in public CLIR evaluations. 2 given where each concept correlates with a word, a combination of words or a part of a word, for example: • The phrase human rights will represent a single concept that is lexicalized as a whole. Likewise it is translated to Dutch and German as a single word, as mensenrechten and Menschenrechten respectively. Note that this concept can still have relations to other concepts such as the hypernym right (in a very specific meaning) and human. • The phrase animal party will represent 2 concepts, the separate concepts animal and party that co-occur, and so does party animal albeit a different combination. • The single word profile-based will also represent two concepts profile and based as a co-occurring combination. A conceptual representation of a phrase thus consists of a co-occurring sequence of synsets that express a particular relation to each other. For building up a conceptual representation of a phrase, the TwentyOne system heavily relies on a multilingual semantic network, similar to EuroWordNet and MCR. It uses multiword lookup, compound decomposition and WSD to map words within a phrase to concepts. Queries (user-queries or textual documents) are analysed in the same way. The TwentyOne system then uses a range of factors to compare phrases in documents with query phrases: Conceptual indexing Irion Technologies (Delft, The Netherlands) developed a conceptual indexing technology, called TwentyOne, that combines statistical and language-technology approaches. TwentyOne is a two step system, where first, the relevant documents are collected using state-of-the-art statistical engines, and secondly, the best matching phrases from the relevant documents are collected. The statistical core-engine of TwentyOne produces a relevance ranking of text, using a standard vector-space weighting. It ensures fast and robust retrieval. The languagetechnology then has two major roles: 1. number of matching concepts between the query and each phrase, 2. degree of fuzziness mismatch between the query word and the phrase, 3. degree of derivational mismatch, compounding, etc., 4. whether or not a synonym is used, 5. whether or not the same language is used. The effect is first that documents with phrases (NPs) that include most concepts are shown first and, second, that documents with the same number of concepts but with the most similar wording with the query are shown first. The contextual effect of the phrase match is very powerful, as we will see later. Because words are mapped to concepts from a language-specific wordnet that is linked through the ILI to all the other wordnets, it is possible to calculate a conceptual score for 1. Maximize the recall of the statistical engine so that any document is found regardless of the wording and regardless of the query word choice; 2. Maximize the precision by conceptually matching queries with phrases in the documents rather than complete documents; The conceptual index represents concepts at a phrase level, which are very loosely defined as NPs. Within a phrase, a range of concepts is 4 MCR for CLIR queries in other languages than the index language. Hence, any index can be queried in any of the languages that connected to the ILI. Although other possibilities could be explored (the use of other ontologies such as SUMO or the EuroWordNet Top Concept and a large amount of explicit semantic relations also integrated into the MCR), WSD was done using only WordNet domains (version 1.1.1, Magnini et al 2002) from the MCR. The WSD system has been implemented as a a text classifier that is trained with the Spanish and English words associated with domain labels, e.g. all synonyms related to the domain “legal”, and assigns a domain tag to the text. The WSD system first assigns domain labels to the article as a whole, based on the complete content: so-called microworld tags. Next, it also classifies the separate NPs within each article using a window of 10 NPs (4 to the left and 5 to right). This results in one or more so-called nanoworld tags for each NP. All domains scoring above 60% confidence are assigned to have sufficient recall. The disambiguation then consists of the following process for each word in the NP: 2.1 MCR The Multilingual Central Repository (MCR) knowledge base that we developed in the European 5th FP project MEANING (IST-200134460) (Atserias et al. 2004) 1 , includes wordnets for English, Spanish, Basque and Catalan. The wordnets are currently linked via an Inter-Lingual-Index (ILI) allowing the connection from words in one language to translation equivalent words in any of the other languages. In that way, the MCR is going to constitute the natural multilingual large-scale linguistic resource for a number of semantic processes that need large amount of linguistic knowledge to be effective tools. Currently, the MCR consistently integrates more than 1.6 million of semantics relations between concepts. This means one order over the Princeton’s WordNet (138 thousands in WordNet 1.6). Moreover, the MCR has been enriched with about 460.000 semantic and ontological properties. • Are there word meanings with domain labels that match any of the nanoworld tags? If yes, these meanings are selected. • If no, are there word meanings with domain labels that match the microworld tags? If yes these meanings are selected. • If no all meanings are selected. 2.2 Integrating MCR and the Irion system The information in the MCR has been integrated in the Irion system in two ways: The concept reduction as a result of the disambiguation is very effective. For the data obtained from EFE (see Section 6 below), the microworld-based reduction is about 48% for Spanish and 57% for English. In the case of the nanoworlds, the reduction is even higher: 52% for Spanish and 65% for English. Most of these reductions (about 44%) however relate to the factotum words (Magnini et al 2002). Factotum words are words such “be”, “begin”, “person” that are not specific to a domain and often have a very strongly preferred generic meaning. This generic meaning is labelled in WordNet domains and can be used to restrict the meanings when there is no other specific domain that applies to these words.For each of the experiments described below, we built 3 types of indexes: 1. we replaced the proprietary multilingual semantic network of Irion by the MCR database, 2. we developed a WSD system based on WordNet domains (Magnini et al 2002) which are integrated into the MCR. The data from the MCR could be easily imported in the TwentyOne system because both the proprietary database of Irion and the MCR are based on the model of EuroWordNet. Within the Irion database, we simply replaced the concepts by the WordNet1.6 concepts and imported the mapping of the vocabulary for each language to these concepts from the MCR. Whereas the proprietary database has wordnets for English, Dutch, German, Spanish, Italian and French, the MCR has wordnets for English, Spanish, Italian, Basque and Catalan. 1 • NP Indexes with NPs but without using wordnets: i.e. traditional string-based indexes. http://www.lsi.upc.es/~nlp/meaning 5 Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen • FULL Indexes using wordnets, but without WSD: i.e. full expansion to all possible synonyms and/or translations. • WSD Indexes using wordnets and using word sense disambiguation: i.e. expansion limited to synonyms and/or translations within the context of the relevant domains, if any. top-ranked documents. Note that this measurement does not tell you anything about the quality of the other results. It can thus only be seen as a crude way to measure the recall of the system. We thus automatically extracted NP-based queries from the indexes. Next, we manually selected 96 queries with a head and a modifier, where the head noun exhibits a clear case of homonymy or synonymy. For example, the noun cell that has clearly different meanings when combined with police cell, cell phone, battery cell, etc. From the complete NPs, two word queries were extracted 3 . Next the original queries were modified by replacing the modifier by another context word that is semantically related, sometimes with a similar disambiguating effect and sometimes more neutral. An example of this sort of modified query would be detention cell instead of police cell. This resulted in about 96 paraphrased queries in English. Next the original queries were translated into the other languages recognized by the system: Dutch, German, French, Spanish and Italian. We then run separate tests on the 3 types of indexes: NP, FULL and WSD, with the original words as query, the paraphrased English words or the translations of the originals. The results are shown in Table 1, where the rows represent the different indexes and the columns the results for each set of queries: original words from the NPs, paraphrased English words and translations. We then run separate tests on the 3 types of indexes: NP, FULL and WSD, with the original words as query, the paraphrased English words or the translations of the originals. The results are shown in Table 1, where the rows represent the different indexes and the columns the results for each set of queries: original words from the NPs, paraphrased English words and translations. In table 1, each query result column has 3 sub-columns: Q = number of queries R = recall, the number of times that the document from which the query was extracted occurs in the top 10 results % = proportional recall When we look at the original words used as a query, we see the best result on the NP index. An example of an extracted NP is the following: <NP ID="22">toxic to nerve cells </NP> In the case of the NP index, the words are indexed as they occur (after normalization). In the case of the, the FULL index, the words “”toxic”, “nerve” and “cell” are expanded to all the synonyms for all their possible meanings. These synonyms will thus also get a pointer to this document and this NP. In the case of the WSD index, we only added synonyms for word meanings that fit the domains assigned to the document and the NP. We thus expect that the first type of index (NP) gives high-precision but lower recall because we do not generate a mapping through synonyms. You cannot find any documents with wordings different from the query 2. The second type of index (FULL) will have a very high recall, because any possible mapping and wording is generated. The precision may drop because we also generate a lot of noise through irrelevant expansions. The third index (WSD) index will have recall and precision rates in between the others. 3 Cross-lingual retrieval on the Reuters data The first experiments on the Reuters collection were conducted on the English news using the Irion system with their proprietary knowledge base (SemNet). The experiment was restricted to the 23,307 files from a single month August 1996. The Reuters collection comes with classification codes that are embedded in the XML structure. The TwentyOne retrieval system has a benchmark environment that can extract NPs from the indexed documents and create queries, where we measure if the same document from which the NP is extracted is returned within the In these experiments, we concentrate on multiword queries only. Trying to obtain the original documents from one-word queries proven to be a very difficult task. 3 This is especially the case for smaller two-word queries, which is more normal for search engines. 2 6 MCR for CLIR for the NP index. This shows that the type of query is important to demonstrate the need for a wordnet-type of expansion. We see here that the WSD index gives best results. The FULL index can only generate more noise by the expansion compared to the original words. This has pushed good results out of the top 10. We see that the WSD index has a positive effect because the recall recovers with 7%. When we look at the paraphrased English queries, we see that the recall dramatically drops Table 1: Cross-lingual retrieval results on the Reuters collection English original “police cell” Q % Q 96 76 79 FULL 96 61 WSD NP R French Dutch German English Italian paraphrase “politie- “Polizei- “cellule de “cella zelle” police” della “detention cel polizia cell” 96 68 R % Q R % Q R % Q R % Q R % Q R % 96 24 25 96 8 8 96 8 8 95 10 11 94 4 4 96 4 4 64 96 28 29 96 35 36 96 38 40 95 42 44 94 20 21 96 18 19 71 96 30 31 96 34 35 96 30 31 95 36 38 94 17 18 96 15 16 news agency EFE. We received a collection of 29,511 XML records with captions and corresponding pictures (from EPA and AP). These captions have 50 words of text on average. The captions are manually enriched for monolingual and multilingual access. This collection can be used to find pictures using text queries on the captions. Most of the captions were Spanish (26,546), about 10% were in English (2,965). Again, we built the 3 types of indexes NP, FULL and WSD. In this case, however, we used the MCR data, which enables us to use the latest results as well as use other languages (Basque and Catalan) for querying. In the case of the NP index, we built indexes for 5 languages: English, Spanish, Catalan, Basque and Italian. Instead of translating the original English and Spanish words they were simply copied to the other indexes for English, Spanish, Catalan, Basque and Italian. For example, the Basque index did not contain Basque translations but the literal Spanish and English originals. No synonym expansion was applied for English and Spanish and no translation for the other languages. The cross-lingual results can be compared with the paraphrased results. Obviously, the NP indexes perform poorest because the words are not translated at all (i.e. there is no expansion). The FULL index now has better results than WSD. Apparently, the noise generated cross-linguistically by giving all possible translations has a less negative effect compared to missing certain translations due to WSD. In the above experiment, we used the proprietary wordnet database from Irion and we did not yet implement the conceptual scoring function that re-ranks the relevant documents on the basis of the overlap of concepts between the NPs and the queries, combined with the closeness of expression. The ranking was here based on the traditional statistical relevance ranking. In the next section, we describe a further experiment with the conceptual re-ranking. 4 4.1 Spanish “celda de la policía” Cross-lingual retrieval on the EFE data The goal of the experiment For this experiment, we indexed part of a multilingual database of pictures, called Fototeca, that was provided by the Spanish 7 Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen Table 2: Retrieval results for multi word queries NP Spanish original Spanish paraphrase Q R % Q R % Q R % Q R % Q R % Q R % 105 99 94 94 14 15 105 2 2 105 31 3 104 1 1 105 3 3 English Catalan Basque Italian p1 60 57 9 1 0 0 21 2 1 1 2 2 p2 30 29 5 5 1 1 8 8 0 0 1 1 p3 9 9 0 0 1 1 2 2 0 0 0 0 FULL 96 91 71 76 39 37 70 67 50 48 39 37 p1 55 52 38 40 16 15 44 42 27 26 19 18 p2 33 31 27 29 17 16 22 21 19 18 15 14 p3 8 8 6 6 6 6 4 4 4 4 5 5 WSD 105 105 94 94 105 105 105 105 104 104 105 97 92 61 65 39 37 68 65 46 44 32 30 p1 60 57 39 41 21 20 48 46 27 26 105 20 19 p2 31 3 18 19 13 12 16 15 15 14 6 6 p3 6 6 4 4 5 5 4 4 4 4 6 6 This resulted in about 105 queries based on the original expressions extracted from the captions. From these we created paraphrase queries by replacing each context word with a synonym. Finally, the original queries were translated by native-speakers into English, Catalan, Basque and Italian. For indexes FULL and WSD, the Spanish and English indexes were expanded to synonyms and translated to English (in case of Spanish), Spanish (in case of English), and to Basque, Italian and Catalan (from both English and Spanish) with wordnets from the MCR. In the case of index FULL, all the meanings of the words in the articles have been taken and have been expanded to all synonyms and/or translations. In the case of WSD, we first excluded unlikely meanings using the WSD system and expanded all the remaining queries. For all three indexes queries can be made in any of the 5 languages: Spanish, English, Basque, Italian and Catalan, while the system returns both English and Spanish articles as possible results. The queries were extracted as described previously for Reuters (Section 4). In this case, we automatically extracted Spanish NPs (e.g. “Una colisión en cadena”) and manually selected 2-3 word queries (e.g. query “colisión en cadena”) showing ambiguity or synonymy. We verified that other meanings and/or synonyms also occurred in the index, for example for estrella (star) we checked to make sure that it was used in both an astronomical object reading as well as a leading actor reading. Similarly, with figura we found that it was used in various different readings including body, form, figure, character and statue. Finally, we also looked at the relevance of the words to the corresponding pictures. 4.2 The results The results of launching the queries on the 3 indexes are listed in Table 2. The results per index are given in the rows (NP, FULL and WSD) and the columns represent the different query sets: original Spanish words, paraphrased Spanish queries and the translated queries. The sub-columns are the same as above for Reuters. The rows are slightly different. Each index has a row for the total results and three more rows for the 1st, 2nd and 3rd position (p1, p2 and p3) in the result list. We marked the best scores for the totals and for the 1st position (p1). We did not list the other positions from the top 10 because all the results listed the correct match in the top 3 or outside the top 10. The ranking algorithm was changed with respect to the Reuters experiments. The relevant documents were re-ranked on the basis of the overlap of concepts between the query and the NPs in the documents, as explained in Section 2. The first thing to be noticed is the high recall. The best results are for the original Spanish words on the NP index: 94%. This is inherent 8 MCR for CLIR to the conceptual phrase search. The search engine will select NPs that include all the query concepts and give preference to NPs that closely match the query. When we do not use wordnets, as in NP, the most equal phrases are likely to show up first, especially since the queries have been derived from the NPs and there are not that many NPs with all the query words. We also see that we hardly lose anything when we use wordnets. The fully expanded index (FULL) scores 91% and the disambiguated index (WSD) scores 92%. This is a major difference with respect to the results reported for the Reuters experiments. In Reuters, the retrieval was based on the page score and not on the conceptual phrase score. The conceptual phrase matching thus adds precision. So even if the wordnets add more possible hits and more noise, the fact that the closest wordings are preferred selects the most appropriate results. This is also clear when we look at the p1 positions. Here NP and WSD score equally well. When we look at the queries where a synonymous word was used (the 2nd column group, Spanish paraphrase), we see that the index without wordnets (NP) drops to 15% but the FULL index only drops to 76% and the WSD index drops to 65%. This clearly shows the usefulness of wordnets for information retrieval. We also see that WSD apparently removed certain synonyms that are useful, hence the difference of 10% between FULL and WSD. This indicates that the WSD settings might have been too strict (50% of the concepts have been excluded). On the other hand, if we look at the p1 scores, we see that WSD scores better than FULL. This means FULL generates more noise that is interfering with the correct results for the 1st position but the correct results apparently still end up in the top 10. This also implies that the total results for FULL can be worse than WSD if the index is bigger. In a bigger index there is more competition and the noisy results will push correct results out of the top 10. The pattern that we see for the synonyms also shows up for the cross-lingual retrieval. FULL mostly has best results and WSD is very close but scores better for p1. NP has dramatically bad results. 4 The 1st position results can be seen as a measurement of precision. The disambiguated index thus has a better precision than the fully expanded index. These results are confirmed in the end-user evaluation that is described in the next section. Catalan scores almost as well as the Spanish synonyms. This shows that the languages are closely related. The fact that both the WordNets are developed by the same group may also be a factor. 5 End-user evaluation 5.1 The goal of the experiment The end-user evaluation was performed in a real scenario provided by Spanish news agency EFE, using the Fototeca database, the database used by EFE to provide pictures that correspond to news articles. We designed a complete end-user evaluation framework for this database following (Walker, et al. 1997). The design was validated in a pilot test with a single user. In this pilot test, the user was asked to perform a set of tasks with different systems in a limited time. Finally, the user was asked to fill a questionnaire. With this pilot test, we planned to check the appropriateness and correctness of the whole evaluation framework including the task design, the questionnaire, the three Irion systems, the log files, the number of end-users that would be needed, etc. As a result of the pilot test, we slightly revised the set-up. For the end-user evaluation, we used the same three indexes of the EFE Fototeca collection that are described in Section 6: • • EFE_NP: no use of wordnets. EFE_FULL: wordnets with full expansion, no disambiguation • EFE_WSD: wordnets with expansion after disambiguation. 5.2 The end-user tasks The end-user final evaluation was performed by three different users: a, b, c. Each end-user tested the three different systems: EFE_WSD, EFE_FULL, EFE_NP, which we have renamed here A, B and C respectively. Each end-user had to perform twenty-one different tasks organized in three test sets (1, 2, 3) having seven tasks each. Thus, each end-user performed a total number of twenty-one different tasks using three different systems. There is no repetition of a given combination 4 9 Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen used to express the concept funeral. Furthermore, entierro is more common (35 occurrences in the database) than sepelio (14 occurrences). That is to say, the most common words, as opposed to the less common words, were used in presenting the GOAL and CONTEXT of each task. Furthermore, some of the tasks (three in total, to maintain a proportional volume with respect the corpus sizes) were designed to locate English captions instead of Spanish captions. Proper noun phrase were mostly excluded. of user, system or test set. The final evaluation schema was as following: Test sets 1 2 3 End-users a b A B B C C A c C A B This schema tries to neutralize undesired side effects related to the relative performance of the users (some users are better than others when locating pictures) and the inherent difficulty of the tasks (some tasks are more difficult than other). Furthermore, from the log files we only took into consideration the total number of actions performed by the three systems. The total time allowed for performing each test set was twenty minutes. After finishing each test set, the end-user took an additional ten minutes to fill out a questionnaire. Each test set was designed to be selfexplanatory. The end-user was to search for a set of picture to accompany a set of articles they were writing using a system located at a particular web page which provided access to the EFE Fototeca database. For each task, the end-user was told that they were preparing a news article on a given TOPIC with a given CONTEXT and was then asked to locate a picture showing some GOAL to serve as a visual. This is exemplified by News Article 10: News Article 10 QUERY = entierro medellín TEXT = sepelio medellín RESULT = FH_1205173 20040524 and FH_1205172 20040524 CAPTION= Terrorismo TRI:JUSTICIA-INTERIORSUCESOS,TERRORISMO CATEGORÍAS SUPLEMENTARIAS : JUSTICIAINTERIOR-SUCESOS PALABRAS CLAVE : JUSTICE EXPLOSION DE UNA MALETA BOMBA EN UNA DISCOTECA DE LA ZONA BANANERA DE URABÁ EN LA QUE FALLECIERON AL MENOS CINCO PERSONAS Y 93 RESULTARON HERIDAS , PRESUNTAMENTE COLOCADA POR LAS FARC , COLOMBIA 2004 FUNERAL VICTIMAS SM COLOMBIA SEPELIO VÍCTIMA BOMBA APARTADÓ : BOG302 MEDELLIN( COLOMBIA) 24/ 05/ 04 .- En el cementerio de San Pedro de Medellín se realizó el sepelio de la niña de 4 años de edad , María Fernanda Ramírez , una de las 7 víctimas de la bomba detonada en un centro nocturno de Apartadó . EFE/EDWIN BUSTAMANTE PICTURE= News Article 10 TOPIC = TERRORISMO CONTEXT = Sigue la violencia en Colombia y especialmente en Medellín. GOAL = Un entierro en Medellín. In the task of News Article 10, the end-user is required to locate a picture showing a funeral in Medellín (GOAL), given the continuing violence in Colombia and especially in Medellín (CONTEXT) related to TERRORISM (TOPIC). We designed the 21 tasks trying to be difficult for a regular textual Information Retrieval System (like EFE_NP). Obviously, this decision will bias the results, but will also provide clear insights of the potential of concept-based CLIR engines on difficult queries. For example, there are no captions in the database matching both entierro (funeral) and Medellín. In fact, there are only two pictures with sepelio and Medellín, sepelio also RESULT = FH_1205173 20040524 RESULT = FH_1205172 20040524 10 MCR for CLIR When the user is not sure, he clicks on a button labelled “Not sure about this picture”. We also informed the end-user that if he did not find an appropriate photo the first time, he could try modifying the query, adding, removing or changing words from the original query. He could also select more than one picture for each news article. However, the total time for locating the appropriate pictures for each test set (seven tasks) was only twenty minutes. It is still possible to obtain the above results in English or Spanish because of the conceptbased Information Retrieval system (like EFE_FULL and EFE_WSD) because in the Multilingual Central Repository we already have the concept: <entierro, sepelio, enterramiento> which has an equivalent translation through the ILI to the English concept <burial>. After being instructed, the end-user queries the Fototeca database for an appropriate photograph using the system we were testing. When the system returns an ordered list of snippets (showing only a part of the text) the user reviews the results in order to select the most appropriate caption. Once a caption is selected, the system shows the corresponding picture. If the image is appropriate, the enduser clicks on a button labelled “This is the right picture”. If, on the other hand, the picture is not appropriate, the end-user clicks on a button labelled “This is the wrong picture”. 5.3 The end-users Three end-users were requested to perform the final end-user evaluation. We monitored all the activities of all the users by means of log files. All the tests were performed at the central office building of EFE in Madrid. They carried out all the activities in their usual workplace (office, computer, monitor, table, etc.). Table 3: Summary result figures for the final end-user evaluation Three end-users SEARCH HIGHLIGHT DISAP. CONFIRMED UNDEC. TOTAL 5.4 NP 110 105 57 20 3 295 FULL 64 55 28 19 6 172 WSD 56 60 27 24 1 168 to carry out the 21 tasks, the end-users made almost twice as many queries while using a text-based IR system (NP with 110) in comparison to a concept-based IR systems (FULL with 64 and WSD with 56).In other words, the users effort during search was reduced by almost half when they used a concept-based IR system. In addition, the total number of searches was significantly better (12.5%) for the system using word sense disambiguation (WSD with 56) as opposed to the one without (FULL with 64). The results Table 3 summarizes the data we obtained from the log files. We count the total number of interactions performed with each system by the three end-users (TOTAL), the total number of searches (SEARCH), the total number of captions highlighted to see the corresponding picture when reading the caption text (HIGHLIGHT), the total number of pictures discarded after selected (DISAP.), the total number of confirmed pictures after selected (CONFIRMED) and the total number of pictures where the end-user was undecided (UNDEC.). It should be noted that the end-users had the same total time to perform the 21 tasks. With respect to the total number of searches (SEARCH), we can see that in order Regarding the total number of highlighted captions (HIGHLIGHT), we can also see that the end-users selected almost twice as many captions when using a text-based IR system 11 Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen positives, half the rate of rejection, fewer undecided pictures and half the total number of interactions. Although the results are preliminary, there is strong evidence with the end-user evaluation together with the previous Reuters and EFE CLIR experiments for suggesting that we performed better IR and CLIR with the help of the Multilingual Central Repository and appropriate WSD technology. Regarding the questionnaire, it is not surprising that the end-users, who tested different questions (of variable difficulty) using different systems (with different performances), provided conflicting responses in regard to their perception of the systems’ behaviors. We will not present the details of their responses here except to mention that they preferred system A (EFE_WSD) for future use. (NP with 105) than when using a conceptbased IR system (FULL with 55 and WSD with 60). This is because the user obtained essentially half of the false positives with a concept-based system. While it appears that in this case the FULL system outperformed the WSD system, we will see later that this is a misleading conclusion. With respect to the total number of pictures rejected (DISAP.), we can see that the end-users discarded twice as many pictures when using a text-based IR system (NP with 57) than using a concept-based IR system (FULL with 28 and WSD with 27). That is to say, the users looked at half as many irrelevant pictures in order to locate the 21 desired pictures using a concept-based IR system. The total number rejected using the system performing disambiguation (WSD with 27) was essentially the same as that for the system without disambiguation (FULL with 28). In terms of the total number of pictures confirmed (CONFIRMED), the three systems had similar behaviours (NP with 20, FULL with 19 and WSD with 24). This means that even with a poor text-based system (NP), the end-users having enough time were able to locate almost a complete list of pictures appropriate to the tasks (20 out of 21). However, with much less time (as it is derived from the log files) and half of the search effort (SEARCH) and total number of interactions (TOTAL) the end-users were able to locate an even more extensive list of appropriate pictures using the concept-based system with disambiguation. Furthermore, the total number of pictures about whose relevance the user was unclear (UNDEC) was reduced with the WSD system (only one) in comparison with the other two systems (FULL with 6 and NP with 3). This is due in part to an interesting hidden behaviour, namely, that the WSD system also provided a better ranking of the captions. In other words, relevant captions were ranked higher giving the user greater confidence in the initial choice of captions and pictures (more confirmed, less undecided). In summary, it seems that for difficult tasks (with synonyms or cross-lingual retrieval), using a concept-based IR system with WSD results in half of the searching effort, more confirmations, half the false 6 Using the MCR in public CLIR evaluations The success of the previous experiments was a motivation to design further experiments on the interdependence of WSD, large-scale resources such as the MCR, and CLIR. In fact, we thought that no single research team could encompass the large amount of possible configurations for such a CLIR system, so we decided that a public evaluation exercise might be interesting. We envisioned a evaluation exercise in two phases: 1. We evaluate WSD strategies using a common sense inventory and expansion lexicon (the MCR), as well as a specific IR architecture (the IRION twentyone system) 2. We evaluate different expansion and IR strategies given preexistent WSD results The motivation for this separation is threefold. First, to be able to allow for both WSD and CLIR communities to collaborate, so they don't need to develop a WSD/CLIR system of their own in order to participate. Second, to share the resources and allow for different teams using the results of other teams. Lastly, the WSD and community has long mentioned the necessity of evaluating WSD in an application, in order to check which WSD strategy is best, and more important, to try to show that WSD can make a difference in applications. Unfortunately, it 12 MCR for CLIR is often not possible to decouple the strategy behind a specific WSD system and the techniques used in the target application, CLIR in this case (Resnik, 2006). For instance, we might want to return the best sense only, or we might prefer to discard the weakest senses in each case. This might be related to the expansion strategy (expand the disambiguated senses by all its synonyms, or only to the most frequent synonyms, or only those appropriate in the given context) and also to the use or not of independently motivated IR techniques like relevance feedback. Separating the exercise in two steps allows to better study these interdependencies. The first part of the evaluation has been accepted as a Semeval-2007 task, with the evaluation exercise happening in FebruaryMarch (2007) and a dedicated workshop in the ACL conference. Participants disambiguate text by assigning MCR senses and the system will do the expansion to other languages, index the expanded documents and run the retrieval for all the languages in batch. The retrieval results will be taken as a measure for fitness of the disambiguation. The modules and rules for the expansion and the retrieval will be exactly the same for all participants. There will be two specific subtasks: 1. participants disambiguate the corpus, the corpus is expanded to synonyms and translations, and we measure the effects on cross-lingual retrieval. Queries are not processed. 2. participants disambiguate the queries per language, we expand the queries to synonyms and translations and we measure the effects on cross-lingual retrieval. Documents are not processed. The corpora and queries will be obtained from the ad-hoc CLEF 5 tasks. The scores can be compared among the Semeval participants but also with the past CLEF participants. More specifically we will use the English CLEF document collection covering 169.477 documents (579 MB), and Spanish and English topics. The relevance judgments will be taken from CLEF. This has the disadvantage of having been produced by pooling the results of CLEF participants, and 5 might bias the results towards systems not using WSD, specially for monolingual English retrieval. A post-hoc analysis of the participants results will analyze the effects of this. The second part of the evaluation will be defined as a CLEF track in 2008, where CLIR systems will have the opportunity of using the annotated data produced as a result of the Semeval-2007 task. 7 Conclusions This paper has summarized the results of a number of evaluations of the MCR and WordNets. It describes some larger tests with queries in various languages using the TwentyOne Search and Classification engine of Irion Technologies and an end-user evaluation in a real-world scenario on two months of captions and pictures from the EFE Fototeca database. The integration required the use of the Spanish, English, Catalan, Basque and Italian wordnets from the MCR. It also involved the use of WordNet domains exported from the MCR and integrated in the WSD system developed by Irion Technologies. The disambiguation resulted in the reduction of 50% of the concepts. With respect to classification, we have seen that disambiguated expansion can lead to an increase of 12% in recall, 17% in coverage and still 2% increase of precision with respect to the baseline (TEXT). The Fmeasure increased by 7.2%. With respect to retrieval, we saw significant improvement in recall for paraphrased queries (5%) and translated queries (15%-30%) on the Reuters data when using the MCR (with and without WSD). However, we lost 8% (using WSD) and 15% (using full expansion) on queries literally extracted from the text. For the EFE database, we modified the ranking so that the queries are matched with concept combination in phrases (NPs). We have seen that the phrase structure helps to exclude the noise generated by the expansion with wordnets. Literal queries only dropped 2% and 3% when using wordnets and WSD, whereas paraphrased queries gained 50% to 60% and translated queries 35% and higher. In addition, when we took the correctness of the first result as a measure of precision, the http://www.clef-campaign.org 13 Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen though the KNOW project (TIN2006-15049C03-01) and the Basque Country University (Consolidated Research Group GIU05/52). WSD approach performed best for all types of queries. Finally, we also described the end-user evaluation framework and the results obtained, which have been carried out by a three different users testing three different systems. This experiment confirmed the results from the query-based experiments. The productivity of the end-users doubled and there was a clear effect in precision for the WSD-based system. A concept-based IR system with WSD appears to beneficiary in difficult tasks (with synonyms or cross-lingual retrieval). Using half the search effort, it results in more confirmed photographs, half the false positives, half the number of rejected pictures, fewer uncertain selections and half the total number of interactions. The bottom line is that IR and CLIR can be improved with the help of the Multilingual Central Repository and appropriate WSD technology. This end-user evaluation showed that both WSD and FULL increase productivity when searching for pictures in the Fototeca database. However, WSD significantly outperforms the FULL because the first result is more often the correct result and, as a result, users can quickly and correctly finish their task without going through the full set of responses. It is also clear from these findings that a phrasal representation of the concepts in wordnets is important in order to achieve good results. For the future, we therefore want to further explore the possibilities for extracting a more detailed representation of the conceptual relations expressed in phrases. The current system, for instance, does not distinguish between animal party and party animal or between Internet service on Java and Java Internet Services because it cannot detect the conceptual relation between the concepts. This would also require higher precision WSD and more inferencing and reasoning which will allow a question such as Who are the parents of Ghandi? to be answered by a phrase akin to Ghandi is the son of …. References Atserias, J., L. Villarejo, G. Rigau, E. Agirre, J. Carroll, B. Magnini, P. Vossen The MEANING Multilingual Central Repository. In Proceedings of the Second International WordNet Conference-GWC 2004 pg. 23-30 January 2004, Brno, Czech Republic. ISBN 80-210-3302-9 Fellbaum, C. (ed) (1998) WordNet. An Electronic Lexical Database, The MIT Press. Gonzalo, J., F. Verdejo, I. Chugur and J. Cigarrán (1998) Indexing with WordNet synsets can improve text retrieval. Proceedings of the ACL/COLING98 Workshop on Usage of WordNet for Natural Language Processing. Sanda Harabagiu ed. Magnini, B. and G Cavagliá (2000) Integrating subject field codes into wordnet. Proceedings of the Second International Conference on Language Resources and Evaluation LREC’2000, Athens, Greece. Resnik, P, Word Sense Disambiguation in NLP Applications, in Eneko Agirre and Philip Edmonds (eds.), Word Sense Disambiguation: Algorithms and Applications, Springer (2006). Rigau, G., B. Magnini, E. Agirre, P. Vossen and J. Carroll (2002) Unsupervised word sense disambiguation rivaling supervised methods. Proceedings of COLING Workshop, Taipei, Taiwan. Rigau, G and E. Agirre and J. Atserias (2003) The MEANING project. Proceedings of the XIX Congreso de la Sociedad Espagna para el Procesamiento del Lenguaje Natural (SEPLN'03), Alacalte Henares, Spain. Sanderson, M. (1994) Word sense disambiguation and information retrieval. Proceedings of 17th International Conference on Research and Development in Information Retrieval, 1994. Voorhees E, M. (1994) Query expansion using lexical semantic relations: Proceedings of the 17th Annual International ACM_SIGIR Conference on Acknowledgements This work has been partially supported by the European Commission (MEANING IST2001-34460), the Spanish Education ministry 14 MCR for CLIR Research and Development in Information Retrieval. Vossen, P. (ed) (1998) EuroWordNet: A Multilingual Database with Lexical Semantic Networks, Kluwer Academic Publishers, Dordrecht. Walker, M., D. Litman, C. Kamm, and A. Abella. (1997) PARADISE: A Framework for Evaluating Spoken Dialogue Agents. Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, ACL-97, Madrid, Spain. 15 Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo Fernando Martı́nez Santiago, Arturo Montejo Ráez y Miguel Ángel Garcı́a Cumbreras Dpto. de Informática, Universidad de Jaén Campus de las Lagunillas s/n, 23071 - Jaén [email protected], [email protected], [email protected] Resumen: Un problema bien conocido de HTML es el pobre contenido semántico de sus etiquetas, dejando la tarea de interpretar los distintos elementos y secciones que conforman el sitio web al usuario. Frente a ello, iniciativas como la web semántica proponen percibir la web como una red de ontologı́as de manera que el significado de un sitio web sea computacionalmente accesible. Entre ambos extremos, en este trabajo se propone un formalismo denominado Web Logic Forms (WLF) que permite representar de manera formal cómo la información esta estructurada en un sitio web, pero sin entrar en la representación del contenido textual del sitio. De esta manera es posible que el sitio web sea presentado de una manera conveniente al usuario en otros caminos distintos al meramente visual. Es por ello que la aportación aquı́ propuesta no consiste en permitir realizar nuevas y complejas tareas sobre la web tal como persigue la web semántica, sino dotar de la formalidad suficiente a una página expresada en HTML para que permita al navegador u otro software conocer cómo se distribuye y estructura la información allı́ codificada. En esta lı́nea en se propone un navegador web basado en diálogo apropiado para personas invidentes o para su uso en dispositivos portátiles. Palabras clave: lógica de predicados primer orden (LPO), Web Logic Forms (WLF), Web Logic Forms Rules (WLFR), HTML, gestor de diálogo, navegador web Abstract: HTML tags have poor semantic meaning because the final user of the web is supposed to be a human being with several skills. The user has understand the web site by means of natural language, visual features of text and images, etc. Semantic web deals to create a net of ontogies into the web by describing the meaning of the site in a more formal way. In this work, we propose a formal representation named Web Logic Forms (WLF) between HTML and semantic web in order to represent the logic structure of a web site. Thus, the navigator is able to present the information of the site in a more appropriate way for a given user. By example, the navigator was able to present the information without any visual object, by “reading” the information by using structural aspects of the site such as headings, sections, news, etc. In order to test WLF, we propose a web navigator based on dialog suitable for blind persons or navigation by using small portable devices such as PDAs or smart phones. Keywords: first order logic, Web Logic Forms (WLF), Web Logic Forms Rules (WLFR), HTML, dialog manager, web navigator 1. Introducción Que la Web ha supuesto una revolución en el modo de publicar y acceder a la información es algo ya asumido desde hace tiempo. Sin embargo, este trasiego de información dista de ser universal debido a limitaciones impuestas en los diversos elementos necesarios para que la comunicación entre el usuario y sitio web sea posible. En todo acto de comunicación se requiere un emisor, un receptor, ISSN: 1135-5948 un canal, un mensaje, un código y un contexto. En el caso de la web existen diversas restricciones sobre cada uno de estos elementos que limitan su acceso. En concreto, el código imperante en la web (HTML+lenguaje natural+gráficos..) dista de ser universal, pues en la mayorı́a de los casos asume un perfil determinado de receptor: Para poder navegar, el receptor debe es© Sociedad Española para el Procesamiento del Lenguaje Natural Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras tar capacitado para percibir la estructura del sitio atendiendo a aspectos visuales tales como tamaño del texto, ubicación del texto dentro de la página, etc. las etiquetas HTML de una manera similar a como las interpretarı́a una persona cuando percibe la expresión visual de tales etiquetas. Por ejemplo, una de tales reglas podrı́a indicar que textos escritos en negrita y de un determinado tamaño son titulares, o que los enlaces que se encuentran precedidos de una determinada etiqueta son secciones. El resto del presente artı́culo está estructurado como sigue: En la sección 2 se repasa brevemente diversas tecnologı́as relacionadas con el problema abordado. En la sección 3 se presenta con detalle el formalismo propuesto para la descripción formal de la estructura lógica de un sitio web, WLF. A continuación se describe brevemente un navegador web basado en diálogo que hace uso de WLF+WLFR. Y finalmente, se discuten algunos aspectos relevantes y lı́neas de trabajo futuras que quedan abiertas a partir de la presente investigación. Para poder comprender el mensaje, el receptor debe ser capaz de leer e interpretar el código utilizado en la redacción del mensaje, primordialmente lenguaje natural e imágenes. Si de lo que se trata es de ampliar el tipo de receptores capacitados para interpretar el contenido del mensaje, por ejemplo cuando el receptor es un programa de ordenador, entonces es la comunidad dedicada al estudio y desarrollo de la web semántica la que se ocupa de ello1 (Berners-Lee, Hendler, y Lassila, 2001). Si, por el contrario, la limitación no la impone la capacidad cognitiva del receptor, si no la imposibilidad, por un motivo u otro, de percibir la información codificada en el sitio web, entoces es un aspecto investigado dentro del área de accesibilidad web o WAI (web accessibility iniciative) 2 . Esta iniciativa anima al diseño de sitios web que sean más fácilmente accesibles por personas con algún tipo de discapacidad. Sin embargo, son pocos los sitios que tienen en cuenta las recomendaciones más básicas en cuanto a accesibilidad. En este trabajo se propone un enfoque original para superar la limitación que supone el “aspecto” de la mayorı́a de los sitios web. Este enfoque requiere añadir el grado de formalismo necesario para que un navegador pueda “conocer” cómo está la información estructurada, aunque finalmente no sepa de qué se habla allı́. Para ello, se propone un formalismo denominado Web Logic Forms (WLF) derivado directamente a partir de HTML, y unas reglas que operan sobre WLF, denominadas WLFR (WLF Rules). WLF+WLFR permite dotar al navegador de la información suficiente referente a la estructura del sitio web como para mostrar tal información de la manera que resulte más adecuada al perfil de usuario. La conversión de un sitio ya existente al formalismo aquı́ propuesto si bien no es automática, es sencilla pues se reduce a acompañar el sitio web con un conjunto de reglas WLFR que permita al navegador interpretar correctamente 2. Trabajo relacionado En la figura 1 se muestran diversos códigos o lenguajes ordenados según su capacidad expresiva y el coste computacional para la manipulación automática del mensaje escrito mediante tal código. En un extremo queda la descripción de un sitio web expresado exclusivamente en lenguaje natural. Un sitio web cuyo contenido y estructura lógica sea descrita exclusivamente usando lenguaje natural tiene una gran capacidad expresiva pero es inviable computacionalmente. Próximo a este extremo se encuentra el conjunto formado por HTML, junto con todo aquello que no se corresponde con un elemento de marcado: lenguaje natural, gráficos, sonidos. . . Por ello, que un algorı́tmo pueda “compreder” la informción codificada en un sitio web es casi tan difı́cil como si de texto plano se tratara. El otro extremo de la cadena quedan aquellos sitios web cuyo significado está exclusivamente codificado en algún lenguaje formal, si es que ello fuera posible. Esto asegurarı́a que la semántica de ese sitio web es manejable en términos computacionales, pero a costa de severas limitaciones expresivas (Levesque y Brachman, ). Un equilibrio deseable entre ambos extremos lo representa RDF y OWL3 . OWL es el acrónimo del inglés Web Ontology Language, un lenguaje de marcado para publicar y compartir datos usando ontologı́as 1 Web semántica: http://www.w3.org/2001/sw Iniciativa para la accesibilidad de la web: http://www.w3.org/WAI 2 3 RDF: http://www.w3c.org/rdf, OWL:http://www.w3c.org/owl 18 Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo Figura 1: Idoneidad de algunos lenguajes (complementados con lenguaje natural, imágenes...) utilizados para codificar el significado de un sitio web. en la Web. OWL, en su versión más popular, OWL-DL, es una implementación de lógica descriptiva (Baader et al., 2003) que toma la sintaxis de un modelo de marcado construido sobre RDF y codificado en XML. Ası́, un uso adecuado de OWL permite el razonamiento automático sobre el contenido de un sitio web, y requiere el diseño de una ontologı́a que describa los objetos relevantes presentes en tal sitio Web y relaciones entre éstos. El problema es que esa ontologı́a tiene que ser codificada por un experto, y esta tarea dista mucho de ser trivial. ploración del sitio web que se desea tratar. Es en estas reglas justamente donde se codifica la semántica adicional con que se quiere enriquecer tal sitio, al modo en que, por ejemplo, OWL puede describir el contenido de un sitio web, sólo que aquı́ la dificultad es menor, pues no se trata de describir el contenido sino la estructura lógica del sitio. Existen diversas propuestas para representar principalmente la estructúra lógica del sitio web, y es en este ámbito donde mejor encuadra el presente trabajo. Ası́, en (Martı́nezSantiago, Ureña, y Garcı́a-Vega, 2001) se propone una herramienta que permite derivar a partir de ciertos sitios web un documento XML con etiquetas tales como “autor”, “tı́tulo”, “sección”. Este modelo requiere describir mediante un conjunto de sencillas reglas cómo extraer tales etiquetas del sitio web. Un aspecto destacable es la naturaleza jerárquica de tales reglas de tal modo que es posible crear reglas que se aplican a cualquier página web, sólo a las páginas pertenecientes a un sitio web, a una sección de ese sitio web, o incluso a una página determinada. Por contra, es una herramienta que queda limitada por el conjunto de reglas disponible, ası́ como por su orientación a explorar sitios de contenido periodı́stico por lo que le presupone una estructuración al sitio bastante rı́gida. En esta lı́nea, el trabajo propuesto en (Chan y Li, 2000) que aporta algo más de flexibilidad gracias al uso de XSL como formalismo principal para representar aquellas reglas que permiten extraer información semántica del sitio web. Nótese que en ambos casos es necesario elaborar un conjunto de reglas mediante la ex- Por otra parte, existe una amplia variedad de formalismos de representación que dan soporte a diversos wrappers web tal como WHIRL(Cohen, 2000). Este lenguaje, que también tiene inspiración logica, tiene una capacidad expresiva adecuada para obtener una representación formal de todo el contenido del sitio web, por lo que excede el objetivo de WLF, y su complejidad. El esfuerzo que requiere escribir y mantener un wrapper para uno de estos lenguajes es similar al que se requerı́a en una web semántica. Por ello, existen esfuerzos por conseguir automatizar la escritura de wrappers mediante técnicas de aprendizaje automático y minerı́a de datos, pero es difı́cil, con el estado de la tecnologı́a actual, que una máquina “aprenda” el contenido semántico de una web por sı́ sola. Sin embargo, dado que WLF se centra en la estructura del sitio, y no en su contenido, el esfuerzo de escribir y mantener uno de tales wrappers es mucho menor. Por todo ello, el motivo último de WLF es describir un lenguaje computacionalmente asumible, de fácil escritura, y que aún ası́ tenga un grado de formalismo útil para diversas tareas, como ADN, el navegador multilingüe basado en diálogo descrito en la segunda parte de este artı́culo. 19 Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras Cuadro 1: Algunas frases y la forma lógica obtenida Juan vuela desde Tokio hasta Nueva Juan [P](x1 ) volar [V](e1 x1 ) desde [P]( e1 x2 ) York Tokio [N](x2 ) hasta [P]( x2 x3 ) Nueva York [N](x3 ) John es golpeado por una pelota John [N](x1 ) golpear [V](e1 x2 x1 ) por [P]( e1 x2 ) pelota [N](x2 ) En vez de alubias comeré pizza En vez de [P]( x2 x1 ) alubias [N](x1 ) comer [V](e1 x2) pizza [N](x2) El baloncesto y el tenis son grandes baloncesto [N](x1 ) y [C](x3 x1 x2 ) tenis [N](x2 ) deportes ser [V](e1 x3 x4) grande [A] (x4) deporte [N](x4 ) El profesor permitió un periodo de profesor [N](x1 ) permitir [V](e1 x1 x3) periodescanso do [N](x3 ) de [P]( x3 x2 ) descanso [N](x2 ) 3. WLF+WLFR: Descripción formal de la estructura lógica de un sitio web la forma lógica de una página HTML son los siguientes: Cada etiqueta HTML se representa mediante un predicado. Cada ocurrencia de esa etiqueta se identifica mediante una constante que es el primer argumento del predicado equivalente. A modo de ejemplo, de la etiqueta < html > obtenemos la forma lógica html(h1). El significado de cada argumento que recibe el predicado depende de la posición que éste ocupa: Web Logic Forms toma su nombre del formalismo para la representación semántica del lenguaje natural conocido como identificación de formas lógicas (Rus, 2002). La identificación de formas lógicas es un formalismo basado en lógica de predicados de primer orden (LPO) que pretende obtener una representación del lenguaje natural situada entre el nivel sintáctico y semántico partir de un texto expresado en lenguaje natural. La base de tal formalismo es la lógica de predicados de primer orden, de tal manera que a cada palabra presente en el texto se le asigna un predicado. A su vez cada predicado puede tener varios argumentos que representan la relación de ese predicado con otros elementos de la frase. La identificación de la forma lógicas es una tarea compleja que requiere un análisis sintáctico del texto y, usualmente, un conjunto de reglas que permita interpretar el árbol sintáctico. Realmente, en el caso de WLF la tarea es más sencilla al tratarse de un lenguaje formal como es HTML, que además tiene un sintaxis sencilla y muy homogénea consituı́da básicamente por una secuencia de etiquetas que ocasionalmente incluyen algunos atributos y o algún texto que acompaña a la etiqueta y sobre el cual opera. En la tabla 1 se muestran algunos ejemplos de frases junto a su forma lógica equivalente. De manera análoga se identifica la forma lógica de una página HTML. Los elementos HTML se corresponden con un predicado, cuyo primer argumento es una constante exclusiva de ese predicado, y que representará a ese elemento HTML allı́ donde haga falta. Más detalladamente, los pasos para obtener 1. Constante que representa a una instancia determinada de una etiqueta HTML. 2. Etiqueta HTML de la que depende (“none”, si no depende de ninguna). De esta manera se representa la naturaleza jerárquica de HTML. 3. Indica si se marca el inicio (open) o fin (close) de una sección. 4. Número de etiqueta. Un número único que se corresponde con el lugar de aparación de la etiqueta dentro de la página. Realmente, este argumento es una forma alternativa de referirse a la etiqueta que representa, cuando resulta de utilidad tener en cuenta el orden relativo entre etiquetas. Cada atributo HTML se representa mediante, al menos, dos predicados, uno representa el atributo, y otro el valor que toma. El atributo queda identificado por la constante que representa a la etiqueta de la cual depende ese atributo, junto con el nombre del atributo. El texto entre etiquetas se representa con el predicado “text”, cuyo identificador se 20 Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo guntar a la base de conocimiento resultante son las secciones que se encuentran en la página, el tı́tulo o los productos que se ofertan, si se tratara de un sitio dedicado al comercio electrónico. corresponde con el identificador de la etiqueta HTML que le contiene. En la tabla 2 se muestran algunos ejemplos de código HTML con su correspondiente forma lógica. 3.1. Extracción de la estructura lógica de un sitio web 4. Ya que la WLF es una reescritura de HTML utilizando lógica de predicados de primer orden, el grado de formalismo de la página original y la derivada es el mismo, pero con la ventaja de que ahora contamos con las herramientas propias de la lógica para manipular ese código y obtener ası́ una base de conocimiento con información relativa a la estructura lógica del sitio web. Ası́ pues, para extraer información sobre aspectos estructurales del sitio web es necesario escribir reglas que identifiquen los elementos relevantes de la página: tı́tulo, secciones, titulares, enlaces, etc. Nótese que, a diferencia del lenguaje natural donde la semántica de una frase queda determinada en buena medida por la sintaxis de ésta (Levin, 1993), HTML informa escasamente sobre el significado del mensaje codificado mediante su uso (esto es, cómo se organiza la información almacenada). Ésta es una diferencia primordial entre la identificación de formas lógicas y WLF. Mientras que en la mayorı́a de los casos, para identificar la forma lógica de una frase es suficiente con un conjunto finito de reglas (salvo en caso de ambigüedad sintáctica), en el caso del HTML esas reglas son completamente dependientes de cada página web que se desea manipular, debido a que HTML no está concebido para informar sobre la estructura lógica del sitio web que describe. Nótese que para que aplicaciones terceras puedan aprovechar convenientemente la información extraı́da es conveniente que tales reglas sigan alguna ontologı́a sencilla que enumere y describa los objetos estructurales de la página y como cómo se relacionan. En la figura 2 se esquematiza el proceso. Nótese que la obtención de la forma lógica es independiente del sitio, pero no ası́ la base de conocimiento, que es el resultado de aplicar a WLF las reglas escritas a tal efecto mediante algún demostrador de teoremas automático. En el anexo 1 se muestra el resultado final obtenido a partir de código HTML real extraı́do de un diario digital. Algunos hechos que tı́picamente se pueden pre- ADN: Un navegador web gestor de diálogo basado en WLF Presentar la información de un sitio web mediante el uso exclusivo de voz o texto, sin apoyo de formato alguno, dista de ser una tarea trivial. Existen algunos productos comerciales como JAWS (acrónimo de Job Access With Speech)4 , que permiten al usuario interactuar con un navegador basado en texto y leer secuencialmente la página web. Claramente, esta forma de navegar resulta pesada cuando se trata de leer o acceder a alguna sección de un sitio web comercial, que usualmente presenta una gran cantidad de información al usuario, el cual percibe visualmente los diversos componentes de tal página web, centrándose ası́ rápidamente en aquellos aspectos de su interés (buscar una sección, leer los titulares, la descripción de un producto, etc). Ya que WLF+WLFR permite representar formalmente la estructura lógica de un sitio web, es posible que un navegador aproveche esa información para presentar la página web de una manera ordenada. Por ejemplo, serı́a posible que en un diario dado, diera al usuario la opción de leer los titulares o enumerar las secciones disponibles. Leer, si ası́ lo desea el usuario, la entradilla de algún titular y posteriormente el contenido completo de la noticia, etc. En esta sección a se presenta ADN (del inglés, A Dialog-based Navigator ). ADN permite gracias al uso de WLF+WLFR navegar de una manera eficiente sin utilizar para ello cd́igo visual alguno, tan sólo un uso controlado del lenguaje natural. Además, el hecho de que el navegador conozca la estructura del sitio web permite que la navegación mediante texto pueda realizarse en el idioma del usuario, siempre que se haya realizado previamente la localización necesaria. A continuación se describen los dos módulos principales de que consta ADN: el gestor de contenidos web y el gestor de diálogo. 4 21 JAWS: http://www.freedomscientific.com Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras Cuadro 2: Una porción de código HTML junto con su forma lógica equivalente HTML WLF <html> html(h1, none, open,1) <title> Diario Digital </title> title(h2, h1, open, 2) text(h2,“Diario Digital”) title(h2, h1, closed, 3) <body> body(h3, h2, open, 4) <a href=“/opinion/col1.html”> a(h4,h3,open,5) attr(“a”,h4) fullValue(“a”,h4,“/opinion/col1.html”) Figura 2: Esquema del proceso de extracción de la estructura lógica de un sitio web 4.1. El gestor de contenido web 4.2. El gestor de diálogo, que interactúa con la base de conocimiento en función de las ordenes que reciba del usuario. Más concretamente, el gestor de diálogo sigue un modelo basado en redes de transición aumentadas o ATNs (Augmented Transition Networks) (Woods, 1970),(Woods, 1973). Existen varios ejemplos en la literatura (Levy et al., 1997), (McTear, 1998), (Robinson et al., 2004), en los que el gestor de diálogo se basa en un autómata. Este es un paradigma que permite modelizar de una manera muy intuitiva aquellos diálogos de carácter imperativo, con un escenario controlado y un número relativamente pequeño de alternativas en cada momento. Si esto no se cumple, cualquier tipo de autómata necesario para modelizar un acto conversacional se vuelve excesivamente complejo, pesado, y finalmente poco manejable. En nuestro caso, la lógica de una ATN se adapta muy naturalmente al modo que usualmente navegamos, tal como se describe a continuación. Una ATN es una red recursiva cuyas transiciones cuentan con unos registros que pueden ser leı́dos (operación test) o escritos (operación action) antes o después de pasar al siguiente estado. A su vez, una red recursiva es, en esencia, una automáta finito determinista donde se permite que una transición Este módulo tiene capacidad para descargar páginas web, derivar la forma lógica de tal página y razonar sobre ella usando las reglas escritas a tal efecto. En cierta forma, se comporta como una base de conocimiento extraı́da de la web mediante el uso combinado de WLF+WLFR junto con algún demostrador de teoremas automático. En este trabajo el demostrador de teoremas usado es OTTER5 , que es un completo sistema de deducción automático basado LPO con capacidad para manejar la igualdad mediante demodulación y paramodulación y estrategias de búsqueda tales como hiperresolución o resolución binaria. Es el demostrador de teoremas basado en lógica de primer orden más extendido en la actualidad. Se ha elegido por estar bien documentado, ser sobradamente potente, y lo bastante rápido como para usarlo en tiempo real (al menos para las demostraciones aquı́ requeridas). Finalmente el gestor de contenidos web también cuenta con una pequeña base de datos que permite anotar información referente al perfil de usuario, cookies, o cualquier dato que por un motivo u otro deba almacenarse. 5 El gestor de diálogo OTTER: http://wwwunix.mcs.anl.gov/AR/otter 22 Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo Figura 3: Arquitectura del navegador multilingüe ADN. represente, además de un evento como es usual, un nuevo autómata. La transición se completa en el momento que el nuevo autómata llega a un estado final. De esta manera, se crea una pila de autómatas conforme se va transitando a través del ATN, de manera similar a como se apilan los sitios web en el historial de un navegador web conforme se visitan nuevos sitios. Ası́, cada autómata se corresponde con un sitio web, y cada estado representa una página determinada. Finalmente, una transición queda descrita por los siguientes elementos: tado que representa una página de identificación, podrı́a almacenarse ahora el nombre de usuario y la clave facilitada. En la figura 3 se muestra la arquitectura propuesta tomando como ejemplo un diario digital. La mayor limitación de ADN es que sólo puede navegar sobre aquellas páginas web para las cuales se han creado las reglas WLFR pertinentes y, además, se ha diseñado el automáta que describa el modo de navegar en ese sitio web, si bien es posible crear autómatas estándar para grupos de sitios web que compartan una estructura de navegación similar. Por ejemplo, es posible crear un autómata para diarios, otro para comercio electrónico, otro para blogs, etc. Las peculiaridades de cada uno de estos sitios son ocultadas por el gestor de navegación a través de la base de conocimiento. Actualmente, existe un primer prototipo de ADN que opera sobre dos diarios en español (El Mundo y el diario deportivo SPORT), uno inglés (The Guardian) y uno francés (Le Monde), que confirma la viabilidad de la arquitectura, si bien aun falta por probar el enfoque en sitios que requieren un grado más alto de interactividad, como un sitio de comercio electrónico, por ejemplo. Operación test. Precondiciones que deben cumplirse para que tal transición se lleve a cabo. Por ejemplo, que el usuario esté registrado. Este tipo de información generalmente se obtiene a partir de la base de datos contenida en el gestor de navegación. Eventos. Órdenes de usuario que dirigen la navegación a través del sitio. Estas ordenes se corresponden más o menos con la interacción usual con un navegador web. Se permite cierto grado de flexibilidad mediante el uso de expresiones regulares. Este enfoque, si bien es sencillo, resulta adecuado pues se trata de un diálogo sobre un dominio bien delimitado y dirigido por el navegador web. Generalemente, se tratará de respuestas a preguntas concretras de ADN, como “¿Quiere visitar la sección de nacional, internacional o deportes?”. 5. Consideraciones sobre la relación entre WLF y OWL Ya que OWL permite describir el contenido de un sitio web, ¿por qué no usar directamente OWL?. Realmente, el hecho de describir la estructura de la página web usando lógica de predicados de primer orden o OWL Operación action. Postcondiciones como resultado de la ejecución de la transición. Por ejemplo, si se abandona un es23 Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras es irrelevante. OWL en su versión más equilibrada, OWL-DL, es una implementación de la lógica descriptiva que es a su vez un subconjunto de la lógica de predicados de primer orden. Ası́ que el paso de LPO a OWL es más o menos trivial, si bien es cierto que OWL es, en cierta forma, una especialización de LPO, muy orientado a escribir ontologı́as y razonar sobre ellas. Es adecuado pues para representar qué contiene un sitio web, y no tanto cómo está organizado tal sitio, para lo cual en este trabajo se ha preferido la capacidad expresiva de la lógica tradicional. En cualquier caso WLF no es una alternativa a OWL, sino un procedimiento para derivar la forma lógica de un sitio web. El lenguaje usado para codificar la forma lógica para posteriormente razonar sobre ella es secundario. En definitiva, no supone más que una pequeña variación sobre el mismo tema implementar WLF sobre OWL. 6. sitio web. Los estados son páginas o tipos de páginas concretos de tal sitio, las acciones son órdenes de usuario que permiten saltar de una página a otra, o a otro sitio web. Ya que la web no es sólo HTML, una lı́nea de trabajo futura es ampliar la definción de WLF a otros lenguajes comunes en la codificación de sitios web, tales como XML+XSL o lenguajes script. Por otra parte, la mayor limitación que tiene WLF es que requiere de la escritura de las reglas WLFR mediante el análisis manual del texto HTML. Esperar que esta tarea se pudiera realizar de manera totalmente automática es casi tanto como querer que, al dı́a de hoy, una máquina pueda comprender lenguaje natural en toda su riqueza. En cualquier caso, si es posible realizar herramientas de apoyo, que mediante algorı́tmos de aprendizaje automático supervisado, puedan ayudar al experto humano en el desarrollo de las reglas WLFR. En lo relativo al navegador ADN, actualmente se está evaluando con buenos resultados la eficacia del navegador en sitios que requieran un alto grado de interacción, tal como la realización de un pedido. Un segundo aspecto más ambicioso es dotar al gestor de diálogo de cierta capacidad de comprensión de lenguaje natural y planificación. Una comprensión más elaborada del lenguaje natural permitirı́a diseñar planes para dar respuesta a solicitudes de usuario que conlleven realizar más de una acción a partir de una única sentencia, tales como “navega a la sección de deportes de El Paı́s”,que requiere navegar al diario y luego a la sección solicitada, o “lista los productos de la sección de electrodomésticos de El Corte Inglés”. Conclusiones y trabajo futuro Se ha presentado un procedimiento denominado WLF que permite representar HTML mediante LPO. Ello permite, en primer lugar, dotar a la página de información referente a la estructura lógica del sitio web. Esta información realmente ya está latente en la página. El problema es que el lenguaje usado para ello (HTML+texto+imagenes+...), es extremadamente vago e impreciso, y por lo tanto intratable computacionalmente. Lo que el uso combinado WLF y WLFR posibilita es justamente tratar de manera automática la estructura lógica del sitio web, de forma similar a cómo la web semántica permite explotar el contenido de tal sitio, más allá de cómo tal contenido se muestre de cara al usuario. Un ejemplo práctico de uso de WLF+WLFR es el navegador web conversacional multilingüe ADN, que interactúa con el usuario usando exclusivamente lenguaje natural, presentando al usuario la información de manera ordenada y conveniente. Además, dado que ADN conoce la estructura lógica del sitio es posible interactuar con el usuario en el idioma de éste, con independencia del idioma utilizado en el sitio web, si bien es cierto que la información finalmente solicitada se mostrará en el idioma original, salvo que se traduzca. ADN es un relativamente sencillo gestor de diálogo basado en ATNs. Cada ATN representa un 7. Agradecimientos Este trabajo ha sido financiado parcialmente mediante el proyecto TIMOM (TIN2006-15265-C06-03), del Ministerio de Ciencia y Tecnologı́a, y el proyecto de investigación de la Universidad de Jaén con código RFC/PP2006/Id 514. Bibliografı́a Baader, Franz, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi, y Peter F. Patel-Schneider, editores. 2003. The Description Logic Handbook: Theory, Implementation, and Applications. Cambridge University Press. 24 Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogo Berners-Lee, Tim, James Hendler, y Ora Lassila. 2001. The Semantic Web. A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. The Scientific American, Mayo. Woods, W.A. 1970. Transition network grammars for natural language analysis. En CACM, volumen 13, páginas 591–606. Chan, Jessica Choi Yuk y Qing Li. 2000. WebReader: A Mechanism for Automating the Search and Collecting Information from the World Wide Web. En WISE, volumen 2, páginas 20–47. Cohen, William W. 2000. WHIRL: A word-based information representation language. Artif. Intell., 118(1-2):163–196. Levesque, Hector J. y Ronald J. Brachman. Readings in Knowledge Representation. Levin, Beth. 1993. English Verb Classes and Alternations: A Preliminary Investigation. University of Chicago Press, Chicago, IL. Levy, D., R. Catizone, B. Battacharia, A. Krotov, y Y. Wilks. 1997. Converse: A conversational companion. En Proceedings of the First International Workshop on Human-Computer Conversation, páginas 27–34, Bellagio, Italia. Martı́nez-Santiago, Fernando, Alfonso Ureña, y Manuel Garcı́a-Vega. 2001. WWW como fuente de recursos lingüı́sticos. Sociedad Española para el Procesamiento del Lenguaje Natural, 27:41–70. McTear, M. 1998. Modelling spoken dialogues with state transition diagrams: experiences with the cslu. En ICSLP. Robinson, Kerry, D. Horowitz, E. Bobadilla, M. Lascelles, y A. Suarez. 2004. Modelling spoken dialogues with state transition diagrams: experiences with the cslu. En SIGDIAL. Rus, Vasile. 2002. Logic Form For WordNet Glosses and Application to Question Answering. Ph.D. tesis, Computer Science Department, School of Engineering, Southern Methodist University, Dallas, Texas. Woods, W. A., 1973. Natural Language Processing. Algorithmics Press, capı́tulo An experimental parsing system for transition network grammars, páginas 111–154. Rustin, R., New York. 25 Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras Anexo I. Ejemplo de WLF+WLFR sobre código HTML HTML <div class=“tituno”> <a href=“/elmundo/2005/11/07/sociedad/1131392990.html” class=“tituno”> Villepin autoriza el toque de queda en los lugares azotados por la violencia callejera </a> </div> WLF div(h1,none,open,1) attr(“class”,h1) fullValue(“class”,h1),“tituno”) a(h2,h1,open,2) attr(“href”,h2) fullValue(“href”,h2,“/elmundo/2005/11/07/sociedad/1131392990.html”) attr(“class”,h2) fullValue(“class”,h2,“tituno”) text(h2,“Villepin autoriza el toque de queda en los lugares azotados por la violencia callejera”) a(h2,h1,close,3) div(h1,none,close,4) WLFR Obtener el titular: all x1 x2 x3 div(x1,none,open,x3) & fullValue(“class”,x1)=“tituno” & a(x2,x1,open) & text(x2)→diario.titular.texto(x2) Obtener la URL de la noticia: all x1 x2 x3 div(x1,none,open,x3) & fullValue(“class”,x1)=“tituno” & a(x2,x1,open) & fullValue(“href”,x2) →diario.titular.url(x2) Algunas preguntas a la BC ¿Cuál es el titular? ask: exists x diario.titular.texto(x) → diario.titular.text(“Villepin autoriza el toque de queda en los lugares azotados por la violencia callejera”) ¿Cuál es la URL de la noticia? ask: exists x diario.titular.noticia(x) → diario.titular.url(“/elmundo/2005/11/07/sociedad/1131392990.html”) 26 Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI ∗ Sergio Ferrández, Antonio Ferrández, Sandra Roger y Pilar López–Moreno Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante Carretera San Vicente s/n 03690 Alicante España {sferrandez,antonio,sroger}@dlsi.ua.es [email protected] Resumen: Este artı́culo presenta nuestro sistema de Búsqueda de Respuestas (BR) bilingüe, llamado BRILI. BRILI ha participado en la tarea de BR Inglés–Castellano de la edición del 2006 del “Cross-Language Evaluation Forum” (CLEF) quedando en primera posición. BRILI está basado en el uso del módulo ILI (“Inter Lingual Index”) de EuroWordNet. Además, se muestra una evaluación sobre el conjunto de preguntas oficiales del CLEF que justifica nuestra estrategia. Palabras clave: Búsqueda de Respuestas Multilingüe, ILI, EuroWordNet Abstract: This paper presents our Cross-lingual Question Answering (CL-QA) system, called BRILI. It has participated in the 2006 edition of the Cross-Language Evaluation Forum (CLEF) being ranked first at English–Spanish Question Answering task. BRILI is based on the Inter Lingual Index (ILI) Module of EuroWordNet. Besides, tests on official questions from the CLEF justify our strategy. Keywords: Cross–Lingual Question Answering, ILI, EuroWordNet 1. Introducción En estos últimos años, el volumen de información textual en lenguaje natural en diferentes idiomas ha crecido exponencialmente. Este hecho implica la necesidad de gran número de herramientas de Recuperación de Información (RI) que permitan a los usuarios realizar búsquedas de información multilingüe. Tareas multilingües en RI y Búsqueda de Respuestas (BR) han sido reconocidas como un importante uso en el acceso de información on-line, este fenómeno fue corroborado en la pasada edición del “Cross-Language Evaluation Forum”(CLEF) 2006 (Magnini et al., 2006). El objetivo que la BR persigue es encontrar respuestas concisas a preguntas arbitrarias formuladas en lenguaje natural. En entornos multilingües, las preguntas son formu∗ Este trabajo ha sido llevado a cabo por el consorcio QALL-ME, el Sexto Programa Marco de Investigación de la Unión Europea (UE), referencia: FP6IST-033860. Los autores agradecen a la UE su apoyo económico, ası́ como a los integrantes del consorcio, por su fructı́fera colaboración. Para más información sobre el consorcio QALL-ME visite la página web del proyecto, http://qallme.itc.it/. ISSN: 1135-5948 las en lengua diferente a la de los documentos donde se realiza la búsqueda de la respuesta. Este marco de trabajo incrementa la dificultad del proceso de BR. En este artı́culo se presenta el sistema BRILI (acrónimo de “Búsqueda de Repuestas usando ILI”), siendo el objetivo principal de este artı́culo describir nuestra estrategia para afrontar las tareas de BR multilingües (el prototipo de la arquitectura del sistema BRILI fue presentado previamente en (Ferrández y Ferrández, 2006)). Además, se propone una evaluación sobre los conjuntos de preguntas oficiales del CLEF que justifica la bondad de nuestro método. El resto del artı́culo está organizado en: la sección 2 detalla el estado de la cuestión estudiando los actuales sistemas de BR multilingüe. En la sección 3 la arquitectura del sistema BRILI es mostrada y analizada, haciendo especial hincapié en la estrategia desarrollada para procesar las tareas multilingües. La sección 4 presenta y discute los resultados obtenidos de la evaluación del sistema usando las preguntas oficiales del CLEF. Y finalmente, la sección 5 redacta nuestras conclusiones y trabajos futuros. © Sociedad Española para el Procesamiento del Lenguaje Natural Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno 2. Estado de la Cuestión Los tres métodos anteriormente descritos están basados en el uso de herramientas de TA para llevar a cabo la tarea bilingüe de BR. Además, algunos de ellos intentan corregir los errores originados por dichas herramientas por medio de diferentes heurı́sticas. Asimismo, se debe tener en cuenta que la baja calidad de los sistemas de TA originan un cúmulo de errores dentro de todos las fases de la BR. Estos hechos causan un decremento importante en la precisión global de los sistemas de BR. Esta situación puede ser corroborada en la pasada edición del CLEF 2006 donde la precisión de los sistemas de BR multilingüe decrece alrededor del 50 % en comparación con las tareas monolingües. Hoy en dı́a, la mayorı́a de los actuales sistemas de BR multilingüe (Gillard et al., 2006; Sacaleanu, B. y G. Neumann, 2006; Sutcliffe et al., 2006; Tomás et al., 2006) están basados en el uso de servicios on-line de Traducción Automática (TA). Esta tendencia fue confirmada el la edición del 2006 del CLEF (Magnini et al., 2006). La precisión de los sistemas de BR multilingüe está directamente afectada por su capacidad de analizar y traducir correctamente la pregunta que reciben como entrada al proceso. Imperfectas o ambiguas traducciones de las preguntas ocasionan un efecto negativo en la precisión global del sistema (un estudio sobre el efecto de la TA en la BR multilingüe fue presentado en (Ferrández y Ferrández, 2007)). Otro dato a tener en cuenta y tomando como referencia a (Moldovan et al., 2003), es que la fase de Análisis de la Pregunta es responsable del 36.4 % del total de los errores en la BR de domino abierto. Esta sección se centra en la tarea de BR bilingüe inglés–castellano, con el objetivo de comparar estrategias y resultados de los actuales sistemas de BR con nuestro sistema (BRILI). En la pasada edición del CLEF 2006, tres diferentes estrategias han sido usadas por los sistemas de BR para resolver dicha tarea. El sistema (Whittaker et al., 2006) usa una herramienta de TA para traducir la pregunta al lenguaje en el que están escritos los documentos. Esta estrategia es la técnica más simple utilizada hasta el momento. De hecho, cuando se compara el resultado del proceso bilingüe con la ejecución monolingüe en Castellano, la precisión decrece en un 55 %. Este sistema pone de manifiesto la influencia negativa de los servicios de TA en la BR multilingüe. Por otro lado, el sistema (Bowden et al., 2006) traduce el volumen total de documentos a la lengua en la que la pregunta es formulada. Este sistema utiliza un sistema de TA estadı́stico que ha sido entrenado usando el “European Parliament Proceedings Parallel Corpus 1996–2003 ”(EUROPARL). Finalmente, el sistema BRUJA (Garcı́aCumbreres et al., 2006) traduce la pregunta utilizando diferentes servicios on–line de TA y heurı́sticas. Esta técnica consulta diferentes herramientas con el objetivo de obtener un traducción aceptable de la pregunta. 3. El sistema BRILI En esta sección, se describe la arquitectura y funcionalidad de el sistema BRILI. Siendo el objetivo principal de esta sección detallar nuestra estrategia para afrontar la tarea bilingüe de BR inglés–castellano. 3.1. Arquitectura general El sistema BRILI esta implementado para localizar respuestas en documentos, donde preguntas y documentos están escritos en lenguas diferentes. El sistema se basa en el uso de patrones sintácticos para analizar las preguntas y localizar las repuestas (para realizar estas tareas se utilizan diferentes herramientas de Procesamiento del Lenguaje Natural (Acebo et al., 1994; Ferrández, Palomar, y Moreno, 1999; Llopis y Vicedo, 2001; Schmid, 1995)). Además, un algoritmo de “Word Sense Disambiguation (WSD)” es aplicado con el objetivo de mejorar la precisión (una nueva propuesta de WSD para nombre presentada en (Ferrández et al., 2006)). La figura 1 muestra la arquitectura global del sistema BRILI. Para la primera implementación del sistema BRILI, nos hemos apoyado en la fase de indexación de documentos y en el módulo de la extraction de la respuesta de nuestro sistema monolingüe de BR llamado AliQAn (Roger et al., 2005), el cual fue presentado por primera vez en la edición del 2005 del CLEF. En las siguientes sub–secciones se detallarán los módulos de Identificación del Lenguaje, la fase de Análisis de la Pregunta, el módulo de Referencia Entre Lenguas, el módulo de Selección de Pasajes Relevantes y el módulo de la Extracción de la Respuesta. 28 Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI Módulo Castellano Módulo Inglés Pregunta Módulo de Identificación del Lenguaje ILI EuroWordNet Módulo Castellano Respuesta MÓDULO DE ANÁLISIS DE LA PREGUNTA MÓDULO DE EXTRACCIÓN DE LA RESPUESTA Módulo de Referencia entre Lenguas Palabras Clave Castellano Módulo de Selección de Pasajes Relevantes DOCUMENTOS CASTELLANO IR-n Figura 1: Arquitectura del Sistema BRILI 3.2. Módulo de Identificación del Lenguaje perada. El sistema detecta el tipo de información que las posibles respuestas deben satisfacer para llegar a ser respuestas candidatas (por ejemplo: nombres propios, cantidades, fechas, etcétera) El módulo de Identificación del Lenguaje ha sido desarrollado con el objetivo de distinguir automáticamente el lenguaje en el que está escrito el texto que recibe como entrada. Este módulo esté basado en dos técnicas: i) el uso de diccionarios (“stopwords” especı́ficas del lenguaje); ii) el uso de partes de las palabras (por ejemplo, “-ing” en el caso de inglés). Esta filosofı́a presenta buenos resultados (Martı́nez, T., E. Noguera, R. Muñoz y F. Llopis, 2005) para castellano e inglés. 3.3. Identificar los principales BS de la pregunta. BRILI extrae los BS del a pregunta que son útiles para encontrar las respuestas en los documentos. Para la primera tarea, se ha diseñado una taxonomı́a basada en “WordNet Based–Types” y “EuroWordNet Top– Concepts”. Nuestra clasificación se compone de las siguientes categorı́as: persona, profesión, grupo, objeto, lugar–paı́s, lugar– ciudad, lugar-capital, lugar, abreviatura, evento, numérico–económico, numérico– edad, numérico–medida, numérico–periodo, numérico–porcentaje, numérico–cantidad, temporal–año, temporal-mes, temporal– fecha, efeméride y definición. El tipo de respuesta esperada es detectado por medio de un conjunto de patrones sintácticos. El sistema posee alrededor de 200 patrones para determinar la categorı́a de la pregunta dentro de nuestra taxonomı́a. El procedimiento es el siguiente: BRILI compara los BS de los patrones con los BS de la pregunta, el resultado de estas comparaciones determinan el tipo. A continuación se muestra un ejemplo que detalla el comportamiento de esta tarea: Módulo de Análisis de la Pregunta Antes de adentrarnos en la descripción de la fase de Análisis de la Pregunta se deben tener en cuenta algunos aspectos. Nuestro método se basa fundamentalmente en el análisis sintáctico de la pregunta y los documentos. Para desarrollar esta tarea, el sistema SUPAR (Ferrández, Palomar, y Moreno, 1999) ha sido utilizado. A partir de la salida que SUPAR proporciona, el sistema BRILI extrae los Bloques Sintácticos (BS) de las preguntas y los documentos. Se detectan tres tipos de BS: Sintagma Nominal (SN) simple, Sintagma Verbal (SV) y Sintagma Preposicional (SP). Estos BS forman la unidad sintáctica básica para diseñar e implementar patrones. El sistema BRILI desarrolla dos tareas principales en la fase de Análisis de la pregunta: Pregunta 06 del CLEF 2006: Which country did Iraq invade in 1990? Detectar el tipo de respuesta es29 Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno Patrón: [WHICH] COUNTRY] [sinónimo English WordNet de Spanish WordNet presidente president director Tipo de Respuesta Esperada lugar– paı́s rector moderador El objetivo que la segunda tarea persigue es determinar qué BS de la pregunta son útiles para localizar las respuestas en los documentos. Además, en estos BS se encuentran las palabras clave que deben ser traducidas por el Módulo de Referencia Entre Lenguas. El ejemplo siguiente muestra el proceso de esta tarea en una pregunta de tipo temporal– año. presidente presidenta Figura 2: Referencias para la palabra “president” La estrategia empleada para poder realizar la BR haciendo uso de toda la información que ILI proporciona al sistema, es valorar y ordenar todas las referencias establecidas por frecuencia. En el ejemplo anterior, la palabra en Castellano más valorada serı́a “presidente”. Por otro lado, se debe tener en cuenta que en algunos casos el sistema se encuentra ante palabras inglesas que no están referenciadas al Castellano por el módulo ILI. En estos casos el sistema utiliza un diccionario on– line 1 para poder determinar las traducciones. Además, el sistema BRILI se apoya en el uso de colecciones bilingües de organizaciones y lugares para traducir este tipo de entidades que en algunos casos no están referenciadas por ILI. A su vez, con el objetivo de reducir el efecto negativo de traducciones incorrectas de algunos nombre propios, la fase de Extracción de la Respuesta utiliza las palabras clave traducidas por el módulo REL y dichas palabras en el lenguaje original de la pregunta (teniendo en cuenta que las soluciones obtenidas a partir de dichas palabras son valoradas un 20 % menos). La estrategia establecida en el módulo REL de no realizar una TA de la pregunta, que por otro lado es el objetivo real que persigue el sistema BRILI, se lleva a cabo gracias al análisis de la pregunta en su lenguaje original y el uso del módulo ILI de EuroWordNet (Vossen, 1998). A continuación se muestra un ejemplo del proceso realizado por el módulo REL: Pregunta 75 del CLEF 2006: In which year was the Football World Cup celebrated in the United States? SBs: [SN Football World Cup] + [SV to celebrate] + [SP in [SN United States]] Palabras Clave: Football World Cup celebrate United States Además, BRILI, con el objetivo de mejorar la búsqueda de las respuestas, descarta algunas palabras de las preguntas. Por ejemplo, en la pregunta siguiente las palabras “can” y “be” no son utilizadas en la localización de las posibles respuestas. Pregunta 33 del CLEF 2004: How can an allergy be treated? SBs: [SV to treat] + [SN allergy] Palabras Clave: treat allergy 3.4. presidente ILI Módulo de Referencia Entre Lenguas En está sub–sección se describe el módulo de Referencia Entre Lenguas (REL) el cual se encarga de traducir las palabras clave de las pregunta a la lengua en la que se va a realizar la búsqueda de posibles respuestas. El módulo REL estable enlaces de referencia entre las lenguas que forman la BR bilingüe. Dicho módulo recibe como entrada las palabras clave detectadas en la fase de Análisis de la Pregunta. Con el objetivo de ilustrar el proceso, veamos el siguiente ejemplo (Figura 2) en donde se muestran las referencias establecidas por el módulo REL para la palabra clave “president”. Cómo se aprecia en el ejemplo, el módulo LER encuentra más de una referencia en Castellano para la palabra inglesa “president”. Pregunta 101 del CLEF 2004: What army occupied Haiti? BS: [SN army] + [SV to occupy] + [SN Haiti] Tipo de Respuesta Esperada grupo Palabras Clave: army occupy Haiti 1 30 http://www.wordreference.com Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI Referencias : Patrón sintáctico: [SN (“Presidente Francés”), aposición [SN (SOLUCIÓN)]] + [SV (“inaugurar”)] + [SN “Eurotunel”)] - army 7→ ejército - occupy 7→ absorber ocupar atraer residir vivir colmar rellenar ocupar llenar Respuesta Candidata: Jacques Chirac - Haiti 7→ Haitı́ 4. Principales BS utilizados en la BR: [SN ejército] + [SV ocupar (verbo más valorado)] + [SN Haitı́] 3.5. 4.1. Entorno de Evaluación Para llevar a cabo la evaluación del sistema que en este artı́culo se presenta, se han utilizado los conjuntos de 200 preguntas de las tareas de BR de las ediciones del CLEF 2004, 2005 y 2006 (en inglés y en castellano) y el conjunto de documentos en Castellano (“EFE 1994–1995 Spanish corpora”) propuesto por el CLEF para realizar las búsquedas de las soluciones. El corpus propuesto proporciona un marco de trabajo adecuado para la evaluación de los sistemas de BR. El conjunto de preguntas está compuesto principalmente por “factoid questions” y “definition questions”. Las “factoid questions”son preguntas basadas en hechos, solicitan el nombre de una persona, una localidad, el dı́a que ocurrió algo, etcétera. Módulo de Selección de pasajes Relevantes El módulo de Selección de pasajes Relevantes se basa en el uso de la herramienta de RI, IR–n (Llopis y Vicedo, 2001). IR–n recibe como entrada las palabras clave traducidas por el módulo REL, por ejemplo, en la pregunta 92 del CLEF 2006, “Where is Interpol’s headquarters? ”, IR-n recibe las palabras “Interpol” y “comandancia”. El sistema IR–n proporciona una lista de pasajes relevantes en donde el sistema aplicará la búsqueda de respuestas candidatas. 3.6. Resultados Experimentales Módulo de Extracción de la Respuesta 4.2. La fase final del sistema BRILI se realiza en el módulo Extracción de la Respuesta. Dicho módulo usa los BS de la pregunta y diferentes conjuntos de patrones sintácticos (según el tipo de respuesta espera) con información léxica, sintáctica y semántica para localizar respuestas candidatas. En el ejemplo siguiente se muestra el proceso completo de BR donde la aplicación de un patron de localización de respuestas es detallada. Análisis de Resultados El objetivo de estos experimentos es evaluar y discutir la bondad de la estrategia de BR bilingüe diseñada e implementada en BRILI. Para realizar este análisis se proporcionan la precisión del sistema en su ejecución bilingüe inglés–castellano y monolingüe castellano. Más delante, se comparan los resultados con los actuales sistemas de BR bilingüe presentados de la pasada edición del CLEF 2006. En el cuadro 4 se muestra la precisión2 del sistema BRILI (ver filas 2,4 y 6). A su vez, estos resultados se comparan con la ejecución monolingüe en castellano (ver filas 1, 3 y 5) y con las presiciones obtenidas por los sistemas que en la actualidad forman el estado de la cuestión de la BR bilingüe (ver filas 7, 8 y 9). Cuando se compara la precisión obtenida en las tareas de BR bilingüe con las ejecuciones monolingües en Castellano, se aprecia que el decremento sufrido en la precisión global del sistema BRILI está al rededor Pregunta 70 del CLEF 2005: Which French president inaugurated the Eurotunnel? SB: [SN French president] + [SV to inaugurate]+ [SN Eurotunnel] Tipo de Respuesta Esperada persona Principales BS utilizados en la BR: [SN presidente francés] + [SV inaugurar]+ [SN Eurotunel] 2 Para calcular la precisión de nuestros sistemas se han considerado las respuestas correctas y las respuestas inexactas cuando éstas contienen más información que la requerida por la pregunta. Frase de los documentos: ... el Presidente Francés, Jacques Chirac, inauguró el Eurotunel ... 31 Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno Sistema 1 2 AliQAn BRILI 3 4 AliQAn BRILI 5 6 AliQAn BRILI Participantes en (Whittaker et al., 2006) (Bowden et al., 2006) (Garcı́a-Cumbreres et al., 2006) 7 8 9 Conjunto de Datos CLEF 2004 200 Preguntas castellano 200 Preguntas inglés CLEF 2005 200 Preguntas castellano 200 Preguntas inglés CLEF 2006 200 Preguntas castellano 200 Preguntas inglés CLEF 2006 (Magnini et al., 2006) 200 Preguntas inglés 200 Preguntas inglés 200 Preguntas inglés Precisión ( %) 41.5 33.5 51.5 42.5 50.5 44 6 19 19.5 Cuadro 1: Evaluación sin ningún tipo de traducción. Los experimentos realizados sobre los conjuntos de preguntas oficiales de las ediciones del CLEF 2004, 2005 y 2006 justifican nuestra estrategia. En la actualidad se está diseñando e implementando la integración de un reconocedor de entidades con el objetivo de detectar y clasificar entidades para ası́ poder establecer las necesidades de traducción de las mismas. Por ejemplo, en la pregunta 059 del CLEF 2006, What is Deep Blue?, la entidad “Deep Blue”no deberı́a ser traducida. A su vez, se está incorporando conocimiento multilingüe de Wikipedia3 con el objetivo de traducir entidades nombradas y ampliar las colecciones bilingües de organizaciones y lugares. del 17 %. Este dato revela y justifica la calidad del método implementado en BRILI, ya que, como se mostró en la pasada edición del CLEF (Magnini et al., 2006), la precisión de las tareas bilingües inglés–castellano se establecido en alrededor de un 50 % menos que la precisión obtenida por los sistemas de BR monolingüe Castellana. Además, comparando con el resto de sistemas que en la actualidad desarrollan la tarea bilingüe que en esta sección se discute, y que han participado en la pasada edición del CLEF 2006, el sistema BRILI obtiene mejores resultados (BRILI ha quedado en la primera posición en la tarea de BR bilingüe inglés–castellano en el CLEF 2006). 5. Conclusiones y Trabajos Futuros Bibliografı́a En este articulo, la estrategia de BR bilingüe inglés–castellano diseñada e implementada dentro del sistema BRILI ha sido detallada y evaluada. El sistema BRILI reduce el uso de la TA con el objetivo de evitar el efecto negativo que causan este tipo de estrategias en la precisión global de los sistemas de BR. En el sistema BRILI se introducen dos mejoras que intentan alcanzar dicho objetivo: i) El sistema considera más de una traducción por palabra gracias a los diferentes synsets de cada palabra que están referenciados por el módulo ILI de EuroWordNet; ii) Al contrario que los actuales sistemas de BR, el análisis de la pregunta se realiza en su lenguaje original, Acebo, S., A. Ageno, S. Climent, J. Farreres, L. Padró, R. Placer, H. Rodriguez, M. Taulé, y J. Turno. 1994. MACO: Morphological Analyzer Corpus-Oriented. ESPRIT BRA-7315 Aquilex II, Working Paper 31. Bowden, M., M. Olteanu, P. Suriyentrakorn, J. Clark, y D. Moldovan. 2006. LCC’s PowerAnswer at QA@CLEF 2006. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Ferrández, A., M. Palomar, y L. Moreno. 1999. An Empirical Approach to Spanish 3 32 http://www.wikipedia.org/ Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILI question answering system. ACM Trans. Inf. Syst, 21:133–154. Anaphora Resolution. Machine Translation. Special Issue on Anaphora Resolution In Machine Translation, 14(3/4):191– 216. Roger, S., S. Ferrández, A. Ferrández, J. Peral, F. Llopis, A. Aguilar, y D. Tomás. 2005. AliQAn, Spanish QA System at CLEF-2005. In Workshop of CrossLanguage Evaluation Forum (CLEF). Ferrández, S. y A. Ferrández. 2006. Crosslingual question answering using inter lingual index module of eurowordnet. Advances in Natural Language Processing. Research in Computing Science. ISSN: 1665-9899, 18:177–182, February. Sacaleanu, B. y G. Neumann. 2006. Dfkilt at the clef 2006 multiple language question answering track. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Ferrández, S. y A. Ferrández. 2007. The negative effect of machine translation on cross–lingual question answering. Proceedings of the CICLing 2007, LNCS 4394, páginas 494–505, February. Schmid, H. 1995. TreeTagger — a language independent part-of-speech tagger. Institut fur Maschinelle Sprachverarbeitung, Universitat Stuttgart. Ferrández, S., S. Roger, A. Ferrández, A. Aguilar, y P. López-Moreno. 2006. A new proposal of Word Sense Disambiguation for nouns on a Question Answering System. Advances in Natural Language Processing. Research in Computing Science. ISSN: 1665-9899, 18:83–92, February. Sutcliffe, R.F.E., K. White, D. Slattery, I. Gabbay, y M. Mulcanhy. 2006. Crosslanguage French-English Question Answering using the DLT System at CLEF 2006. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Garcı́a-Cumbreres, M.A., L.A. Ureña-López, F. Martı́nez-Santiago, y J.M. PereaOrtega. 2006. BRUJA System. The University of Jaén at the Spanish task of CLEFQA 2006. In Workshop of CrossLanguage Evaluation Forum (CLEF), September. Tomás, D., J.L Vicedo, E. Bisbal, y L. Moreno. 2006. Experiments with LSA for Passage Re-Ranking in Quesion Answering. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Vossen, P. 1998. Introduction to eurowordnet. Computers and the Humanities, 32:73–89. Gillard, L., L. Sitbon, E. Blaudez, P. Bellot, y M. El-Béze. 2006. The LIA at QA@CLEF-2006. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Whittaker, E.W.D., J.R. Novak, P. Chatain, P.R. Dixon, M.H. Heie, y S. Furui. 2006. CLEF2005 Question Answering Experiments at Tokyo Institute of Technology. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Llopis, F. y J.L. Vicedo. 2001. Ir-n, a passage retrieval system. In Workshop of CrossLanguage Evaluation Forum (CLEF). Magnini, B., D. Giampiccolo, P. Forner, C. Ayache, V. Jijkoun, P. Osevona, A. Peñas, , P. Rocha, B. Sacaleanu, y R. Sutcliffe. 2006. Overview of the CLEF 2006 Multilingual Question Answering Track. In Workshop of Cross-Language Evaluation Forum (CLEF), September. . Martı́nez, T., E. Noguera, R. Muñoz y F. Llopis. 2005. Web track for CLEF2005 at ALICANTE UNIVERSITY. In Workshop of Cross-Language Evaluation Forum (CLEF), September. Moldovan, D.I., M. Pasca, S.M. Harabagiu, y M. Surdeanu. 2003. Performance issues and error analysis in an open-domain 33 Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda Laboratorio de Tecnologías del Lenguaje, Depto. Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica, México. {rmaceves, mmontesg, villasen}@inaoep.mx Resumen: El presente trabajo describe los principales retos de los sistemas de Búsqueda de Respuestas (BR) Multilingües. Concretamente se aborda el problema de la combinación o fusión de respuestas candidatas provenientes de búsquedas en colecciones en diferentes idiomas. Este trabajo compara diferentes técnicas de fusión, propuestas en otras áreas de tratamiento multilingüe, a la problemática específica de la BR. A partir del análisis de los resultados se discuten las características esenciales que deberá considerar un método de fusión orientado a la BR multilingüe. Palabras clave: Búsqueda de Respuestas Multilingüe, Fusión de respuestas, CLEF. Abstract: This paper describes the main challenges of multilingual question answering. In particular, it focuses on the problem of answer fusion, which concerns the combination of answers obtained from collections in different languages. Basically, it compares a set of techniques for answer fusion, previously used in other multilingual tasks, in the problem of multilingual question answering. On the basis of the achieved results, we discuss the essential characteristics for an answer fusion method to be especially suited to the task of multilingual question answering. Keywords: Multilingual Question Answering, Answer Fusion, CLEF. 1 Introducción Los sistemas de búsqueda de respuestas (BR) son aquellos que responden de manera concisa a preguntas concretas formuladas en lenguaje natural. Uno de los principales retos que afrontan en la actualidad estos sistemas es el multilingüísmo, situación en la cual se desea que el sistema de BR responda a preguntas formuladas en un idioma diferente al de la colección de búsqueda. Bajo tal situación es posible distinguir dos tipos de sistemas de BR: los sistemas translingües y los multilingües. Un sistema translingüe es aquel donde la colección de búsqueda está en un idioma diferente al de la pregunta. Y un sistema multilingüe realiza la búsqueda de la respuesta en dos o más colecciones, todas ellas en idiomas diferentes. ISSN: 1135-5948 Cada uno de estos sistemas involucra diferentes retos. El presente trabajo aborda uno de los desafíos que los sistemas BR multilingües deben resolver. Un sistema de BR multilingüe puede ser visto como un conjunto de sistemas de BR monolingües trabajando de manera coordinada, donde cada sistema se dedica a la extracción de respuestas bajo una colección de búsqueda en particular. Por supuesto, dos pasos más son de vital importancia: la traducción de la pregunta a los diferentes idiomas de las colecciones de búsqueda; y la combinación (o fusión) de las respuestas entregadas por cada sistema de BR monolingüe. La figura 1 muestra un esquema de un sistema de BR multilingüe. Durante la traducción de la pregunta a diferentes idiomas el principal problema es disminuir el impacto negativo de la traducción © Sociedad Española para el Procesamiento del Lenguaje Natural Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda funcionamiento consiste en: (i) la pregunta – formulada en un lenguaje fuente– es traducida al lenguaje de la colección de búsqueda –el lenguaje destino; y (ii) la traducción se entrega a un sistema de BR monolingüe afín al lenguaje destino. Dada la naturaleza de las preguntas, comúnmente no se realiza la traducción de la respuesta al lenguaje fuente. Los primeros sistemas translingües implementaban el módulo de traducción utilizando directamente un traductor automático (Echihabi et al., 03; Jijkoun et al., 04; Perret, 04). En estos primeros sistemas se pudo notar que el impacto del error en la traducción era considerable. Para disminuir este impacto se propusieron métodos alternos. Un primer enfoque consiste en asegurar la correcta traducción de los términos claves de la pregunta. Es el caso del trabajo de (Tanev et al., 2004) donde, apoyándose en diccionarios bilingües y EuroWordNet, genera su propia traducción. Otro enfoque, consiste en utilizar dos o más traductores. Esta idea se basa en la suposición de que el acuerdo entre ellos tendrá mayores probabilidades de ser correcto. Por ejemplo, el método de (Laurent et al., 05) realiza una traducción triangulada usando al inglés como idioma pivote. Otro ejemplo es el trabajo de (Sutcliffe et al., 05), el cual genera una traducción término-por-término combinado dos traductores diferentes y un diccionario. Finalmente, también encontramos otros trabajos que buscan medios pertinentes para resaltar el acuerdo entre los traductores. Por ejemplo, (Neuman & Sacaleanu, 05) construyen una bolsa de palabras expandida usando los términos de diferentes traducciones de la pregunta, así como sus sinónimos extraídos de EuroWordNet. Otro ejemplo, es el trabajo de (Aceves-Pérez, et al. 07) el cual reconstruye una nueva traducción a partir de las secuencias comunes entre varios traductores. Respecto a los sistemas de BR multilingüe existe, en nuestro conocimiento, únicamente el trabajo de (García-Cumbreras et al., 06). En éste se propone un sistema de BR basado en un subsistema de Recuperación de Información Multilingüe. Sin embargo, en la parte experimental sólo se presentan resultados para el caso monolingüe del español. automática. Una solución a este problema consiste en emplear 2 o más traductores para posteriormente, a partir de diferentes criterios, elegir la mejor traducción, o crear una nueva reformulación. Detalles de estos métodos pueden consultarse en (Aceves-Pérez et al., 07) Con las n traducciones, tantas como colecciones de búsqueda existan, se realiza cada una de las búsquedas monolingües correspondientes. Finalmente, con el conjunto de listas ordenadas de respuestas candidatas, provenientes de los sistemas de BR monolingües, se inicia el paso de fusión. El objetivo de este último paso, es la integración de las respuestas en una única lista ordenada. Esta integración deberá considerar tanto el orden de las respuestas en las listas, así como su repetida aparición en ellas. El objetivo central de este trabajo es el análisis del comportamiento de las técnicas de fusión, propuestas en otras áreas de tratamiento multilingüe, a la problemática específica de la BR. Para ello, se han aplicado algunas de las técnicas de fusión básicas y se han analizado y comparado sus resultados. El resto del artículo está organizado de la siguiente manera. La sección 2 presenta el trabajo relacionado tanto en sistemas de BR translingües y multilingües, así como en las técnicas de fusión propuestas en la Recuperación de Información Multilingüe. La sección 3 presenta brevemente las estrategias más prometedoras para la fusión de listas de respuestas. La sección 4 describe los experimentos realizados y analiza los resultados alcanzados. Finalmente, la sección 5 presenta las conclusiones de este trabajo. 2 Trabajos relacionados Dado el gran interés en el desarrollo de los sistemas de BR, a partir del año 2003 el CrossLanguage Evaluation Forum (CLEF) inicia la evaluación de sistemas monolingües y translingües de BR en idiomas europeos (Magnini et al., 03). En la actualidad podemos encontrar muchos ejemplos de sistemas de BR translingües. La arquitectura clásica de estos sistemas consta de dos componentes: un módulo de traducción de la pregunta y un sistema de BR monolingüe. Su 36 Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe Pregunta Módulo de Traducción Módulo de Traducción pregunta lenguaje x Sistema de BR Módulo de Traducción pregunta lenguaje y Doctos lenguaje x Sistema de BR Respuestas candidatas lenguaje x pregunta lenguaje z Doctos lenguaje y Respuestas candidatas lenguaje y Sistema de BR Doctos lenguaje z Respuestas candidatas lenguaje z Fusión de respuestas Respuestas Figura 1. Esquema general de un sistema de BR multilingüe Una conclusión que podemos extraer de estos métodos es que la búsqueda en diferentes colecciones permite mejorar el comportamiento de los sistemas de BR. Por otro lado, el problema de la fusión de listas de respuestas –provenientes de diferentes colecciones en diferentes idiomas– no ha sido abordado en el contexto de Búsqueda de Respuestas. Los trabajos más cercanos realizan búsquedas en más de una colección, siempre en el mismo idioma, y aplican diferentes técnicas para combinar (o fusionar) las respuestas provenientes de cada colección. Por ejemplo, los trabajos de (Echihabi et al., 03, Jijkoun et al., 04) realizan búsquedas en secuencia sobre las diferentes colecciones, donde la lista de respuestas calculada en el paso previo es confirmada (o filtrada) por la búsqueda subsiguiente. (Chu-Carroll, 03) también realiza búsquedas en varias colecciones, todas ellas en inglés, una vez que obtiene las 5 respuestas candidatas con mayor calificación de cada una de las colecciones, las mezcla y reordena de acuerdo a su calificación, si existe alguna respuesta en más de una colección sus calificaciones se suman (véase la estrategia CombSum en la siguiente sección). En (Sangoi y Mollá, 04) la búsqueda de respuestas se realiza sobre la Web recuperando extractos con diferentes motores de búsqueda. Estos extractos son pesados de acuerdo a la eficiencia del motor de búsqueda. Posteriormente se combinan, y realizando un cálculo estadístico sobre las entidades nombradas, se reordenan. 3 Fusión de respuestas candidatas La idea central de este trabajo consiste en evaluar algunos de los métodos tradicionales utilizados por los sistemas de Recuperación de Información Multilingüe (CLIR por sus siglas en inglés) al colocarlos en el contexto de la BR multilingüe. Cabe señalar que no se trata de problemas idénticos, la problemática de la fusión de listas de documentos en CLIR tiene por objetivo crear una nueva lista de documentos donde los más relevantes, sin importar su idioma, estén en las primeras posiciones de la lista. En la BR multilingüe el orden de las primeras posiciones es en extremo importante. Existe una gran diferencia dar la respuesta correcta en la primera posición, a darla en la segunda o quinta posición. A continuación se describen brevemente las estrategias de fusión tradicionales propuestas dentro de la CLIR. RoundRobin. Esta estrategia toma la respuesta de más alta calificación de cada una de las listas y las coloca alternadamente en la nueva lista. Posteriormente, toma las segundas mejor 37 Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda calificadas y las coloca en la nueva lista. Esta operación se repite sucesivamente hasta terminar las listas. En este caso, las respuestas duplicadas son descartadas. 4 Experimentos y Resultados En esta sección se muestran los resultados al evaluar las estrategias de fusión mencionadas en la sección anterior. A continuación se describen los diferentes recursos usados en los experimentos. RSV (Raw Score Value). Esta estrategia toma en cuenta las calificaciones de cada respuesta determinadas en la fase anterior. Las listas de respuestas se mezclan en una única lista y reordenándose de acuerdo a dicha calificación. Cuando una respuesta aparece en más de una lista, se suman sus calificaciones. 4.1 Recursos Las colecciones de búsqueda. Se usaron 3 colecciones de búsqueda en tres idiomas diferentes, todas ellas de notas periodísticas. La colección en español con 454,045 documentos (aprox. 1Gb.), la de francés con 129,806 documentos (325 Mb), y la de italiano con 157,558 documentos (350 Mb). Las colecciones corresponden a las utilizadas en el CLEF 2005. CombSum. Esta técnica de fusión, propuesta por (Lee, 97), puede considerarse como una combinación entre RoundRobin y RSV. Este método asigna una calificación de 21-i a las 21 primeras respuestas de cada una de las listas – ordenadas descendentemente– siendo i la posición de la respuesta. Cualquier respuesta después de la posición 21 se le asigna una calificación de 0. De esta forma, la primera respuesta (en todas las listas) queda con una calificación de 20, la segunda con 19 y así sucesivamente. Finalmente, las listas se mezclan y se reordenan atendiendo a la nueva calificación. En caso de que una respuesta se encuentre en más de una lista sus calificaciones se suman. El conjunto de pregunta y respuestas. Para la selección de las preguntas y sus respuestas se tomó como base el corpus Multi-eight del CLEF. De este corpus se extrajeron preguntas para cada uno de los tres idiomas. Se tuvo especial cuidado en seleccionar preguntas cuya respuesta estaba en las listas de respuestas otorgadas por los sistemas de BR monolingües. De esta forma se creó un conjunto de 170 preguntas. Para poder evaluar el alcance de las estrategias de fusión se identificó el subconjunto de preguntas que tienen respuesta en una sola colección de búsqueda, así como el subconjunto de preguntas cuya respuesta está presente en más de una colección de búsqueda. Como es de suponer, es precisamente en este segundo subconjunto de preguntas que las estrategias de fusión tendrán un mayor impacto. La tabla 1 muestra la distribución de preguntas contestadas por colección de búsqueda. CombMNZ. Esta técnica, también propuesta por (Lee, 97), es una variante de la anterior. En este caso se asigna a cada respuesta una calificación tal como se describe en CombSum, pero esta calificación es multiplicada por el número de colecciones en la que se encontró dicha respuesta. Como puede observarse estas estrategias aprovechan de diferente forma la información de las listas. En el caso de RoundRobin, la estrategia más simple, se da prioridad al orden relativo en las listas y no se aprovecha la aparición repetida de una respuesta. Por otro lado, esta estrategia también es sensible al orden en que se procesan las listas. Dando los mejores lugares en la lista final a las respuestas de la primera lista de respuestas procesada. Las otras tres estrategias revisadas abordan estos inconvenientes buscando esquemas de pesado que mejoren el ordenamiento final. El sistema de BR monolingüe. El sistema de BR utilizado fue el sistema TOVA (Montes-yGómez et al., 05), un sistema basado únicamente en información léxica, lo que lo hace prácticamente independiente del idioma. Este sistema obtuvo la mejor posición en el ejercicio monolingüe en italiano, y la segunda mejor posición en el ejercicio monolingüe en español del CLEF 2005. 38 Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe Colección Español Francés Italiano Español-Francés Español-Italiano Francés-Italiano Español-Francés-Italiano español, en este caso si se utilizó un traductor automático (Systran). Finalmente, se han aplicado las diferentes técnicas de fusión a las tres listas. En la tabla 2 se muestran los resultados obtenidos con cada estrategia de fusión, distinguiendo la precisión calculada a la primera, a la tercera y a la quinta posición. A manera de referencia se incluyó la precisión obtenida en el ejercicio monolingüe en español (última fila). No. Preguntas 37 (21%) 21 (12%) 15 (9%) 20 (12%) 25 (15%) 23 (14%) 29 (17%) Tabla 1. Distribución de preguntas en función de la(s) colección(es) donde se encuentran sus respuestas. 4.2 Método RSV RoundRobin CombSum CombMNZ Monolingüe Evaluación El criterio de evaluación de relevancia de las respuestas es el mismo que el propuesto en el CLEF. Dado que el objetivo de nuestro sistema de BR multilingüe es mejorar la precisión, se tomó como punto de referencia (baseline) el comportamiento del sistema de BR en su versión monolingüe para el español. La precisión es la cantidad de preguntas respondidas correctamente en relación a la cantidad total de preguntas. Para observar con mayor claridad el comportamiento de las diferentes estrategias se midió la precisión a una, tres y cinco posiciones. Para el caso de tres o cinco posiciones, la pregunta se considera correctamente respondida si la respuesta apropiada se encuentra entre las primeras tres o cinco respuestas candidatas. Cabe resaltar que el proceso de evaluación se realizó de manera manual evitando errores debido a la necesidad de un apareo perfecto. 4.3 1a.Pos. 3a.Pos 5a.Pos. 0.44 0.45 0.42 0.42 0.45 0.61 0.68 0.66 0.62 0.57 0.69 0.74 0.75 0.70 0.64 Tabla 2. Precisión con los diferentes métodos de fusión de respuestas. Como puede observarse en la tabla 2, los mejores resultados se alcanzaron con el método de RoundRobin, incluso superando los resultados del sistema monolingüe con precisión a 3 y 5 posiciones. Sin embargo, este resultado fue inesperado, ya que este método no considera la redundancia en las listas, característica que si aprovechan los demás métodos. Por otro lado, es claro que este método sí permite aprovechar la complementariedad entre las listas de respuestas, propiedad que los otros métodos sopesan de manera más indirecta. Otra observación relevante es respecto al comportamiento del método RSV. Este método reordena las respuestas en función de la puntuación calculada en los pasos anteriores. Como puede advertirse el método RSV no permite extraer más respuestas correctas de las que se obtienen con el ejercicio monolingüe, de ahí la importancia de tratar de hacer comparables las calificaciones de las repuestas de las diferentes listas, como lo demuestran los resultados de los métodos CombSum y CombMNZ. Por último, respecto a los resultados alcanzados por CombSum y CombMNZ se nota un mejor comportamiento que el experimento monolingüe con precisión a 3 y 5 posiciones. Una probable explicación del porqué no lo mejoran en la precisión a la 1ª posición sería los problemas durante la traducción automática de las respuestas de italiano y francés al español. Experimentos Los experimentos realizados están orientados a evaluar el comportamiento de las técnicas de fusión sobre diferentes listas de respuestas candidatas en diferentes idiomas. El primer paso consistió en obtener las listas de respuestas candidatas. Para ello se realizaron tres corridas monolingües: una en español, otra en francés y una última en italiano. Cabe señalar que las preguntas usadas en las 3 corridas del sistema de BR fueron las mismas pero en diferentes idiomas. Las preguntas se tomaron directamente del corpus para evitar el ruido por la traducción automática de las preguntas. El siguiente paso consistió en traducir las listas de respuestas en francés e italiano al 39 Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda el impacto de una mala traducción (usando, por ejemplo, varios traductores), e (iii) integrar en el esquema de fusión la calificación otorgada por los sistemas de BR monolingües. Hay que recordar que las listas de respuestas son de unas cuantas palabras y en muchas ocasiones entidades nombradas, situación que complica su correcta traducción. Método RSV RoundRobin CombSum CombMNZ 1a.Pos. 3a.Pos 5a.Pos. 0.49 0.51 0.48 0.52 0.67 0.77 0.77 0.73 0.73 0.84 0.83 0.80 Agradecimientos Este trabajo fue parcialmente financiado por el CONACYT bajo el proyecto 43990 y con la beca 184663. También agradecemos al CLEF por los recursos proporcionados. Tabla 3. Precisión con los diferentes métodos de fusión al considerar únicamente las preguntas con respuesta en más de una colección. Bibliografía Aceves-Pérez R., Montes-y-Gómez M, Villaseñor-Pineda L, 2007. Enhancing Cross-Language Question Answering by Combining Multiple Question Translations. Lecture Notes in Computer Science, Vol. 4394, Springer 2007. Como se mencionó en la sección anterior, se identificó el subconjunto de preguntas cuyas respuestas podían encontrarse en más de una colección. La tabla 3 muestra los resultados alcanzados con los métodos de fusión sobre este subconjunto de preguntas. Como era de esperarse se tienen mejores precisiones que al tomar todas las preguntas. Los métodos CombSum y CombMNZ mejoran su comportamiento, ya que estos métodos aprovechan la repetición y complementariedad de las listas de respuestas. Sin embargo, es nuevamente notorio el comportamiento del método de RoundRobin. 5 Chu-Carroll J., Czuba K.,Prager A.J., Ittycheriah A. 2003. In question answering, two heads are better than one. Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology - Volume 1. Edmonton, Canada. 2003. Echihabi A., Oard D., Marcu D. y Hermjakob U., 2003. Cross-language question answering at the USC Information Sciences Institute. Lecture Notes in Computer Science Vol. 3237, Springer 2004. Conclusiones En este trabajo se expusieron los principales desafíos en la construcción de sistemas de BR Multilingües y se abundó sobre el problema de fusión de listas de respuestas en diferentes idiomas. Finalmente, se evaluaron las técnicas de fusión usadas comúnmente en los sistemas de Recuperación de Información Multilingües. Con estos experimentos se demostró la factibilidad y utilidad de los sistemas de BR multilingües, ya que se obtienen mejores precisiones a 3 y 5 posiciones. Sin embargo, es claro que los métodos de fusión tradicionales no colocan en la primera posición la respuesta correcta. Creemos que esto se debe fundamentalmente al error introducido por una mala traducción de las respuestas y, en menor medida, a la cantidad de respuestas consideradas en el proceso de fusión. De ahí la necesidad de proponer un nuevo método de fusión especifico a esta problemática. Este método deberá: (i) considerar la complementariedad de las listas, (ii) disminuir García-Cumbreras M. A., Ureña-López L. A., Martínez-Santiago F., Perea-Ortega J. M. 2006. BRUJA System. The University of Jaén at the Spanish Task of CLEFQA 2006. In Working Notes of CLEF 2006, Alicante, España. 2006. Jijkoun V., Mishne G., Rijke M., Schlobach S., Ahn D., Muller K., 2004. The University of Amsterdam at QA@CLEF 2004. In Working Notes of CLEF 2004, Bath, UK, 2004. Laurent D., Séguela P., and Nègre S., 2005 Cross lingual question answering using QRISTAL for CLEF 2005. In Working Notes CLEF 2005. Vienna, Austria. 2005. Lee J., 1997. Analysis of Multiple Evidence Combination, 20th annual ACM SIGIR Conference Proceedings, 1997. Magnini B., Romagnoli S., Vallin A., Herrera J., Peñas A., Peinado V., Verdejo F. and 40 Fusión de Respuestas en la Búsqueda de Respuestas Multilingüe Rijke M., 2003. In Working Notes of CLEF 2003, Trondheim, Norway, 2003. Montes-y-Gómez, M., Villaseñor-Pineda, L., Pérez-Coutiño, M., Gómez-Soriano, J. M., Sanchis-Arnal, E. & Rosso, P., 2005. INAOE-UPV Joint Participation in CLEF 2005: Experiments in Monolingual Question Answering. In Working Notes of CLEF 2005, Vienna, Austria, 2005. Neumann G. and Sacaleanu B., 2005. DFKI’s LT-lab at the CLEF 2005 multiple language question answering track. In Working Notes CLEF 2005, Vienna, Austria. 2005. Perret L., 2004. Question answering system for the French. Lecture Notes in Computer Science, Vol. 3491, 2005. Sangoi Pizzato L. A., and Molla-Aliod D., 2005. Extracting Exact Answers using a Meta Question Answering System. In Proceedings of the Australasian Language Technology Workshop 2005, Sydney, Australia, 2005. Sutcliffe R., Mulcahy M., Gabbay I., O’Gorman A., White K., Slatter D., 2005. Cross-Language French-English Question Answering using the DLT System at CLEF 2005. In Working Notes CLEF 2005. Vienna, Austria. 2005. Tanev H, Negri M., Magnini B., and Kouylekov M., 2004. The DIOGENE question answering system at CLEF-2004. In Working Notes of CLEF 2004, Bath UK. 2004. 41 QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Envinroment ∗ Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás José Luis Vicedo, Patricio Martı́nez, y Armando Suárez Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante {ruben, ofe, sferrandez, dtomas, vicedo, patricio, armando}@dlsi.ua.es Resumen: En este documento presentamos el proyecto QALL-ME, relacionado con las tecnologı́as de los sistemas de información. El proyecto tiene un duración de 36 meses y esta financiado por la Unión Europea y será llevado a cabo por 7 instituciones. El objetivo general es establecer una infraestructura compartida para la Búsqueda de Respuestas en un dominio abierto multilingüe y multimodal para dispositivos móviles. Con las necesidades de información actuales de la sociedad, se atisba un mercado potencial enorme de los distintos objetivos que se persiguen en el QALL-ME. Palabras clave: Proyecto QALL-ME, Búsqueda Respuestas dominio abierto, multilingualidad , multimodalidad, dispositivos móviles Abstract: In this paper, the QALL-ME project, related to the Information Systems Technologies, is introduced. The project is 36 months long, it is founded by the European Union and it will carry out by 7 institutions. The main goal is to establish a shared infrastructure for multilingual and multimodal open domain Question Answering for mobile phones. Taking into account the current information needs of the society, the different aims pursued by the project are expected to have a big potential market. Keywords: QALL-ME project, open domain Question Answering, multilinguality, multimodality, mobile devices 1. Introducción “¿Dónde puedo comer paella esta noche?”. Responder a este tipo de preguntas se ha convertido recientemente en una oportunidad de negocio real, con una gran serie de servicios que van desde la tradicional atención al cliente hasta una oferta cada vez mayor de asistencia basadas en la web. El departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante participa en el proyecto europeo QALL-ME, junto a seis instituciones de otros tres paı́ses miembros de la Unión Europea (Italia, Alemania y Reino Unido), en el que se está desarrollando una infraestructura informática a través del teléfono móvil para que cualquier turista o ciudadano de ∗ Este trabajo ha sido llevado a cabo por el consorcio QALL-ME, el Sexto Programa Marco de Investigación de la Unión Europea (UE), referencia: FP6IST-033860. Los autores agradecen a la UE su apoyo económico, ası́ como a los integrantes del consorcio, por su fructı́fera colaboración. Para más información sobre el consorcio QALL-ME visite la página web del proyecto, http://qallme.itc.it/ ISSN: 1135-5948 uno de estos cuatro paı́ses pueda acceder instantáneamente a diferentes informaciones relacionadas con el sector servicios, ya sea una pelı́cula en el cine, un teatro o un restaurante de un tipo determinado de comidas. Actualmente, los portales de voz, servicios que ofrecen acceso a información contenida en webs a través de voz, están experimentando un incremento exponencial en popularidad. Estos servicios suministran a los usuarios una amplia gama de información: horarios, previsiones meteorológicas, información de tráfico, eventos culturales y sociales, etc. Uno de los factores más valorados en la demanda es el dinamismo, es decir, los usuarios requieren y solicitan información completamente actualizada. Precisamente mantener toda esta compleja información actualizada, junto a las tareas de recopilación de nueva información, es la tarea más cara y costosa de los portales de voz y de los sistema de información basados en web. El proyecto QALL-ME, es un proyecto © Sociedad Española para el Procesamiento del Lenguaje Natural Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Vicedo, Patricio Martínez, Armando Suárez de 36 meses de duración, financiado por la Unión Europea y que será llevado a cabo por un consorcio de siete instituciones, cuatro de ellas académicas, y las otras tres compañı́as industriales. El objetivo es establecer una infraestructura compartida para la Búsqueda de Respuestas (Question Answering, QA) en dominio abierto multilingüe y multimodal para dispositivos móviles. El proyecto experimentará con el potencial del QA de dominio abierto y su evaluación en el contexto de la búsqueda de información desde dispositivos móviles, un escenario multimodal que incluye el habla natural como entrada, y la integración de respuestas textuales, mapas, imágenes y videos cortos como salida. El dominio seleccionado está representado por el conjunto de eventos locales de una ciudad, normalmente disponibles a través de sitios web especializados, periódicos o publicaciones locales. 2. rencia de las tecnologı́as de recuperación de información que sustentan algunos motores de búsqueda como Yahoo o Google, QA no devuelve un conjunto relevante de documentos para la consulta especificada, sino que devuelve la respuesta concreta a la pregunta realizada. Ésta es una caracterı́stica importante de los sistemas de QA, permiten el tratamiento de preguntas bien formuladas en lenguaje natural en lugar de secuencias de palabras inconexas (Recuperación de Información) o plantillas fijas (Extracción de Información). Se considera que la tecnologı́a actual de QA está lo suficientemente madura como para pasar del simple tratamiento de preguntas sobre hechos concretos (factual questions), a otras más complejas con una interacción más natural y conocimiento más profundo. Desde el punto de vista de aplicación, QA está reconocida como una de las tecnologı́as de mayor interés para la Web Semántica(McGuinness, 2004), que requerirá tanto del uso de aplicaciones de lenguaje natural como de técnicas de razonamiento basadas en la explotación intensiva del conocimiento. La Búsqueda de Respuestas En 1999 se estableció un foro para la evaluación y comparación de sistemas de Búsqueda de Respuestas dentro de la serie de Conferencias TREC1 , relacionadas con la Recuperación de Textos. La investigación en sistemas de Búsqueda de Respuesta se incremento con la aparición de este foro, a pesar de que, en principio, éste solo estaba dirigido a sistemas que trabajaran en inglés. En otra serie de conferencias, CLEF2 , relacionadas también con sistemas de Recuperación de Información, se extendió el ámbito a otras lenguas, incluido el español, y de nuevo se motivó la investigación en sistemas de Búsqueda de Respuestas. La tarea de Búsqueda de Respuestas dentro de el foro CLEF empezó en 2003, y desde entonces, el esfuerzo se ha centrado en añadir el tratamiento de nuevas lenguas, principalmente europeas, y añadir innovaciones (complejidad de preguntas, tratamiento de lenguas distintas entre pregunta y respuesta, etc)siempre sin perder la esencia original de la tarea. La Búsqueda de Respuestas en dominio abierto (open domain Question Answering) es la principal tecnologı́a que hay detrás del proyecto. QA toma una pregunta formulada en lenguaje natural y devuelve una respuesta desde una colección de fuentes de información (documentos o bases de datos). A dife1 2 2.1. La Búsqueda de Respuestas en Dispositivos Móviles Como hemos comentado, el propósito es demostrar la viabilidad de las soluciones de QA propuestas a través de su integración en un escenario de aplicación concreto: Búsqueda de Respuestas sobre información de eventos locales desde dispositivos móviles. Dicha integración seguirá cuatro direcciones relacionadas principalmente con la explotación de la Web Semántica y las Tecnologı́as de Interfaces Multimodales para QA. En concreto, los objetivos de integración corresponden con: Servicios Web para QA Tecnologı́a de Wrappers QA hablado QA multimodal Se diseñará una arquitectura de software distribuido para optimizar las comunicaciones entre los módulos de software y alcanzar un balance computacional adecuado entre cliente y servidor. También se llevará a cabo un desarrollo de herramientas (como por ejemplo los Interfaces de Programación de Aplicaciones) que posiblemente seguirán las http://trec.nist.gov http://www.clef-campaign.org 44 QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Environment rios. Por ejemplo, un estado del arte sobre los últimos avances en la complejidad de las preguntas que maneja el sistema (como las preguntas del tipo “¿cómo...?”; el desarrollo de una arquitectura basada en web para la realización de QA interlingua (con la pregunta en una lengua y la respuesta en otra lengua diferente); la implementación de sistemas de QA en tiempo real para aplicaciones concretas; la integración del contexto espacial y temporal tanto para la interpretación de la respuesta como para la extracción de la misma; el desarrollo de un marco robusto para la aplicación de algoritmos de aprendizaje automático mı́nimamente supervisados en tareas de QA y la inclusión de tecnologı́as desarrolladas de reconocimiento automático del habla en el marco de la Búsqueda de Respuestas en dominio abierto. La infraestructura que se desea desarrollar en el QALL-ME para la realización de QA multilingüe y multimodal, debe incluir éstas entre otras funcionalidades: recomendaciones de Organizaciones Internacionales, como el W3C. 3. Objetivos y Desarrollo del Proyecto El objetivo principal del proyecto QALLME es establecer una infraestructura compartida para QA en dominio abierto y multilingüe y multimodal desde dispositivos móviles. Podemos diferenciar entre objetivos tecnológicos y objetivos de investigación. Entre los objetivos tecnológicos cabe resaltar: - QA multimodal, multilingüe y de dominio abierto. Se pretende desarrollar un sistema de QA que sea capaz de interactuar con el usuario por medio de distintos tipos de fuentes (texto, voz, imágenes) y haciendo uso de tecnologı́as aplicables a cualquier tipo de dominio. En cuanto a la multilingüalidad, el proyecto QALL-ME desarrollará un estructura común de QA en varias lenguas. Para ello se integraran una única infraestructura independiente del lenguaje las distintas herramientas dependientes de cada idioma que desarrollen cada uno de los grupos participantes. Recopilar, y actualizar de forma automática información relevante extraı́da desde distintas fuentes de datos (estructurados y no estructurados) Procesar automáticamente preguntas complejas de forma multilingüe y teniendo en cuenta tanto el contexto espacial como el temporal en el que se realizan - QA que permita la interacción con el usuario y sensible al contexto. Para ser capaces de evaluar los módulos desarrollados en un escenario real, y tomar al usuario como el foco de atención, se pretende desarrollar las funcionalidades necesarias para integrar la información contextual (espacial y temporal) en el proceso de búsqueda de la respuesta. Se pretende utilizar este tipo de información tanto en el proceso de interpretación de la pregunta, como en la fase de presentación de la respuesta. Facilitar el acceso multimodal al sistema, utilizando texto escrito o voz Presentar al usuario una información correcta, completa y concisa, extraı́da desde distintas fuertes, con distintos formatos y lenguas Combinar distintos formatos en la presentación de información al usuario: textos, mapas, imágenes. . . - Tecnologı́as de aprendizaje automático para QA. El objetivo es implementar componentes de QA basados en algoritmos de aprendizaje automático mı́nimamente supervisados que proporcionen resultados satisfactorios con una cantidad limitada de datos de entrenamiento. Se usará este tipo de técnicas en las fases de: análisis de la pregunta, reformulación de la pregunta y extracción y validación de la respuesta. La Figura 1 muestra los módulos principales que componen la parte centra de la arquitectura distribuida de QALL-ME. Todos los módulos se implementarán como Servicios Web utilizando lenguajes estándar para la definición de Servicios. El planificador central se encargará de la interpretación multilingüe de las consultas. Este módulo recibe la consulta como entrada, procesa la pregunta en el lenguaje en el que se formula y, de acuerdo a sus parámetros de contexto, dirige la búsqueda de la información requerida El otro tipo de objetivos son los de investigación, entre éstos podemos encontrar va45 Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Vicedo, Patricio Martínez, Armando Suárez se de especificaciones funcionales y de usuario (WP1 y WP2), una fase de desarrollo (WP3. . . WP7) seguida de la realización de demostraciones y experimentos de campo (WP8) y una fase de evaluación (WP9). El final de los 3 ciclos (meses 12, 24 y 36) se corresponden con las 3 principales etapas intermedias del proyecto que mostrarán el estado de desarrollo del QALL-ME. El módulo de diseminación (WP10), aparte de las publicaciones académicas y en prensa, comprende el mantenimiento de la web del proyecto3 y la organización de varios workshops, uno a la finalización del proyecto, y el Workshop on Advances in Question Answering, dentro del programa de actividades del SIGIR de 20074 (por confirmar). Figura 1: Arquitectura principal QALL-ME hacia un Extractor de Respuestas local. La extracción de la respuesta se realiza sobre diferentes representaciones semánticas de la información que dependen del tipo de la fuente original de datos desde la que se obtiene la respuesta (si la fuente es texto plano, la representación semántica será un documento anotado en XML; si la fuente es un sitio web, la representación semántica será una base de datos construida por un wrapper ). Finalmente, las respuestas se devuelven al Planificador Central que determina cual es el mejor medio para representar la información solicitada. El proyecto tiene una duración de 36 meses como hemos comentado y está organizado en 11 módulos de trabajo: 4. Potencial de Mercado La búsqueda de respuestas se ha convertido en un área de investigación de rápido crecimiento y con un gran potencial comercial. El análisis y proceso de preguntas formuladas en lenguaje natural en entornos basados en Internet, sobre la base de una infraestructura distribuida para aplicaciones de QA que emplee tecnologı́a avanzada del lenguaje de carácter multilingüe, permitirá la aparición de entornos orientados a la recuperación, evaluación y navegación de información tremendamente accesibles y adaptados al usuario final. Las funcionalidades de los sistemas de QA, especialmente aquellos métodos que soportan la comunicación interactiva con los usuarios, permitirán su integración en aplicaciones relacionadas con la comunicación móvil, cuya principal forma de interacción es el lenguaje natural. Se atisba un mercado potencial enorme en las diferentes direcciones perseguidas en el proyecto QALL-ME. Tal y como sugiere el crecimiento exponencial que los servicios de suministro de información (call centers) están experimentando, se necesitará de servicios de búsqueda y recuperación de información de alta precisión que reduzcan de forma drástica el tiempo que un empleado necesita para localizar y suministrar dicha información a los usuarios del servicio. En consecuencia, la habilidad de gestionar de forma automática incluso una pequeña parte de todas estas solicitudes de información ofrece WP0: Dirección del proyecto WP1: Requerimientos de usuario WP2: Diseño de la arquitectura del sistema WP3: Interpretación multilingüe de la pregunta WP4: Acceso a los datos WP5: Extracción multilingüe de la respuesta WP6: Interacción multimodal WP7: Integración del sistema WP8: Demostración y exhibición WP9: Evaluación WP10: Diseminación y explotación El proyecto se divide en 3 ciclos de desarrollo y pruebas. Cada ciclo incluye una fa- 3 4 46 http://qallme.itc.it http://www.sigir2007.org QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Environment nuevas oportunidades de negocio para aquellas empresas relacionadas con las telecomunicaciones y con la prestación de servicios de información web. 5. Universidad de Alicante Departamento de Lenguajes y Sistemas Informáticos España http://www.ua.es Contact Person: José Luis Vicedo University of Wolverhampton Computational Linguistics Group United Kingdom http://www.wlv.ac.uk Contact Person: Ruslan Mitkov El Consorcio QALL-ME Comdata S.p.A. Torino - Italy http://www.comdata.it Contact Person: Giorgio Sangalli El consorcio QALL-ME está compuesto por siete instituciones de cuatro paı́ses miembros de la Unión Europea: Italia, Reino Unido, España y Alemania). Cuatro de los participantes son instituciones académicas (ITCirst, University of Wolverhampton, University of Alicante, and DFKI) mientras que las otras son empresas radicadas en Italia. Además, se ha conseguido que otras empresas e instituciones se interesen por el proyecto como, por ejemplo, LaNetro5 que, amablemente, está proporcionando los datos sobre la provincia de Alicante que servirán para desarrollar y evaluar los sistemas. Ubiest S.p.A. Treviso - Italy http://www.ubiest.com Contact Person: Nicola De Mattia Waycom S.r.l. Albisola Superiore, Savona - Italy http://www.waycom.it Contact Person: Paolo Rossi Bibliografı́a McGuinness, Deborah L. 2004. Question answering on the semantic web. IEEE Intelligent Systems, 19(1):82–85. ITC-irst, Project Coordinator TCC-division Povo, Trento – Italy http://www.itc.it/irst Project Manager: Bernardo Magnini DFKI Language Technology research lab Germany http://www2.dfki.de/web Contact Person: Guenter Neumann 5 http://www.lanetro.com 47 Web-based Selection of Optimal Translations of Short Queries∗ Paolo Rosso and Davide Buscaldi Matteo Iskra DSIC, Universidad Politécnica de Valencia DISI, Università di Genova Camino de Vera, s/n Valencia (Spain) Via Dodecaneso, 12 Genova (Italy) {prosso,dbuscaldi}@dsic.upv.es [email protected] Resumen: En este artı́culo se presenta una técnica para la selección de la mejor traducción de una pregunta entre un conjunto de traducciones obtenidas desde diferentes traductores automáticos. La técnica está basada en el cálculo de la entropı́a de la pregunta respeto a la web. La presente técnica se puede utilizar en aplicaciones multilingüe como la Búsqueda de Respuestas multilingüe. Palabras clave: Traducción Automática, Búsqueda de Respuestas Multilingüe, Minerı́a de Datos en la Web Abstract: In this paper we present a technique for the selection of the best translation of a short query among a set of translation obtained from different translators. The technique is based on the calculation of the information entropy of the query with respect to the web. This technique may be used in multilingual applications such as the Cross-Lingual Question Answering. Keywords: Machine Translation, Multilingual Question Answering, Web Mining 1 Introduction Nowadays, it is possible to find in the web many Machine Translation (MT) tools that are commonly used to translate small pieces of text. Our assumption is that these tools can be used effectively in the Question Answering (QA) field, particularly for the CrossLanguage task. If we consider QA as a specialized Information Retrieval (IR) task, the analogue of a user query in QA is a short, concise question. It has been demonstrated that the translations generated by typical web-based MT tools are more precise for short sentences than longer ones (Mellebeek et al., 2005). Therefore, the characteristics of shortness and conciseness of QA queries let us suppose that they can be translated effectively by a web MT tool, and subsequently improve the results of existing CrossLanguage QA systems. A great amount of the errors of multilingual QA systems are due to the translation phase. It has been observed that bad translations account for 15% up to 50% of the total number of errors, depending on the question type, in one of the best monolingual QA system (Laurent, Séguéla, y Nègre, 2006) that participated in the latest CLEF1 evaluation exercise. ∗ We would like to thank the TIN2006-15265-C06-04 research project for partially supporting this work. 1 http://www.clef-campaign.org ISSN: 1135-5948 Various methods have been developed recently in order to minimize the error introduced by MT in IR-related fields. In particular, the idea of combining different MT systems has already been used succesfully for the cross-lingual Ad-Hoc retrieval task (Di Nunzio et al., 2005). The most common form of combination of different MT systems is the selection of the best translation from a set of candidates (Callison-Burch y Flournoy, 2001; Larosa et al., 2005), although there have been also proposals for the combination of fragments from different translations (Aceves-Pérez, Villaseñor-Pineda, y Montes, 2006). The technique for the selection of the best translation that we present in this paper is based on the calculation of the entropy of the translations with respect to the language model in the web. It resembles a common practice among internet users, that is to exploit web search engines in order to check the spelling of a word or the correctness of a sequence of words; for instance, if someone has a doubt whether “logic programming” is more correct than “logical programming” or not, he can search the web and make a choice depending on the resulting page count. This can be done over the pieces of the translations in order to check their correctness against the “web English” language model. In the following section we introduce the © Sociedad Española para el Procesamiento del Lenguaje Natural Paolo Rosso, Davide Buscaldi, Matteo Iskra adopted technique, in Section 3 we describe the experiments carried out and present the obtained results. 2 If we substitute p(i) with Formula 2 in Formula 1, we obtain: H(X) = −K Description of the Technique Due to the fact that in the web usually c(bi ) >> c(ti ) , we used the logarithmic scale for page counts, and used a linear normalization factor as K, obtaining the formula that we used to calculate the entropy of a translation X: w = (w1 , . . . , wn ) A trigram chain is, therefore, defined as the set of trigrams T : n 1 X log c(ti ) (log c(ti ) − log c(bi )) H(X) = − n log c(bi ) i=0 (4) The selection of the best translation is made on the basis of the H(X) calculated by means of Formula 4. Given M translations of a question q, we pick the translation m̄ such that m̄ = arg maxm∈M H(m). For instance, consider the following translations of the example above: T = {(w1 , w2 , w3 ), (w2 , w3 , w4 ), . . . . . . , (wn−2 , wn−1 , wn )} For instance, let us consider the following Spanish translation of the English question“Who is the Chairman of the Norwegian Nobel Committee?”: “Quién es el Presidente del Comité Nobel noruego?”. Therefore, w =(“Quién”, “es”, “el”, “Presidente”, “del”, “Comité”, “Nobel”, “noruego”), and T = {(“Quién es el”), (“es el Presidente”), (“el Presidente del”), (“Presidente del Comité”), (“del Comité Nobel”), (“Comité Nobel noruego”)}. The information entropy was introduced by Shannon (Shannon, 1948) and its general formulation is: H(X) = −K p(i) log p(i) 1. “Quién es el Presidente del Comité Nobel noruego?” 2. “Quién es el Presidente del Comité noruego Nobel?” The trigram counts obtained from the web (Google) are: The H(X) calculated for Trigram Quién es el es el Presidente el Presidente del Presidente del Comité del Comité Nobel Comité Nobel noruego del Comité noruego Comité noruego Nobel (1) i=0 Where K is an arbitrary constant which depends on the problem, i is a fragment of a message X of length n, and p(i) is the probability of the i-th fragment. In our case, the message is represented by the translation, and if we take into account trigrams, each fragment i corresponds to the i-th trigram of the translationd ti . We decided to calculate the probability of each trigrams by means of web counts. Let us name c(x) the function that returns the number of pages that contain the text fragment x in the web. Let us define the i-th trigram ti = (wi , wi+1 , wi+2 ) and its root bigram as bi = (wi , wi+1 ). According to (Zhu y Rosenfeld, 2001), the probability p(ti ) can be estimated as: p(ti ) = c(ti ) c(bi ) (3) i=0 Given a translation X of a question q, let us define w as the sequence of n words that compose the translation: n X n X c(ti ) (c(ti ) − c(bi )) c(bi ) Pages 271, 000 618, 000 8, 560, 000 1, 610, 000 468 328 355 73 Table 1: Web page counts for the trigrams of the two translations of the example. the first translation (the right one) is 2.454 and 2.219 for the second one; therefore, the method correctly selects the best translation. 3 Experiments and Results The experiments were carried out using the set of 200 questions of the cross-lingual English-Spanish task of CLEF-20052 . In the (2) 2 50 http://clef-qa.itc.it/2005/ Web-based Selection of Optimal Translations of Short Queries Category date location measure object organization person not classified CLEF exercises, questions are the same if the target collection is the same; therefore, the right (reference) translation of each question was obtained by recurring to the monolingual Spanish question set. 3.1 MT Systems The MT systems used for the experiments were Systran3 , FreeTrans4 , Linguatec5 , Promt6 and Reverso7 . The evaluation of the MT systems was carried out by means of the BLEU (BiLingual Evaluation Understudy) (Papineni et al., 2001), a measure currently used for the evaluation of the MT systems at NIST8 . Basically, the BLEU counts the n-grams shared by the candidate translation and the reference one. The degree of similarity returned by the BLEU is a number comprised between 0 (completely different) and 1 (perfect match). We calculated the average BLEU score for each of the MT systems on the 200 questions in the CLEF 2005 test set and over the DISEQuA corpus, consisting in 450 questions from CLEF 2003. Results are displayed in Table 2. System Systran Freetrans Linguatec Promt Reverso CLEF 2005 0.346 0.371 0.391 0.420 0.391 best BLEU 0.327 0.378 0.317 0.237 0.299 0.513 0.308 System Promt Promt Reverso FreeTrans Reverso Promt Linguatec Table 3: Best average BLEU scores, grouped by question category, and system that obtained the best score. 3.2 Evaluation of the Web-based Translation Selection We used three different search engines to calculate the entropy of translations: Google9 , Yahoo10 and Ask11 . In order to compare the quality of the English of the Internet with the English of a static document collection, we used also Lucene12 over the collection of documents used in the CLEF 2005 monolingual Spanish QA track. We calculated the average entropy, obtained by means of Formula 4, for both the CLEF 2005 and DISEQuA test sets, using the above search engines to obtain the web count c(x) for trigrams and bigrams. Results are shown in Table 4. DISEQuA 0.282 0.333 0.311 0.363 0.352 S.Engine Ask Google Lucene Yahoo Manual Table 2: Average BLEU scores obtained by each MT system over the 200 questions of the CLEF 2005 test set and the 450 questions of the DISEQuA corpus. CLEF 2005 0.381 0.392 0.378 0.355 0.462 DISEQuA 0.325 0.332 0.313 0.344 n.a. Table 4: Average BLEU score obtained with the proposed selection technique, using the different search engines for c(x) over the 200 questions of the CLEF 2005 test set and the 450 questions of the DISEQuA corpus. M anual: average entropy obtained by selecting at hand the best translation of each question. As it can be noticed from Table 2, the Promt system proved to be the more effective. Another remark that can be done is that the questions of the DISEQuA corpus seem to be more difficult to translate than the ones of the CLEF 2005. The results grouped by question category (Table 3) show that some MT systems translate certain kinds of questions better than other ones. The “manual” heuristics can be considered as the maximum that could have been obtained if the entropy correctly helped to individuate the right translation for each ques- 3 http://babelfish.altavista.com http://www.freetranslation.com 5 http://www.linguatec.de 6 http://www.e-promt.com 7 http://www.reverso.net 8 http://www.nist.gov 4 9 http://www.google.com http://www.yahoo.com 11 http://www.ask.com 12 http://lucene.apache.org 10 51 Paolo Rosso, Davide Buscaldi, Matteo Iskra tion. This is not the case, as we can observe how the manual selection obtains a 7% precision above the best result obtained with the web-based selection. Nevertheless, the manual selection does not reach the 50% of the translations, indicating that the translations of these questions is particularly problematic. We carried out an error analysis and discovered that in many cases the errors are due to the presence of Named Entities(NEs), particularly abbreviations and proper nouns. In many cases the NEs have to be translated (for instance “United Nations” is translated as “ONU” in Spanish), in other cases the translation is wrong (for instance, the Italian car manufacturer FIAT becomes “salsa de carne”, “mandato” o “autorización” for some of the MT tools). Notably, the best results obtained by means of the proposed technique are all inferior to the Promt MT system, although with the CLEF 2005 test set the web-based selection obtains a better average BLEU score than all the remaining MT systems. 4 Callison-Burch, Chris y Raymond Flournoy. 2001. A program for automatically selecting the best output from multiple translation engines. En Proc. of the VIII Machine Translation Summit, Santiago de Compostela, Spain. Di Nunzio, Giorgio, Nicola Ferro, Gareth J.F. Jones, y Carol Peters. 2005. Ad hoc track overview. En CLEF 2005 Working Notes, Vienna, Austria. Larosa, Sabatino, Manuel Montes y Gómez, Paolo Rosso, y Stefano Rovetta. 2005. Best Translation for an Italian-Spanish Question Answering System. En Proc. Of Information Communication Technologies Int. Symposium (ICTIS), Tetuan, Morocco. Laurent, Dominique, Patrick Séguéla, y Sophie Nègre. 2006. Cross lingual question answering using qristal for clef 2006. En CLEF 2006 Working Notes, Alicante, Spain. Mellebeek, Bart, Anna Khasin, Josef Van Genabith, y Andy Way. 2005. Transbooster: Boosting the performance of wide-coverage machine translation systems. En Proceedings of the EAMT 10th Annual Conference, páginas 189–198, Budapest, Hungary. Conclusions and Further Work Although the best MT systems obtained better results than the web-based translation selection, some important conclusions can be drawn: the use of the web does actually prove better than a static collection, thanks to the redundancy of the data. Another result is that the selection of a search engine is important in order to obtain better results. We have observed that QA questions contain many Named Entities, and that MT tools often fail to translate properly these NEs. This can be addressed by recurring to specialized dictionary of abbreviations and proper nouns. A further work may be the combination of such a dictionary together with the selection technique improved by means of an interpolated model for probability estimation as proposed by (Zhu y Rosenfeld, 2001) for the modeling of language in the world wide web. Papineni, K., S. Roukos, T. Ward, y J.W. Zhu. 2001. Bleu: a method for automatic evaluation of machine translation. Informe técnico, IBM Research Division, Thomas J. Watson Research Center. Shannon, Claude E. 1948. A mathematical theory of communication. Bell Systems Technical Journal, 27:379–423. Zhu, Xiaojin y Ronald Rosenfeld. 2001. Improving trigram language modeling with the World Wide Web. Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing. References Aceves-Pérez, Rita M., Luis VillaseñorPineda, y Manuel Montes. 2006. Using N-gram Models to Combine Query Translations in Cross-Language Question Answering. Lecture Notes in Computer Science, CiCLing 2006 Proceedings, 3878:453–457. 52 Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual ∗ Óscar Ferrández, Daniel Micol, Rafael Muñoz y Manuel Palomar Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante) Carretera San Vicente s/n 03690 Alicante España {ofe, dmicol, rafael, mpalomar}@dlsi.ua.es Resumen: Este artı́culo presenta dos aproximaciones para el reconocimiento del fenómeno de implicación textual, basadas principalmente en similitudes léxicas y árboles sintácticos. Dichas aproximaciones son fácilmente portables al reconocimiento de implicaciones textuales en diferentes idiomas. Se presentan resultados individuales para cada aproximación y además, se propone una votación simple entre estos métodos y nuestro sistema previo (presentado en Second PASCAL Recognising Textual Entailment), alcanzando una precisión del 63 %. Palabras clave: Implicación textual, similitud léxica, árboles sintácticos Abstract: This paper covers the recognition of textual entailment by means of different approaches based on lexical similarities and syntactic trees. These approaches are easily portable to other languages. We present the achieved results for each individual approach and we propose a simple voting strategy between these approaches and our previous system (presented in Second PASCAL Recognising Textual Entailment), obtaining an accuracy rate of 63 %. Keywords: Textual Entailment, lexical similarity, syntactic trees 1. Introducción La implicación textual define una relación entre dos expresiones en lenguaje natural. Estos pares de expresiones son definidos como texto e hipótesis, siendo el significado de la hipótesis el que debe ser inferido por el del texto. Resulta un tarea muy compleja, e integra diferentes niveles de conocimiento lingüı́stico (Bar-Haim, Szpecktor, y Glickman, 2005) como pueden ser el léxico, sintáctico y semántico. Además,en el Procesamiento del Lenguaje Natural (PLN) este fenómeno resulta extremadamente frecuente. Tal complejidad ha quedado patente en las dos ediciones de PASCAL Recognising Textual Entailment (RTE) (Dagan, Glickman, y Magnini, 2005; Bar-Haim et al., 2006), las cuales han introducido un marco común para la evaluación de implicaciones textuales. Los sistemas actuales usan diferentes estrategias combinando una gran variedad de herramientas PLN. Por ejemplo, es un hecho contrastado que el uso de n-gramas y coincidencias entre palabras (Pérez y Alfonseca, 2005), técnicas de tratamiento de árboles sintácticos ∗ Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME, dentro del Sexto Programa Marco de Investigación de la Unión Europea con referencia FP6-IST-033860, y CICyT número TIN2006-15265-C06-01. ISSN: 1135-5948 (Katrenko y Adriaans, 2006), inferencia lógica (Bos y Markert, 2006; Tatu et al., 2006) y algoritmos de aprendizaje automático para la clasificación (Bos y Markert, 2006; Adams, 2006) resulta apropiado para afrontar esta tarea. Este artı́culo presenta dos métodos independientes para resolver implicaciones textuales, uno basado principalmente en similitudes léxicas y otro que utiliza básicamente árboles sintácticos. Las estrategias de comparación y medidas de similitud utilizadas, dotan a los métodos de una fácil portabilidad a otros idiomas. Además, se presenta una estrategia de votación entre ellos y nuestro anterior sistema presentado en (Ferrández et al., 2006). El objetivo de proponer métodos independientes es afrontar la tarea desde diferentes puntos de vista (léxico y sintáctico) y ası́, desde entornos más delimitados, poder resolver mejor cada tipo de implicación. Una vez conseguido, seremos capaces de fusionar estos dos tipos de conocimiento de la manera más adecuada posible. El resto del artı́culo está organizado en las siguientes secciones. La sección 2 introduce los diferentes métodos. La evaluación y discusión de los resultados se muestran en la sección 3, y por último, las conclusiones y trabajos futuros se detallan en la sección 4. © Sociedad Española para el Procesamiento del Lenguaje Natural Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar 2. Métodos donde H es el conjunto que contiene los elementos de la hipótesis y match(i): Esta sección muestra los métodos desarrollados. Se detalla la aproximación basada en similitudes léxicas junto con todas las medidas utilizadas, y además se especifica otro método que contempla similitudes sintácticosemánticas entre árboles de dependencias. 2.1. match(i) = match(i) = (2) si ∃j ∈ T Lv(i, j) = 0, arg máx j∈T si @j ∈ T Lv(i, j) = 0∧ ∃k ∈ T Lv(i, k) = 1, 1 Lv(i, j) otro caso. (3) donde Lv(i, j) representa la distancia de Levenshtein entre las cadenas i y j. El peso destinado cuando Lv(i, j) = 1 ha sido obtenido empı́ricamente y los costes de inserción, borrado y sustitución fueron pesados con una unidad. · Emparejamiento de subsecuencias consecutivas: el objetivo de esta medida es asignar un peso muy significativo a la aparición de subsecuencias consecutivas de palabras entre la hipótesis y el texto. Para el desarrollo de esta medida, creamos todos los conjuntos posibles de subsecuencias consecutivas de la hipótesis, desde de tamaño dos (que contengan dos palabras) hasta subsecuencias del tamaño máximo de la hipótesis. Una vez creados estos conjuntos intentamos emparejarlos con sus análogos correspondientes al texto. Cada emparejamiento correcto supondrá la adición de una unidad en el peso final. La suma de los pesos obtenidos de los emparejamientos entre subsecuencias de un determinado tamaño es normalizada por el número de conjuntos de subsecuencias consecutivas de la hipótesis creados para esa longitud, y a su vez estos pesos son acumulados y normalizados por la tamaño de la hipótesis menos uno. Las siguientes ecuaciones definen la medida: match(i) |H| otro caso. 1 0,9 · Emparejamiento simple: consiste en una técnica de matching simple entre las palabras o tokens, lemas, stems o palabras funcionales, dependiendo de la estructura de datos utilizada, entre la hipótesis y el texto. Es inicializado a cero y si un elemento de la hipótesis aparece también en el texto, se incrementará en una unidad, en caso contrario no se producirá incremento. Al terminar los emparejamientos, el peso obtenido es normalizado dividiéndolo entre el número de elementos que posee la hipótesis. La Ecuación 1 define esta medida. EM P simple = 0 · Distancia de Levenshtein: similar a la medida anterior, diferenciándose únicamente en el cómputo de la función match(i), que en este caso es el siguiente: El siguiente método (DLSITE-1 ) afronta la tarea basándose en la extracción de un conjunto de medidas léxicas que muestren la similitud existente. A grandes rasgos, las medidas utilizadas se basan en las co-ocurrencias entre las palabras del texto y la hipótesis y en el contexto en el que aparecen. El primer paso, anterior al cálculo de las diferentes medidas léxicas, es tokenizar, lematizar, analizar morfológicamente y obtener las stems de las palabras para cada uno de los pares de textos. Completado este proceso, creamos diferentes estructuras de datos que contengan el conjunto de palabras o tokens1 , lemas o stems. También creamos dos estructuras adicionales, una que comprenda sólo palabras funcionales2 y otra considerando sólo aquellas que por su carga semántica son más relevantes3 . El siguiente paso es aplicar las medidas entre cada par de estructuras pertenecientes a cada par texto-hipótesis. Los siguientes párrafos detallan cada una de ellas. i∈H si ∃ j ∈ T i=j, siendo T el conjunto referente al texto. Basado en medidas léxicas X 1 (1) 1 |H| X Se refiere a la palabra tal cual aparece en el texto. Consideramos palabras funcionales a los verbos, nombres, adjetivos, adverbios, números y fechas. 3 En este caso solamente los verbos y nombres. 2 LCSmatch = 54 f (SHi ) i=2 |H| − 1 (4) Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual descripción de las mismas y como han sido integradas en el sistema. donde SHi contiene las subsecuencias de la hipótesis de tamaño i, y f (SHi ) se representa en la Ecuación 5. X f (SHi ) = · ROUGE-N: determina una cobertura basada en n-gramas entre la hipótesis y el texto (Ecuación 7). match(j) j∈SHi |H| − i + 1 (5) X ROUGE-N = siendo match(i) = Countmatch (gramn ) gramn ∈H X Count(gramn ) gramn ∈H 1 si ∃ k ∈ STi k=j, 0 otro caso. (7) (6) donde n indica el tamaño de los ngramas (gramn ), Countmatch (gramn ) el máximo número de n-gramas que aparecen en el texto y la hipótesis, y Count(gramn ) el número total de ngramas que contiene la hipótesis. Los ngramas son creados a partir de los tokens, stems, lemas y palabras funcionales del texto y la hipótesis. Además, los experimentos realizados con el corpus de desarrollo determinaron que los valores para n más apropiados son dos y tres. en este caso STi representa el conjunto que contiene las subsecuencias del texto de tamaño i. La principal caracterı́stica de esta medida consiste en considerar únicamente subsecuencias consecutivas, asignando mayor relevancia cuanto mayor tamaño posea la secuencia de tokens, lemas, stems o palabras funcionales consideradas. A su vez, las subsecuencias consecutivas de un mismo tamaño son tratadas con igual relevancia. · ROUGE-L: se basa en obtener la subsecuencia común más larga (the Longest Common Subsequence, LCS4 ) entre dos textos, LCS(T, H). Una vez calculada, la aplicamos basándonos en el cálculo de la medida F para estimar la similitud: · Tri-gramas: para esta medida, se crearon dos conjuntos que contuvieran todos los posibles tri-gramas de caracteres correspondientes al texto y a la hipótesis. Creados estos conjuntos, todas las ocurrencias de tri-gramas que aparecen en ambos incrementan el peso acumulado final en una unidad. Por último, este peso es normalizado por el número de tri-gramas obtenidos de la hipótesis. LCS(T, H) |T | LCS(T, H) = |H| ¡ ¢ 1 + β 2 · RLCS · PLCS = RLCS + β 2 · PLCS RLCS = PLCS · Las medidas ROUGE: las medidas ROUGE han sido previamente utilizadas para la evaluación automática de resúmenes y traducción automática (Lin, 2004). Considerando que las medidas ROUGE establecen diferentes situaciones de solapamiento entre textos obteniendo posibles similitudes léxicas entre ellos, y que dentro de la tarea de implicación textual el impacto de métricas capaces de detectar y valorar dichas situaciones es muy aconsejable, decidimos integrar dichas medidas a nuestro método. La implementación de estas medidas se llevó a cabo tal y como se muestra en (Lin, 2004). No obstante, en los siguientes párrafos se muestra una breve FLCS (8) donde β = 1, y T y H son los conjuntos del texto y la hipótesis, respectivamente. · ROUGE-W: similar a ROUGE-L con la diferencia de que utiliza una modificación de la LCS básica. Dicha modificación consiste en memorizar los tamaños de los emparejamientos consecutivos y quedarse con el mayor, W LCS(T, H). Las ecuaciones basadas en la medida F que la computan son las siguientes: 4 La subsecuencia común más larga no tiene por qué ser una subsecuencia consecutiva. 55 Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar µ está compuesto por un conjunto de módulos que se ejecutan secuencialmente, abordando tareas de construcción de árboles, filtrado, detección de árboles embebidos y cálculo de similitud entre ellos. Cada uno de los módulos del método propuesto (DLSITE-2 ) se describen en las siguientes subsecciones, numeradas según su orden de ejecución. A pesar de que la descripción del método se realiza mediante un ejemplo utilizando un análisis de dependencias para el inglés, la portabilidad a otros idiomas serı́a totalmente plausible (ver sección 2.3). ¶ W LCS(T, H) f (|T |) µ ¶ W LCS(T, H) −1 =f f (|H|) ¡ ¢ 1 + β 2 · RLCS · PLCS = RLCS + β 2 · PLCS RLCS = f −1 PLCS FLCS (9) donde f −1 es la inversa de f , que debe cumplir que f (x + y) > f (x) + f (y) para todos los enteros positivos5 . En nuestros experimentos hemos elegido f (k) = k 2 , f −1 (k) = k 1/2 y β = 1. 2.2.1. Construcción de árboles Construye los árboles de dependencias sintácticas correspondientes usando MINIPAR (Lin, 1998). Los tokens de la frase, junto con su respectiva información gramatical, son almacenados en una estructura de datos en memoria que representa un árbol equivalente al árbol de dependencias sintácticas. · ROUGE-S: basada en skip-ngramas. Un skip-ngrama es una combinación de n palabras en el orden en que aparecen en la frase, pero permitiendo saltos arbitrarios entre ellas. ROUGE-S mide los emparejamientos entre los skip-ngramas de la hipótesis y el texto, SKIPn (T, H), y como las anteriores se computa como sigue basándose en la medida F: SKIPn (T, H) C (|T |, n) SKIPn (T, H) = C (|H|, n) ¡ ¢ 1 + β 2 · RLCS · PLCS = RLCS + β 2 · PLCS 2.2.2. Filtrado de los árboles Construido el árbol, será conveniente descartar datos irrelevantes con el objetivo de reducir el tiempo de respuesta y el ruido de nuestro método. El Cuadro 1 muestra las categorı́as gramaticales relevantes, aquellos elementos cuya categorı́a no esté en dicha lista serán eliminados. El árbol resultante tendrá la misma estructura que el original, pero no contendrá palabras de parada ni tokens irrelevantes. La lista de categorı́as ignoradas está representada en el Cuadro 2. RLCS = PLCS FLCS (10) donde β = 1, C es una función combinatoria y n indica la longitud de los skip-gramas. Fueron desarrollados skipngramas con valores de n = 2 y n = 3, ya que valores de n más altos producı́an skip-ngramas con poco o ningún sentido. Verbos Verbo Have Verbo Be Be utilizado como verbo enlazante Sustantivos Números Adjetivos Adverbios Modificadores sustantivo a sustantivo Por último, todas estas medidas son interpretadas como caracterı́sticas para que un algoritmo de aprendizaje automático sea capaz de juzgar las relaciones de implicación entre cada par de textos. En nuestro caso, fue una máquina de soporte vectorial (Support Vector Machine, SVM (Witten y Frank, 2005)) la encargada de realizar esta labor. 2.2. Cuadro 1: Categorı́as relevantes. Basado en árboles sintácticos 2.2.3. Subárboles embebidos El siguiente paso de nuestro sistema consiste en determinar si el árbol de la hipótesis está embebido en el del texto. Para ello, primero vamos a definir el concepto de árbol embebido (Katrenko y Adriaans, 2006). Definición 1: Árbol embebido Un árbol El método propuesto en esta sección tiene como objetivo utilizar básicamente información sintáctica y de dependencias entre las palabras de una frase. Dicho método 5 Garantiza que emparejamientos consecutivos consiguen mejores puntuaciones que no consecutivos. 56 Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual Determinantes Pre-determinantes Post-determinantes Cláusulas Frases inflexivas Preposiciones y frases preposicionales Especificadores de frases preposicionales Verbos auxiliares Complementos hasta C3 , N2 es el número de nodos desde C2 hasta C3 , y N3 es el número de nodos desde C3 hasta la raı́z (ver Figura 1). Root N3 C3 N1 N2 Cuadro 2: Categorı́as gramaticales ignoradas. C1 Figura 1: Distancia entre dos synsets. T1 = (V1 , E1 ) está embebido en otro T 2 = (V2 , E2 ) sii V1 ⊆ V2 y E1 ⊆ E2 . En otras palabras, un árbol, T1 , está embebido dentro de otro, T2 , si todos los nodos y ramas de T1 están presentes en T2 . Tiene sentido reducir el nivel de exigencia de dicha definición permitiendo la aparición de nodos intermedios en las ramas del texto que no estén presentes en la correspondiente rama de la hipótesis, lo que significa permitir comparaciones parciales. Una coincidencia entre ambas ramas se producirá cuando todos los nodos del primer árbol, denominado θ1 ∈ E1 , estén presentes en el segundo, denominado θ2 ∈ E2 , y su respectivo orden sea el mismo, permitiendo la posibilidad de aparición de nodos intermedios que no estén presentes en ambas ramas. Esto está descrito en (Katrenko y Adriaans, 2006). Para determinar si el árbol de la hipótesis está embebido en el del texto, realizamos un proceso de comparación desde la raı́z hasta las hojas. Primero comparamos la raı́z de ambos árboles, y si coinciden, procedemos a comparar los hijos de dichos nodos. Para añadir mayor flexibilidad a nuestro sistema, no exigimos que el par de tokens sea exactamente idéntico. En lugar de esto, establecemos un umbral que representa el valor de similitud mı́nima entre ellos. Esto es una diferencia entre nuestro método y el descrito en (Katrenko y Adriaans, 2006). Dicha similitud se calcula utilizando la herramienta WordNet::Similarity (Pedersen, Patwardhan, y Michelizzi, 2004), y, concretamente, la medida de Wu-Palmer, tal como se define en la Ecuación 11 (Wu y Palmer, 1994). Sim(C1 , C2 ) = 2N3 N1 + N2 + 2N3 C2 Si el valor de la similitud es mayor o igual que el umbral, el cual hemos establecido empı́ricamente en 80 %, consideraremos al token de la hipótesis candidato a tener el mismo significado que el token del texto, y procederemos a comparar los nodos hijo del árbol de la hipótesis. Por otro lado, si dicha similitud es menor que el umbral, procederemos a comparar los nodos hijos de dicha raı́z del árbol del texto con el actual nodo de la hipótesis que estaba siendo analizado. La comparación entre los árboles de dependencias sintácticas finalizará cuando todos los nodos de alguno de los dos árboles hayan sido procesados. Si nuestro sistema ha sido capaz de encontrar un nodo equivalente para todos los pertenecientes a la hipótesis, el árbol correspondiente estará embebido en el del texto y decidiremos que hay implicación. En caso contrario, procederemos a ejecutar el siguiente módulo de nuestro método. 2.2.4. Comparación de árboles Finalizada la detección de árboles embebidos, y si el resultado es negativo, procederemos a realizar una comparación entre el árbol del texto y el de la hipótesis. Consiste en localizar pares de tokens en ambos árboles cuyos lemas sean exactamente iguales, independientemente de que estén en la misma posición dentro del árbol o no. El peso asignado a un token que se encuentra en ambos árboles dependerá de la similitud con el perteneciente al árbol complementario, su profundidad en el árbol de la hipótesis y la relevancia del token. El primero de estos factores se calcula utilizando la herramienta WordNet::Similarity. El segundo depende de un peso calculado empı́ricamente que asigna menos importancia a un nodo cuanta más profundo esté (definido en la Ecuación 12). Y el tercer factor asigna dife- (11) donde C1 y C2 son los synsets a calcular su similitud, C3 es su superconcepto común más cercano, N1 es el número de nodos desde C1 57 Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar rente relevancia dependiendo de la categorı́a gramatical. Los valores de cada categorı́a gramatical son también calculados empı́ricamente y se muestran en el Cuadro 3. Categorı́a gramatical Verbos Sustantivos Números Be usado como verbo enlazante Adjetivos Adverbios Modificadores sustantivo a sustantivo Verbo Have Verbo Be ψ(τ, λ) = (13) Un requerimiento de la medida de similitud es no depender del tamaño de la hipótesis. Para ello, definimos la tasa de similitud normalizada como muestra la Ecuación 14. Peso 1,0 0,75 0,75 0,7 0,5 0,5 0,5 X φ(ν) ψ(τ, λ) ν∈ξ = X ψ(τ, λ) = X φ(β) φ(β) 0,3 0,3 β∈λ (14) β∈λ Una vez calculado el valor de la similitud, ψ(τ, λ), éste será el que determinará si se produce o no implicación. Será necesario establecer un umbral apropiado que represente la tasa de similitud mı́nima. En nuestros experimentos sobre el corpus de desarrollo este umbral es establecido en 68.9 %, consiguiendo este valor los mejores resultados. El último factor otorga diferente grado de relevancia dependiendo de la relación gramatical. El Cuadro 4 muestra los valores calculados empı́ricamente para cada relación. Peso 1,0 1,0 1,0 1,0 0,5 2.3. Aplicabilidad multilingüe Uno de los objetivos de esta investigación es aplicar el sistema propuesto a diversas lenguas e incluso detectar posibles implicaciones entre lenguas, es decir disponer del par textohipótesis, el texto en un idioma, la hipótesis en otro y detectar la implicación de significados. Para ello, tanto sólo serı́a necesario adaptar una serie de herramientas especı́ficas para cada lengua. Respecto a los métodos y similitudes léxicas serı́a necesario disponer de un analizador morfológico, un lematizador y un stemmer, mientras que para detectar similitudes sintácticas necesitarı́amos un analizador de dependencias y un recurso léxico-semántico como WordNet. En cuanto a las estrategias de construcción y comparación de medidas léxicas y árboles sintácticos se mantendrı́an idénticas. Debido a la amplia gama disponible de recursos con estas caracterı́sticas, la portabilidad de nuestro sistema a otras lenguas resultarı́a totalmente plausible. De hecho, y como objetivo para probar dicha portabilidad, tenemos previsto participar en la tarea Answer Validation Exercise (Peñas et al., 2006) (AVE) dentro del marco de las conferencias CLEF, consistente en detectar implicaciones textuales derivadas de validaciones de posibles respuestas obtenidas a partir de sistemas de Question Answering. Cuadro 4: Pesos asignados a cada relación. Sean τ y λ los árboles de dependencias sintácticas del texto y la hipótesis, respectivamente. Asumimos que hemos encontrado un synset, β, presente en τ y en λ. Sea γ el peso asignado a la categorı́a gramatical de β (definida en Cuadro 3), σ el peso de su relación gramatical β (definido en Cuadro 4), µ un valor calculado empı́ricamente que representa la diferencia de peso entre niveles del árbol, y δβ la profundidad del nodo que contiene el synset β en λ. Definimos la función φ(β) como se refleja en la Ecuación 12. φ(β) = γ · σ · µ−δβ φ(ν) ν∈ξ Cuadro 3: Pesos asignados a cada categorı́a. Relación gramatical Sujeto Sujeto superficial Objeto Segundo objeto en distransitivos Resto X (12) El valor obtenido al calcular la expresión de la Ecuación 12 representará la relevancia de un synset. Los experimentos realizados demuestran que el valor óptimo para µ es 1,1. Para un par (τ , λ), definimos el conjunto ξ como aquél que contiene todos los synsets presentes en ambos árboles, esto es, ξ = τ ∩ λ ∀α ∈ τ, β ∈ λ. Ası́ pues, la tasa de similitud entre τ y λ será: 58 Técnicas léxico-sintácticas para el reconocimiento de Implicación Textual Sistema (Hickl et al., 2006) (Tatu et al., 2006) (Zanzotto et al., 2006) TEUA (Adams, 2006) DLSITE-1 (Bos y Markert, 2006) DLSITE-2 ... (Ferrández et al., 2006) overall 0.7538 0.7375 0.6388 0.6300 0.6262 0.6188 0.6162 0.6075 Precisión IE 0.7300 0.7150 – 0.5300 0.505 0.5300 0.505 0.5050 (corpus de test) IR QA 0.7450 0.6950 0.7400 0.7050 – – 0.6600 0.5800 0.595 0.685 0.6300 0.5550 0.660 0.565 0.6450 0.5950 SUM 0.8450 0.7900 – 0.7500 0.720 0.7600 0.735 0.6850 0.5563 0.4950 0.5800 0.5400 0.6100 Cuadro 5: Comparativa de resultados sobre el corpus de test de RTE-2. 3. 4. Evaluación y resultados Para evaluar nuestros métodos, el marco más adecuado es el proporcionado en las dos ediciones de PASCAL RTE Challenge. En ambas se proporciona corpus de desarrollo y test anotados manualmente manteniendo una distribución equitativa entre los pares negativos y positivos extraı́dos de aplicaciones como Extracción de Información (EI), Recuperación de Información (RI), Búsquedas de Respuestas (BR) y Resúmenes automáticos (SUM). Para ajustar los métodos a la tarea, se utilizó los corpus de desarrollo de las dos ediciones de RTE (RTE-1 y RTE-2), mientras que la evaluación fue realizada con el corpus de test propuesto en la segunda edición. El Cuadro 5 muestra una comparativa con los sistemas que participaron en RTE-2, en nuestro caso la votación (TEUA) hubiese obtenido un cuarto puesto con una precisión de 63 %. Para realizar la votación entre los métodos de las secciones previas y el sistema anterior que poseı́amos, se implementó una estrategia simple estableciendo el resultado final con el máximo de votos producidos. Los resultados revelan que tanto los métodos independientemente (DLSITE-1 y DLSITE-2 ) como la estrategia de votación conjunta resultan apropiados. El hecho de tratar diferentes niveles lingüı́sticos de una manera aislada, es un planteamiento más adecuado que el que seguı́amos en nuestro anterior sistema utilizando diversas fuentes de conocimiento semántico. Por supuesto, los diferentes conocimientos (léxico, sintáctico y semántico) deben de ser utilizados de forma interrelacionada, pero teniendo un planteamiento previo e independiente para cada uno de ellos será una labor menos tediosa y mucho más acertada. Conclusión y trabajos futuros En este artı́culo se presentan dos métodos para la resolución de implicaciones textuales. Estos métodos se basan en afrontar la tarea desde un entorno cerrado. El primero de ellos teniendo en cuenta únicamente similitudes léxicas y el segundo considerando básicamente relaciones sintácticas. Las técnicas y medidas de similitud utilizas en ambos métodos, permiten su portabilidad a otros idiomas. El objetivo es desarrollar métodos robustos capaces de resolver la tarea desde diferentes puntos de vista, para a posteriori fusionar estos conocimientos en un único sistema. Además, aprovechando el desarrollo previo del sistema presentado en (Ferrández et al., 2006), se propone una estrategia de votación simple que mejore los resultados individuales de cada método. Como trabajos futuros, se plantea la fusión de los dos métodos (léxico y sintáctico) de una manera colaborativa más que una simple votación, por ejemplo de forma que interactúen los diferentes niveles de análisis apoyándose entre sı́ para reconocer tipos de implicaciones que pudieran afrontarse mediante información léxica y sintáctica. Con el objetivo de valorar la portabilidad de dichos métodos, se pretende llevar a cabo una evaluación sobre implicaciones textuales en diferentes idiomas e incluso implicaciones entre lenguas. Por otro lado, se pretende crear otros métodos que tengan una mayor carga semántica. Por ejemplo, la adición de sinónimos u otras relaciones semánticas, ası́ como técnicas que ayuden a representar conocimiento como reconocedores de entidades y etiquetadores de roles, podrı́an resultar de gran ayuda siempre que sean utilizadas de la manera adecuada. 59 Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar Bibliografı́a Lin, Chin-Yew. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. En Stan Szpakowicz MarieFrancine Moens, editor, Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, páginas 74–81, Barcelona, Spain, July. Association for Computational Linguistics. Adams, Rod. 2006. Textual Entailment Through Extended Lexical Overlap. En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 128–133, Venice, Italy. Bar-Haim, R., I. Szpecktor, y O. Glickman. 2005. Definition and analysis of intermediate entailment levels. En Proceedings of the ACL Workshop on Empirical Modeling of Semantic Equivalence and Entailment, páginas 55–60, Ann Arbor, Michigan. Lin, Dekang. 1998. Dependency-based Evaluation of MINIPAR. Workshop on the Evaluation of Parsing Systems. Peñas, Anselmo, Álvaro Rodrigo, Valentı́n Sama, y Felisa Verdejo. 2006. Overview of the Answer Validation Exercise 2006. En Working Notes for the CLEF 2006 Workshop, Alicante, Spain. Bar-Haim, Roy, Ido Dagan, Bill Dolan, Lisa Ferro, Danilo Giampiccolo, Bernardo Magnini, y Idan Szpektor. 2006. The Second PASCAL Recognising Textual Entailment Challenge. Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment. Pedersen, Ted, Siddharth Patwardhan, y Jason Michelizzi. 2004. WordNet::Similarity - Measuring the Relatedness of Concepts. En Proceedings of the Nineteenth National Conference on Artificial Intelligence (AAAI-04), San Jose, CA, July. Bos, Johan y Katja Markert. 2006. When logical inference helps determining textual entailment (and when it doesn’t). En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 98–103, Venice, Italy. Pérez, Diana y Enrique Alfonseca. 2005. Application of the Bleu algorithm for recognising textual entailments. En Proceedings of the PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 9–12, Southampton, UK, April. Dagan, Ido, Oren Glickman, y Bernardo Magnini. 2005. The PASCAL Recognising Textual Entailment Challenge. En Proceedings of the PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 1–8, Southampton, UK. Tatu, Marta, Brandon Iles, John Slavick, Adrian Novischi, y Dan Moldovan. 2006. COGEX at the Second Recognizing Textual Entailment Challenge. En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 104–109, Venice, Italy. Ferrández, Oscar, Rafael M. Terol, Rafael Muñoz, Patricio Martı́nez-Barco, y Manuel Palomar. 2006. An approach based on Logic Forms and WordNet relationships to Textual Entailment performance. En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 22–26, Venice, Italy. Witten, Ian H. y Eibe Frank. 2005. Data Mining: Practical machine learning tools and techniques. 2nd Edition, Morgan Kaufmann, San Francisco. Wu, Zhibiao y Martha Palmer. 1994. Verb Semantics and Lexical Selection. En Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics, páginas 133–138, Las Cruces, New Mexico, United States of America. Hickl, Andrew, Jeremy Bensley, John Williams, Kirk Roberts, Bryan Rink, y Ying Shi. 2006. Recognizing Textual Entailment with LCC’s GROUNDHOG System. En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 80–85. Zanzotto, F.M., A. Moschitti, M. Pennacchiotti, y M.T. Pazienza. 2006. Learning textual entailment from examples. En Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 50–55, Venice, Italy. Katrenko, Sophia y Pieter Adriaans. 2006. Using Maximal Embedded Syntactic Subtrees for Textual Entailment Recognition. Proceedings of the Second PASCAL Challenges Workshop on Recognising Textual Entailment, páginas 33–37. 60 Alineamiento de Entidades con Nombre usando distancia léxica1 Rafael Borrego Ropero Víctor Jesús Díaz Madrigal Dpto. Lenguajes y Sistemas Informáticos (Universidad de Sevilla) {rborrego, vjdiaz }@lsi.us.es Resumen: En este artículo se presenta un sistema para asistir en el etiquetado de entidades con nombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticas usadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, se ha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajes cercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar los resultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir de una secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma. Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden ser adaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común. Palabras clave: Alineamiento, Etiquetado de entidades, Edit distance, Corpora bilingüe Abstract: In this article a system is presented to help in labelling named entities and meaningful words in bilingual parallel corpora. Besides the strategies used frequently in the alignment of corpora based on word frequency and position, it has been taken advantage of the high lexicographical similarity among words in nearby languages as Spanish and French to use the algorithm Edit Distance. After studying the results of these techniques, a system of voting has been defined that given a set of words in a language, an equivalent set in another language is proposed. As these techniques are not based on a previous knowledge of the languages, they can be used to label any pair of languages that share a common branch. Keywords: Alignment, Name Entity Recognition, Edit distance, Bilingual corpora 1 Introducción Dado un corpora bilingüe, el alineamiento de textos [3] consiste en identificar qué partes - por ejemplo: párrafos, frases o palabras - de un corpus se corresponden con las del otro. En la literatura se han propuesto diversas técnicas para el alineamiento de corpora ya que es una tarea de gran utilidad en la asistencia a la traducción. En este caso, se propone usar heurísticas aplicadas en el alineamiento de corpora para relacionar entidades con nombre. El reconocimiento de entidades con nombre [5] (NER, Named Entity Recognition) es una tarea de especial relevancia para la compresión de un texto. El objetivo que persigue un sistema NER es la identificación y clasificación en un texto de todos aquellos sintagmas que hacen referencia a nombres de personas, lugares y organizaciones. La tarea NER es crucial en la 1 resolución de otros problemas más complejos como la extracción de información. En este artículo se mostrará cómo se pueden mejorar los resultados en el alineamiento de entidades con nombre y de palabras relevantes en un determinado dominio aprovechando el gran parecido que hay entre palabras de varios idiomas con un tronco común. El sistema ha sido probado sobre un corpora bilingüe con varios centenares de frases en español y francés. Los documentos originales son noticias en francés de temas económicos que han sido traducidas después al español por un experto. El sistema sigue un proceso similar al que haría una persona para comparar dos textos en distintos idiomas. Primero se procede a una segmentación del texto en párrafos, frases y palabras apoyándose en la información aportada por distintos signos de puntuación. Después son aplicadas heurísticas para determinar la relación Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03) ISSN: 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal cada fichero para ver si seguían una correspondencia 1:1. Este tipo de proporción nos indica cómo de fiel ha sido la traducción y cómo de cercana es la posición de cada palabra a la de su equivalente en el otro idioma. Se comprobó que de los 23 archivos iniciales, sólo 18 contenían una correspondencia 1:1 en cuanto a frases, por lo que se descartaron los otros cinco. Tras ese primer filtrado, se dividió el corpora en 2 conjuntos de ficheros: uno de entrenamiento, que incluía el 90% de las frases (362 en cada idioma) , y otro de test con el 10% restante (51 frases). Esta división se hizo tanto para hacer las pruebas finales (test) como para ajustar los parámetros del sistema (entrenamiento). Las tablas 1 y 2 muestran el número de ficheros, párrafos y frases para cada uno de los corpus. existente entre elementos lingüísticos. Trabajos anteriores [1] [2] demuestran el éxito obtenido aplicando técnicas basadas en la posición en la que figura cada palabra junto con su frecuencia de aparición. El sistema propuesto se apoya además en la similitud de palabras medida en función del resultado de aplicar el algoritmo Edit Distance [4]. Aunque en un caso general la similitud de palabras no es un factor esencial, ésta si puede ser de gran utilidad cuando tratamos con corpora en dominios muy específicos o cuando tratamos de establecer relaciones entre entidades con nombre. La razón de esta mejora se debe a que dicha terminología tiene en numerosas ocasiones un mismo origen lingüístico o histórico. Dado que no se han usado conocimientos previos del corpora ni de ninguno de los dos lenguajes, esta técnica es susceptible de ser aplicada a cualquier colección de documentos español-francés o a otros corpora bilingüe con similares características. 2 Corpora Training Test Ficheros 18 16 2 Párrafos 134 121 13 Frases 419 377 42 El córpora utilizado Tabla 1. Datos del corpus en español Para los experimentos se ha usado un corpora bilingüe español-francés obtenido a partir de varios artículos del diario francés Le Monde y Le Monde Economie. Los artículos fueron reetiquetados con XML mostrando primero la introducción y a continuación los párrafos en los dos idiomas. Tras eso, se procedió a dividir el corpora en frases y palabras, indexando sus posiciones de inicio y fin en los párrafos. La división en frases se hizo teniendo en cuenta la posición de los caracteres ‘.’. La división de las palabras se hizo a partir de la división anterior teniendo en cuenta los espacios en blanco, signos de interrogación, de exclamación, etc. Aunque existen casos en los que esta forma de proceder genera errores en la interpretación de palabras, estos errores fueron ignorados debido a que su número era muy inferior en comparación con el tamaño del corpora. Tras analizar estos ficheros y ver que todos tenían una estructura común, se comprobó que todos los párrafos del corpora guardaban una correspondencia 1:1 (cada párrafo del corpus en francés se correspondía con un único párrafo en el corpus en español), lo cual es una gran ventaja ya que evitó que se tuviera que usar algoritmos para relacionar párrafos. Posteriormente, se filtraron los corpus y se hizo una comparación del número de frases de Corpora Training Test Ficheros 18 16 2 Párrafos 134 121 13 Frases 419 377 42 Tabla 2. Datos del corpus en francés Una vez dividido el corpora, se calculó la frecuencia de cada palabra en cada corpora (ver tabla 3 y 4). Corpora Training Test Palabras 9425 8488 937 Palabras únicas 2509 2346 443 Tabla 3. Palabras en el corpus en español Corpora Training Test Palabras 9389 8440 949 Palabras únicas 2496 2328 455 Tabla 4. Palabras en el corpus en francés Además, se hizo un estudio para ver si las frases contenían un número de palabras similar en ambos idiomas. Se vio que las frases del corpus en español contenían de media sólo 0.089 palabras más que las frases del corpus en 62 Alineamiento de Entidades con Nombre usando distancia léxica numerosas palabras como “semana” (“semaine” en francés) que presentan un alto parecido, por lo que la distancia entre una palabra y su equivalente es muy baja. No obstante, da problemas al traducir palabras que no guardan correspondencia en el otro idioma como “Estados Unidos” (“Etat-Units” en francés) ya que intenta una primera comparación de “Estados” con “Etat-Units”, y posteriormente “Unidos” con “Etat-Units”, fallando para ambas. francés. En aquellas frases del corpus en español que tenían más palabras que la correspondiente en el corpus en francés, había 0.89 palabras más de media. En aquellas frases del corpus en francés que tenían más palabras que la correspondiente en el corpus en español había 0.80 palabras más de media. Por tanto, el tamaño de las frases era muy parecido. 3 Heurísticas A continuación, se expondrán las heurísticas utilizadas para buscar la traducción de una palabra en el otro idioma. Primero se indicará la basada en Edit Distance, a continuación la basada en análisis de frecuencia, y finalmente la técnica basada en la posición. Tras ello, se comentarán los resultados iniciales de probar éstas heurísticas, para finalmente mostrar el sistema de votación utilizado que combina dichas tres técnicas. 3.1 Basada en análisis de frecuencia 3.2 Para realizar esta heurística, se debe calcular para cada palabra w el número de veces que aparece w en todo el corpora y en cada fichero. Si la traducción tiene un alto parecido con el original, el número de veces que aparece una palabra en ambos idiomas es muy similar. Por ello, cuando se selecciona una palabra en un corpus, se buscan todas aquellas del párrafo correspondiente en el otro corpus que tienen una frecuencia de aparición parecida. Esta heurística da buenos resultados en palabras con un número medio de repeticiones. En palabras con frecuencia baja la heurística devuelve demasiadas palabras candidatas. En el caso de palabras con frecuencia alta aparece el fenómeno de las palabras huecas, como pueden ser los determinantes o preposiciones, cuya traducción da lugar a demasiadas soluciones. Con objeto de mejorar los resultados, esta heurística es sólo aplicable en el caso de palabras cuya frecuencia no está situada en estos dos casos extremos. Basada en cercanía léxica El algoritmo Edit Distance (también conocido como Levenshtein distance) permite averiguar el mínimo coste para transformar una cadena en otra, ya sea añadiendo o eliminando caracteres, o cambiando uno por otro. Esta medida servirá de apoyo para determinar el parecido lexicográfico de pares de palabras. Por ejemplo, para transformar la palabra “semana” en “semaine” se necesita eliminar el carácter ‘i’ de “semaine”, y cambiar el último carácter , “e” por “a”. El algoritmo Edit Distance establece una distancia o una métrica de similitud entre palabras. El valor final de esta distancia varía en función del coste asociado a cada operación de edición (añadir, borrar, cambiar). En este caso se ha aplicado un mismo coste a todas las operaciones de edición. La forma de empleo de esta heurística es la siguiente: dada una palabra en uno de los corpus, el sistema aplica el algoritmo Edit Distance a todas las palabras del párrafo equivalente en el otro corpus. El resultado final está constituido por aquellas palabras con mayor similitud, es decir, con un valor de distancia menor. Esta medida da muy buenos resultados para buscar entidades como lugares, nombres de personas o empresas, u organismos, ya que muchas de ellas son traducidas de forma muy similar o con pocas variaciones. Además, hay Basada en análisis de posición 3.3 En la basada en la posición, tras seleccionar una palabra en un corpus, se busca su posición respecto al párrafo al que pertenece. Tras eso, se busca en el párrafo 2 equivalente la palabra que ocupa su posición. A esta palabra se le añaden las de su entorno (la anterior y la siguiente). Esta medida da buenos resultados cuando existe un gran parecido entre las estructuras sintácticas de ambos idiomas y cuando la traducción ha sido relativamente fiel. Otro factor que influye en la bondad de esta heurística es que el tamaño de las frases en los 2 Los resultados de esta heurística aplicando la búsqueda sobre la frase equivalente en lugar del párrafo arrojó peores resultados, por lo que se optó finalmente buscar en el párrafo. 63 Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal Se observa claramente como la heurística que usa el algoritmo Edit Distance es la que da mejores resultados, y que el sistema de votación ponderada eleva los resultados del 30% al 70%. Sin embargo, estos resultados deben ser tomados con cautela, y por tanto, no deberían ser generalizados, ya que se ven notablemente influidos por dos razones: la fidelidad en la traducción y que los artículos contienen un conjunto importante de palabras similares relacionadas con el dominio económico. corpora sea proporcional (como sucede en este caso, según se dijo anteriormente). 3.4 Sistema de votación Cada una de estas heurísticas devuelve un conjunto de palabras candidatas. Para mejorar los resultados individuales de cada heurística se definió un sistema de votación ponderada. A una misma palabra se le aplican todas las heurísticas de forma que se genera un conjunto (con posibles repeticiones) de palabras candidatas. Finalmente, la palabra escogida es aquella con mayor multiplicidad (que ha sido seleccionada por más heurísticas). La votación puede ser simple o ponderada dependiendo de que el peso del voto de cada heurística sea igual o no. Con un sistema de votación se intenta escoger aquella palabra que más se ajusta de forma global a las tres características propuestas: cercanía léxica, posición y frecuencia. La votación ponderada permite dar mayor realce a aquellas heurísticas cuyo comportamiento sea más fiable. Para ajustar el valor de los parámetros de ponderación y para escoger la mejor heurística para cada heurística se hizo un análisis previo aplicando las distintas heurísticas sobre una palabra aleatoria de cada párrafo del conjunto de entrenamiento. A partir de los resultados obtenidos se obtuvieron los factores de ponderación para decidir qué peso se le daba en la votación a las palabras devueltas por cada una de las tres técnicas. Estos factores se obtuvieron calculando el porcentaje de aciertos de cada una. 3.5 Edit Posición Frecuencia Votación distance Total 96 99 21 60 Aciertos 27 18 3 42 % aciertos 28,13% 18,18 % 14,29 % 70 % Tabla 5. Resultados heurísticas español a francés Edit Posición Frecuencia Votación distance Total 98 99 80 62 Aciertos 30 17 9 44 % aciertos 30,61% 17,17% 11,25 % 70,97 % Tabla 6. Resultados heurísticas francés a español 4 Búsqueda de entidades El sistema de votación anterior permite el alineamiento de palabras. Este sistema puede ser extendido para detectar grupos de palabras que representan entidades como nombres compuestos por varias palabras (como “Pascal Blanqué”), o fechas (como “semaine du 8 décembre”). El objetivo es alinear entidades no triviales donde el orden de las palabras cambie ligeramente al traducirlas, o que contengan un número diferente de palabras, como “mercados de acciones”, que se traduce como “marchés actions”, que tiene una palabra menos. Dada una secuencia consecutiva de palabras T=w1…wn de un párrafo en uno de los corpus, el método para buscar su alineamiento es el siguiente: sea ci la palabra ofertada por el sistema de votación para traducir la palabra wi. De aquí se sigue que la traducción propuesta es un conjunto C de palabras {c1,…,cn}. Ahora bien, ha de tenerse en cuenta que ese conjunto no tiene porqué estar ordenado por posición. Es decir, si i<j, la palabra ci no tiene porqué estar antes que la palabra cj en el corpus paralelo. Resultados de las técnicas Se escogieron 60 palabras repartidas de forma aleatoria y uniforme entre todos los párrafos del corpus. Se calcularon las traducciones de cada palabra para cada una de las tres heurísticas y para el sistema de votación, y se comprobó si las traducciones devueltas eran correctas o no. Los resultados obtenidos por las heurísticas junto con el sistema de votación pueden verse en las tablas 5 y 6. En ellas se ve, para cada técnica, el número total de palabras escogidas, cuántas de ellas fueron aciertos, y el porcentaje de aciertos. La diferencia entre el número de palabras total se debe a que mientras que la votación escoge como mucho un candidato, las otras técnicas pueden devolver varias o incluso ninguna candidata . 64 Alineamiento de Entidades con Nombre usando distancia léxica los archivos del corpora). En el caso de pasar de español a francés, se seleccionaron 147, y hubo 110 aciertos, por lo que el porcentaje de aciertos es 74,83 %. En el caso de pasar de francés a español, se seleccionaron 132, y hubo 98 aciertos, por lo que el porcentaje de aciertos es 74,24 %. Por tanto, en ambos casos se ha obtenido un porcentaje de éxito superior al 74 %. Para obtener un segmento alineado contiguo se toman, de todas las candidatas, la que aparece primera y la que aparece la última respecto a la posición en el texto. El segmento propuesto es el intervalo de todas las palabras contenidas entre ambas dos. De esta forma, si el usuario selecciona un conjunto de palabras que se traduzca como “BNP Paribas Asset Management” , el sistema elegiría “BNP” y “Management”, y a partir de ahí obtendría el resto de palabras que están entre esas dos. Dado que el algoritmo Edit Distance devuelve todas las palabras que se parecen, y que la basada en la frecuencia en ocasiones devuelve muchas palabras candidatas con frecuencia parecida, en numerosos casos se encuentra una palabra cuyo contenido coincide con el buscado, pero en otra posición distinta del párrafo (por ejemplo, la palabra “de” aparece varias veces en muchos párrafos). Para eliminar este efecto, se hace un análisis de las palabras más frecuentes sin contenido semántico (palabras huecas) de forma que al buscar las palabras del intervalo se ignoran. 5 Total Aciertos Porcentaje aciertos Fichero 1 80 56 70 % Fichero 2 67 54 80,56 % Total 147 110 74,83 % Tabla 7 Resultados entidades español a francés Total Aciertos Porcentaje aciertos Fichero 1 68 49 72,05 % Fichero 2 64 49 76,56 % Total 132 98 74,24 % Tabla 8 Resultados entidades francés a español Resultados Para ayudar a la anotación de entidades se ha desarrollado un sistema que permite al usuario cargar y visualizar los ficheros del corpora. Según se van cargando, el sistema se encarga de indexar los elementos necesarios y generar las estadísticas. Una vez cargados todos, se muestra un árbol del directorio, y al ir pulsando en los distintos elementos se muestra una ventana en la que se puede ver simultáneamente el texto en ambos idiomas. Además, según se va seleccionando el texto en un idioma, el sistema colorea la frase equivalente en el otro idioma, baja el scroll para que muestre el texto coloreado, y se ofrece la traducción del texto seleccionado. Además, en cualquier momento el usuario puede ver estadísticas sobre el corpora y sobre cada fichero (número de frases, palabras, frecuencias...). En el caso de las pruebas para buscar entidades, se tuvo con la dificultad de que el corpus no estaba previamente etiquetado. Por este motivo, se ha trabajado con un conjunto de entidades y palabras que han parecido relevantes del conjunto de ficheros de test. Las entidades incluyen nombres de personas, empresas, lugares, y otras relacionadas con economía (materia sobre la que versaban todos 6 Conclusiones Este documento ha presentado una serie de técnicas para realizar alineamiento de palabras en corpora bilingüe mostrando como puede mejorarse los resultados utilizando un algoritmo de comparación de palabras en corpus de idiomas cercanos, respecto a otros que sólo realizan análisis de frecuencia o por posición. Tras ello, se han mostrado los resultados de aplicar con éxito estas técnicas a un corpora bilingüe en español y francés, obteniendo un 70% de éxito en la traducción por palabras, y un 74% en la traducción de entidades. Finalmente, se ha indicado como el sistema desarrollado permite encontrar no solo aquellas palabras equivalentes en el otro idioma, sino que además permite localizar entidades y palabras relevantes dentro de un contexto. Gracias a esto, constituye una útil herramienta para etiquetar corpora bilingües, ya que facilita al usuario la búsqueda de traducciones, y la visualización del contenido de dicho corpora. 65 Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal 7 Líneas de trabajo futuro Existen numerosas líneas de trabajo relacionadas con las técnicas presentadas en este artículo. En primer lugar, es necesario un estudio de los resultados con otros corpora, ya que los resultados actuales pueden estar influidos: por el tamaño del corpora (el utilizado en las pruebas es claramente insuficiente), por el contexto (en este caso sólo se han usado artículos de economía), y por el idioma (en este caso se han contemplado dos idiomas cercanos, por lo que los resultados podrían cambiar al comparar otros idiomas como español con inglés). Por otro lado, sería interesante comprobar qué influencia tendría en los resultados la incorporación de otras técnicas probabilísticas más complejas como modelos de Máxima Entropía o Máquinas de Soporte Vectorial (SVM). 8 Bibliografía P.F. Brown , J.C. Lai y R.L. Mercer. (1991) Aligning sentences in parallel corpora, Proceedings of the 29th annual meeting on Association for Computational Linguistics. pp 169-176 W.A. Gale y K.W. Church. (1993) A program for aligning sentences in bilingual corpora. Computational Linguistics archive.Volume 19 , Issue 1 .Special issue on using large corpora. Páginas 75 – 102 C.D. Manning y H. Schuetze. (2001). Statistical Alignment and Machine Translation. En Foundaditons of Statistical Natural Language Processsing, pp 462-494, MIT Press: Cambridge. W. J. Masek y M. S. Paterson (1980). A spaceeconomical computing string edit distance. Journal of Computer Science, 20. pp 262— 272. E.F. Tjong (2002): Introduction to the CoNLL'02 Shared Task: LanguageIndependent Named Entity Recognition. Proc. Of CoNLL-2002}. Taiwan pp 155-158 66 Anotación semiautomática con papeles temáticos de los corpus CESS-ECE M. Antònia Martí Antonín Centre de Llenguatge i Computació Universitat de Barcelona Mariona Taulé Delor Centre de Llenguatge i Computació Universitat de Barcelona [email protected] [email protected] Lluís Màrquez Centre de Recerca TALP Universitat Politècnica de Catalunya Manuel Bertran Centre de Recerca TALP Universitat Politècnica de Catalunya [email protected] [email protected] Resumen: En este artículo se presenta la metodología seguida en el proceso de anotación semántica automática (estructura argumental y papeles temáticos de los predicados verbales) del corpus CESS-ECE-CAT/ESP, así como la evaluación de los resultados obtenidos. A partir de un léxico verbal (1.482 verbos) con información sobre las funciones sintácticas de cada verbo y su proyección temático-argumental, se ha anotado automáticamente el treebank CESS-ECE aplicando un conjunto de reglas simples sobre los árboles sintácticos. Se ha conseguido anotar automáticamente el 60% de los argumentos y papeles temáticos, con un error muy bajo (inferior al 2%). Este índice de calidad elevado permite usar la presente metodología para semiautomatizar el proceso de anotación semántica del corpus, con el consiguiente ahorro en tiempo de anotación manual. Una vez completada la anotación este corpus podrá ser utilizado como fuente de información para los sistemas de anotación automática de papeles temáticos. Abstract: In this paper we present the methodology followed in the automatic semantic annotation (argument structure and thematic roles of the verbal predicates) of the CESS-ECECAT/ESP corpus. Building from a verbal lexicon (1,482 entries) with information about the syntactic functions and their projection to arguments and thematic roles, we present a set of simple rules to automatically enrich syntactic trees with semantic information. This procedure permits to automatically annotate 60% of the expected arguments and thematic roles with a fairly low error rate (below 2%). Given the high quality of the obtained results, we claim that this methodology provides substantial savings in manual annotation effort and allows a semiautomatic approach to corpus annotation. Once completed, the CESS-ECE corpus will permit researchers to develop complete systems for automatic Semantic Role Labeling of Catalan and Spanish. 1 Introducción La anotación lingüística de corpus textuales de gran volumen es una tarea que requiere un gran esfuerzo en tiempo y recursos humanos. Cuando se pretende realizar el proceso de forma rigurosa y la anotación lingüística implica el tratamiento de información compleja (sintaxis completa con funciones sintácticas, información semántica, etc.) el esfuerzo a realizar es, si cabe, aún mayor. Por este motivo, cualquier proceso que implique la automatización parcial de los procesos de anotación va ser de una gran ISSN: 1135-5948 ayuda. Entendiendo que el proceso automático no puede sustituir en ningún caso el trabajo manual, sí puede representar una herramienta de ayuda que permita ahorrar una gran cantidad de tiempo y dinero. Para que este ahorro sea efectivo, es imprescindible que la anotación automática sea de una calidad suficiente como para que el esfuerzo de revisión manual de la anotación automática sea netamente inferior al proceso de anotación desde cero. En este artículo se presenta la metodología seguida en el proceso de anotación semántica automática (estructura argumental y papeles temáticos) de los predicados verbales del corpus © Sociedad Española para el Procesamiento del Lenguaje Natural M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran CESS-ECE-CAT/ESP 1 , en adelante simplemente CESS-ECE, así como la evaluación de los resultados obtenidos. Para la anotación semántica automática se ha partido de dos fuentes de conocimiento: a) un léxico verbal para cada lengua elaborado manualmente a partir de ambos sub-corpus, CESS-LEX-CAT y CESS-LEX-ESP (en adelante CESS-LEX), que contiene información sintáctico-semántica; y b) un conjunto de reglas desarrolladas específicamente para la anotación automática, en las que se generalizan las correspondencias entre sintaxis y semántica especificadas en ambos léxicos. Los léxicos verbales se han obtenido a partir de una muestra de 100.000 palabras para cada lengua de CESS-ECE (a los que llamamos corpus-origen) anotadas sintácticamente a nivel profundo. Estos léxicos se han utilizado para obtener las reglas de proyección sintácticosemántica, que se han usado para la anotación automática tanto del corpus-origen como de otro subconjunto (85.000 palabras para el castellano y 100.000 para el catalán) a los que llamamos corpus-prueba. El corpus-prueba nos permitirá evaluar el grado de generalización del conjunto de reglas. En concreto, en este trabajo se analiza: • el grado de cobertura de la anotación automática con CESS-LEX tanto en los corpus-origen como en los corpus-prueba • la calidad de la anotación automática en los corpus-origen y en los corpus-prueba a partir de la revisión manual efectuada • la validez del conjunto de reglas de proyección sintáctico-semántica corpus-prueba; 4) el grado de error es realmente bajo (alrededor del 2%) en todos los corpus. Cabe destacar que para que este procedimiento sea factible, es necesario disponer de una anotación sintáctica previa de calidad, incluyendo el etiquetado de funciones sintácticas. Una vez finalizado el proceso automático, se ha procedido a la compleción y a la revisión manual de la anotación semántica. Los corpus resultantes de dicho proceso son los que se han utilizado en la tarea 9 de evaluación de SemEval-2007 para el catalán y el castellano 2 . El resto del artículo se estructura de la siguiente forma. En la sección 2 se describen las características básicas del corpus CESSECE. A continuación, en las secciones 3 y 4, se presentan las diferentes fuentes de información implicadas en el proceso de anotación semántica automática. En la sección 5 se analizan los resultados obtenidos de una forma cuantitativa y cualitativa. Finalmente, en la sección 6 se presentan las conclusiones principales de este trabajo. 2 El corpus CESS-ECE El objetivo principal del proyecto CESS-ECE es la construcción de un banco de árboles sintácticos (TreeBank) multilingüe (catalán, castellano y euskera) con anotación semántica 3 . En este artículo restringiremos nuestro estudio a los corpus del catalán y el castellano 4 , de 500.000 palabras cada uno, procedentes de diversas fuentes, básicamente periodísticas (Véase Tabla 1). Dichos corpus se han anotado a diferentes niveles de descripción lingüística que incluyen información morfológica, sintáctica y semántica. El proceso de anotación se ha llevado a cabo de manera automática, manual o semiautomática dependiendo de la información lingüística tratada (Véase Tabla 1). El proceso de anotación se ha llevado a cabo de manera incremental, desde los niveles más básicos de análisis, es decir empezando por el etiquetado morfosintáctico y el análisis sintáctico superficial (chunking) realizados automáticamente, hasta llegar a los niveles más complejos, el análisis sintáctico profundo La evaluación de los resultados permite afirmar que en el caso de la anotación de la estructura argumental con papeles temáticos, el procesamiento automático planteado es factible y satisfactorio, puesto que: 1) se consigue anotar el 58,4% de las ocurrencias del corpus origen para el español y el 57,5% para el catalán; 2) este porcentaje mejora en ambos casos (63,4% en el español y 62,7% en el catalán) en los corpus-prueba (véase la sección 5.1); 3) el grado de error en la anotación automática se mantiene estable para ambas lenguas tanto en el corpus-origen como en el 2 Multilevel Semantic Annotation of Catalan and Spanish, http://www.lsi.upc.edu/~nlp/semeval/msacs.html. 3 Interfaz gráfica para consultar los corpus CESS-ECE http://www.lsi.upc.edu/~mbertran/cess-ece. 4 El corpus del euskera se anota siguiendo otra metodología y abarca 350.000 palabras. 1 Este corpus ha sido elaborado gracias a los proyectos CESS-ECE (HUM-2004-21127-E) y Lang2World (TIN 2006-15265-C06-06). Contiene dos partes de volumen y contenido equivalentes, una en castellano (ESP) y la otra en catalán (CAT). 68 Anotación semiautomática con papeles temáticos de los corpus CESS-ECE (proceso manual) y el análisis semántico (proceso semiautomático). Este procedimiento de anotación secuencial implica, en cada paso, la revisión manual del proceso anterior garantizando así la calidad y la consistencia interna de los datos. Corpus Fuentes CESSECECAT EFE (75.000) ACN (225.000) ‘El 5 Periódico’ (200.000) CESSECEESP 6 Lexesp (85.000) EFE (225.000) ‘El Periódico’ (200.000) Anotación morfosintáctica sintáctica superficial sintáctica profunda Papeles temáticos Proceso Automático Automático Sentidos nombres (WordNet) morfosintáctica sintáctica superficial sintáctica profunda Papeles temáticos Sentidos nombres (WordNet) Manual ha realizado sobre una muestra de 185.000 palabras para el castellano (6.013 oraciones) y de 200.000 para el catalán (6.422 oraciones), y el proceso de anotación se ha llevado a cabo de manera semiautomática (Taulé et al. 2005). Estos corpus se han dividido en dos subcorpus: el corpus-origen (100.000 palabras) y el corpus-prueba (85.000 palabras para el castellano y 100.000 para el catalán). Los corpus-origen se han utilizado para la obtención de los léxicos verbales CESS-LEX-CAT y CESS-LEX-ESP, en los cuales se ha explicitado la relación entre funciones sintácticas y estructura argumental y temática de cada predicado. Los corpus-prueba se han utilizado para comprobar el grado de cobertura y de calidad de la anotación semántica automática. A continuación se presentan en más detalle las diferentes fuentes de información utilizadas en dicho proceso. Manual Semiautomático Automático Automático Manual Semiautomático Manual 3.1 Tabla 1: Niveles de anotación de los subcorpus CESS-ECE-CAT y CESS-ECE-ESP Se parte de la base que la estructura argumental es el nivel de representación semántica más próxima a la representación sintáctica de la oración, en tanto que refleja la manera en que los argumentos semánticos se corresponden o relacionan con sus expresiones morfosintácticas. La estructura argumental expresa la aridad del verbo y permite establecer la relación semántica entre el predicado y sus argumentos, es decir, los papeles temáticos. Es por ello que el análisis semántico parte de la información sintáctica expresada en los corpus. A partir de la información sintáctica codificada en el corpus-origen se deriva de forma automática una versión inicial de los léxicos verbales CESS-LEX, donde para cada sentido de cada verbo se explicitan todos los esquemas sintácticos en los que aparece en el corpus con sus correspondientes funciones. En nuestra aproximación el sujeto, el verbo, los complementos del verbo y los adjuntos dependen directamente del nodo oración (S). En la figura 1 se muestra un ejemplo de análisis sintáctico profundo del corpus CESSECE-ESP, representando el árbol sintáctico como una expresión parentizada. Las funciones sintácticas utilizadas en ambas lenguas son: sujeto (SUJ), objeto directo (CD) e indirecto (CI), complemento del régimen (CREG), complemento agente (CAG), predicativo Hasta el momento se encuentran ya disponibles las 500.000 palabras del corpus CESS-ECE anotado a nivel sintáctico superficial y profundo (constituyentes y funciones) para cada lengua y la anotación de un subconjunto de 185.000 palabras para el castellano y 200.000 para el catalán con información semántica (estructura argumental, papeles temáticos, clases semánticas y sentidos de WordNet para los nombres más frecuentes). Estos dos últimos subconjuntos son los que se analizan en este artículo. Cabe destacar que la anotación de la estructura argumental y los papeles temáticos se está realizando siguiendo un modelo inspirado en el del corpus PropBank para el inglés (Palmer et al., 2005). Por último, la anotación incremental de información sintáctico-semántica sobre un mismo corpus toma su modelo del proyecto OntoNotes (Hovy et al., 2006). 3 Información sintáctica Fuentes de información Como hemos dicho, la anotación semántica con estructura argumental y papeles temáticos 7 se 5 El subconjunto de 200.000 palabras procedentes del ‘El Periódico’ son las mismas noticias en catalán y español desde enero a diciembre de 2000. 6 Lexesp es un corpus equilibrado del español de seis millones de palabras (Sebastián et al. 2000). 7 En este artículo no se hace referencia al proceso de anotación con synsets de WordNet. 69 M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran (CPRED), atributo (ATR) y circunstanciales (CC, CCT, CCL) 8 . Estas funciones están resaltadas en negrita en el árbol de la Figura 1. los que ocurre dicho verbo en el corpus (construcción activa y pasiva) con la correspondiente relación entre funciones sintácticas, posiciones argumentales y papeles temáticos. Como se puede observar, la posición argumental y el papel temático se mantienen mientras que su función sintáctica puede variar. En la construcción activa el argumento Paciente (PAT) tiene la función sintáctica de objeto directo (CD) mientras que en la pasiva es el sujeto (SUJ). Finalmente, se incluye las frases de ejemplo. (S (sn-SUJ (espec.fp (da0fp0 Las el)) (grup.nom.fp (ncfp000 reservas reserva) (sp (prep (sps00 en en)) (sn (grup.nom.ms (ncms000 oro oro)))))) (morfema.verbal-PASS (p0000000 se se)) (grup.verb (vmip3p0 valoran valorar)) (sp-CC (prep (sps00 en_base_a en_base_a)) (sn (espec.mp (Z 300 300)) (grup.nom.mp (Zm dólares dólar))) valorar–01 synset: 00445269v ELS4.2 SUJ Arg0##AGT CD Arg1##PAT CC ArgM##ADV EJ: "CCOO valoró la reducción del paro…" +PASIVA SUJ Arg1##PAT CAG Arg0#por#AGT CC ArgM##ADV EJ: "Las reservas en oro se valoran en_base_a 300_dólares estadounidenses…" Figura 2: CESS-LEX-ESP: ‘valorar’ Figura 1: Análisis sintáctico. Fragmento de frase ejemplo: “Las reservas en oro se valoran en 300 dólares…” 3.2 Los léxicos verbales CESS-LEX proporcionan información de las distintas alternancias diatéticas que acepta un verbo (activa, pasiva, anticausativa e impersonal). Sólo la alternancia activa-pasiva tiene marcas morfosintácticas que permiten la anotación automática de argumentos y papeles temáticos de manera directa. Sobre esta información se han elaborado algunas de las reglas de proyección. Los léxicos CESS-LEX contienen todos los verbos que aparecen en el corpus-origen, un total de 1.482 para el castellano y 1.052 para el catalán. Los léxicos verbales CESS-LEX A partir de la información sintáctica se crean manualmente los léxicos CESS-LEX, donde para cada sentido verbal se especifica: a) la clase semántica (Taulé et al., 2006); b) la proyección sintáctico-semántica, es decir la correspondencia entre funciones sintácticas, argumentos semánticos y papeles temáticos; c) las alternancias de diátesis en las que puede ocurrir y d) unas frases de ejemplo extraídas del propio corpus. En la figura 2 se presenta la entrada del verbo ‘valorar’ en CESS-LEX. En la entrada léxica de la figura 2, se indica el lema (valorar), el número de sentido (01) 9 , la clase semántica (ELS4.2), correspondiente a la clase de verbos transitivos agentivos, que a su vez se corresponde con el tipo ontológico de las actividades, y los dos esquemas sintácticos en 4 Reglas de proyección Para el proceso automático de anotación semántica se ha elaborado un conjunto de reglas simples que, individualmente, describen de forma inambigua las proyecciones seguras de funciones sintácticas a argumentos y papeles temáticos. Teniendo en cuenta la dificultad de la tarea, se ha tratado de conseguir el máximo grado de cobertura minimizando el error al máximo. Distinguimos dos tipos de reglas, generales (4.1) y específicas (4.2 y 4.3). 8 Para más información y otros ejemplos se puede consultar la página web del proyecto CESS-ECE: http://www.lsi.upc.edu/~mbertran/cessece. 9 El número de sentido se asociará a uno o más synsets de una versión de WordNet 1.6. 70 Anotación semiautomática con papeles temáticos de los corpus CESS-ECE En la frase analizada en la figura 4, se ha 4.1 Reglas generales (S (sn-SUJ-Arg1-PAT (espec.ms (da0ms0 El el)) (grup.nom.ms (ncms000 acuerdo acuerdo))) (grup.verb-D2 (vsif3s0 será ser) (vmp00sm firmado firmar)) (sp-CAG-Arg0-AGT (prep (sps00 por por)) (sn.co (snp (espec.fs (da0fs0 la el)) (grup.nom.fs (ncfs000 presidenta presidenta))) Incluimos bajo esta denominación un conjunto de reglas asociadas a una determinada función o propiedad morfosintáctica. En el caso de las funciones, se asignan automáticamente las posiciones argumentales correspondientes al complemento agente (CAG-Arg0-AGT), atributo (ATR-Arg2-ATR) y complemento predicativo (CPRED-Arg2-ATR) 10 . En cuanto a las posiciones adjuntas se etiquetan automáticamente los complementos circunstanciales 11 temporales (CCT-ArgM-TMP) y locativos (CCL-ArgM-LOC). La pasiva y la pasiva refleja son un ejemplo de reglas asociadas a una propiedad morfosintáctica. En este caso la regla tiene en cuenta el tipo de verbo (es decir, si se trata del predicado ‘ser’/’ésser’ seguido de participio), o el rasgo morfosintáctico que lleva asociado (morfema.verbal-PASS). En ambos casos, se etiqueta de manera automática el sujeto como argumento Paciente (SUJ-Arg1-PAT) y el complemento agente como argumento Agente (CAG-Arg0-AGT), como se puede observar en la frase analizada de la figura 3. La asignación de dichos argumentos y papeles temáticos es independiente del verbo. En el caso del ejemplo, la asignación de la clase semántica D2 (verbos transitivos agentivos) al predicado ‘firmar’ se ha realizado también de manera automática pero a partir de la información especificada en el léxico verbal, CESS-LEXESP en este caso, es decir mediante la aplicación de las reglas del segundo tipo. 4.2 etiquetado directamente el sujeto como un Figura 3: Reglas tipo I. Ejemplo de anotación automática directa. Fragmento de frase ejemplo “El acuerdo será firmado por la presidenta…” (S (grup.verb-C3 (vsip3p0 Son ser)) (sa-ATR-Arg2-ATR (espec (rg tan tanto)) (grup.a (aq0mp0 raros raro))) (sn-SUJ-Arg1-TEM (Fc , ,) (espec.mp (da0mp0 los el)) (grup.nom.mp (ncmp000 hombres hombre))) Figura 4: Reglas tipo II. Ejemplo de anotación automática directa. Frase ejemplo “Son tan raros, los hombres” Reglas específicas dependientes de los léxicos CESS-LEX Incluimos en esta sección las reglas específicas basadas en la información descrita en los léxicos verbales CESS-LEX, es decir reglas dependientes de cada predicado. En el caso de verbos monosémicos la correspondencia entre función sintáctica y clase semántica, argumentos y papeles temáticos se realiza de manera directa. En la figura 4 se ejemplifica con el verbo ‘ser’ tratado monosémicamente en el corpus del castellano. Arg1-TEM (Tema), el atributo como un Arg2ATR (Atributo) y la clase semántica C3, que corresponde a verbos estativos transitivos. En el caso de verbos polisémicos la equivalencia entre información sintáctica y semántica puede ser parcial, en el sentido de que sólo se etiqueta automáticamente aquella información que es inequívoca, es decir que no implica ambigüedad. El resultado, por lo tanto, puede ser parcial, bien porque sólo se etiqueta la posición argumental o el papel temático; bien porque sólo se etiqueta la combinatoria entre clase semántica y posición argumental o clase semántica y papel temático. En el primer caso se trata de predicados que, para sentidos o 10 CPRED-Arg3-ORI en caso de estar introducido por la preposición: “sps00 procedente_de”. 11 Son los únicos circunstanciales anotados manualmente. 71 M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran acepciones distintas, comparten la misma función y posición argumental pero los papeles temáticos asociados son diferentes y, por lo tanto, la elección de uno u otro no es inmediata. La segunda posibilidad es el caso contrario, en las distintas acepciones del predicado se produce una coincidencia en la asignación de papeles temáticos pero no en la posición argumental de los mismos. En la figura 5 se muestra un ejemplo de anotación automática parcial. a_base_de SPS00 ArgM##ADV a_cambio_de SPS00 ArgM##ADV a_causa_de SPS00 ArgM##CAU a_comienzos_de SPS00 ArgM##TMP allí_delante RG ArgM##LOC allí_encima RG ArgM##LOC así RG ArgM##MNR atrás RG ArgM##LOC aun RG ArgM##ADV ... tipo concreto de adverbio o locución. Por ejemplo, si en un constituyente, con la categoría (S (sadv-CC-ArgM-TMP (grup.adv (rg Entonces entonces))) (sn.e-SUJ *0*) (grup.verb (vmii3s0 movía mover)) (sn-CD-Arg1-PAT (espec.fs (da0fs0 la el)) (grup.nom.fs (ncfs000 cabeza cabeza))) (sadv-CC (grup.adv (rg lentamente Figura 6: Lista de adverbios y locuciones morfosintáctica ‘RG’ o ‘SPS’ y con función CC, aparece el adverbio ‘así’ o la locución ‘a_causa_de’ se asignará de forma automática el argumento y papel temático ArgM-MNR (manera) y ArgM-CAU (causa), respectivamente. Un subtipo de estas reglas es aquel que trata expresiones temporales representadas en la categoría morfosintáctica como W. Así, se anota como ArgM-TMP todo CC que contine Figura 5: Reglas tipo II. Ejemplo de anotación automática parcial. Frase ejemplo “Entonces movía la cabeza lentamente”. (snd-CC-ArgM-TMP (espec.ms (da0ms0 el el)) (grup.nom.ms (W 26_de_mayo [??:26/5/??:??.??]))) (sn.e-SUJ-Arg1-TEM *0*) (grup.verb-C3 (vmii3p0 equivalían equivaler)) (sp-CREG-Arg2-ATR (prep (sps00 a a)) (snn (espec.mp (Z 19.100 19100)) (grup.nom.mp (ncmp000 millones millón) (sp (prep (sps00 de de)) (grup.nom.mp (Zm dólares dólar))))))) El sujeto de ‘mover’ no se ha podido asignar de forma automática porque puede interpretarse distintamente en función de la acepción que se considere, en este caso un Arg0-CAU, un Arg0-AGT o un Arg1-TEM (Véase anexo 1 para consultar la entrada de ‘mover’). Por la misma razón tampoco ha sido posible la asignación de la clase semántica de manera automática ya que la regla no puede decidir si pertenece a la clase semántica A1, C1 o C2. 4.3 Reglas específicas basadas en el tipo de adverbio y preposición En este tercer conjunto consideramos las reglas basadas en el tipo de adverbio o locución adverbial o prepositiva que aparecen en un determinado constituyente. Por ejemplo, en la figura 6 se da una muestra del tipo de información considerada. Como se puede ver, las reglas tienen en cuenta el tipo de categoría morfosintáctica, ‘RG’ (adverbio) o ‘SPS’ (locución prepositiva), la función de complemento circunstancial y el un elemento del tipo W (véase figura 7): Figura 7: Reglas de tipo III. Expresiones temporales. Frase ejemplo: “El 26 de mayo equivalían a 19.100 millones de dólares.” 4.4 Aplicación de las reglas Todas las reglas de proyección se han podido implementar de manera sencilla y eficiente, 72 Anotación semiautomática con papeles temáticos de los corpus CESS-ECE requiriendo un esfuerzo en tiempo de programación moderado. De todas maneras, para disponer de un procesador automático que las aplique es necesario decidir qué hacer en los casos en que más de una regla sea aplicable. Heurísticamente, se ha decidido aplicar las reglas en orden descendiente de generalidad, es decir primero se aplican las reglas generales de tipo I, en segundo lugar las de tipo III y, finalmente las de tipo II. 5 anota automáticamente el corpus-prueba. El léxico del castellano contiene un total de 1.482 verbos de los cuales sólo 717 aparecen en el corpus-prueba, lo que constituye el 64.1% de los 1.119 verbos del corpus de prueba. El léxico del catalán contiene un total de 1.052 verbos de los cuales sólo 664 aparecen en el corpusprueba, lo que representa el 58,5% de los 1.134 verbos del corpus-prueba. A pesar de que los léxicos tienen menor cobertura en los corpus-prueba, el tanto por ciento de anotación recibida mantiene el mismo nivel de cobertura que en los corpus-origen, lo que indica que las reglas de proyección independientes del léxico (tipos I y III) expresan generalizaciones que se dan también para los verbos nuevos de los corpus-prueba. En realidad, el porcentaje de cobertura es incluso un poco mejor en los corpus de prueba como veremos más adelante. Comentamos a continuación los resultados de la anotación de manera analítica. El número total de funciones sintácticas que aparecen en los corpus es de 48.405 para el castellano y 48.600 para el catalán. De éstas, en el corpus del castellano, 25.645 pertenecen al corpus-origen y 22.760 al corpus-prueba; en el caso del catalán, 24.005 pertenecen al corpusorigen y 24.665 al corpus-prueba. De todas las funciones, reciben anotación semántica el sujeto (SUJ), el complemento directo (CD), indirecto (CI), de régimen (CREG), el atributo (ATR), el complemento predicativo (CPRED) y los circunstanciales (CC), que corresponden a un total de 44.499 funciones por anotar en castellano (23.587 en corpus-origen y 20.912 en corpus-prueba) y 43.531 para el catalán (21.466 en el corpus origen y 22.065 en el de prueba). No reciben información semántica los adjuntos oracionales (AO), el vocativo (VOC), los elementos textuales (ET) y las marcas de impersonalidad, negación, pasiva e impersonal. De todas formas, esta limitación nos hace renunciar solamente a 3.906 funciones sintácticas (un 8,07% del total de funciones) en castellano y a 5.139 (un 10,5 % del total) en catalán. En la tabla 2 se muestra de manera desglosada por funciones la anotación semántica resultante. También se incluye un desglose por cada uno de los corpus (origen/prueba). Cada celda contiene tres números que representan el número de funciones etiquetadas con las reglas automáticas, el número de Metodología y análisis de los resultados El proceso de aplicación automática de las reglas de proyección se ha llevado a cabo en ambos corpus. Recordemos que el proceso automático se realiza separadamente sobre los corpus-origen y los corpus-prueba a partir de las fuentes de conocimiento desarrolladas, reglas y léxicos, con el fin de evaluar la validez de dichas fuentes independientemente del corpus a partir del cual se ha extraído la información. En el proceso automático se obtienen anotaciones totales con información sobre el argumento y el papel temático o bien anotaciones parciales, es decir cuando sólo se ha podido asociar a la función el argumento o el papel temático. Los resultados obtenidos en el proceso automático de anotación se presentan en la sección 5.1. Incluimos un análisis cuantitativo de la cobertura de los léxicos y de las reglas en los corpus origen y de prueba, es decir, el número de funciones sintácticas que han recibido información argumental y temática del conjunto total de funciones. Por otro lado, se ha realizado la revisión manual para corregir los errores de la anotación automática y completar las funciones que no han recibido anotación semántica tanto de los corpus-origen como del corpus-prueba. Para la anotación manual se utiliza un editor de árboles, TreeTrans (Cotton y Bird, 2000), adaptado para la anotación de argumentos y papeles temáticos. Una vez realizado el análisis cuantitativo de la calidad de la anotación automática, se presenta una valoración cualitativa de los resultados obtenidos (sección 5.2). 5.1 Análisis cuantitativo de los resultados Los léxicos CESS_LEX se han obtenido a partir de los verbos de los corpus-origen. Por lo tanto, se plantea un problema de cobertura cuando se 73 M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran Función SUJ CD CI CREG ATR CPRED CAG CC Total CORPUS: CESS-ECE-CAT C-origen C-prueba 3.819/7.075/53,9% 3.996 / 7.517 / 53,1% 4.099/5.055/81,08% 3.933 / 5.302 / 74,1% 406/407/99,7% 429/ 429/ 100% 767/1.253/61,21% 646 / 1.240 / 52,0% 903/903/100% 1.111/ 1.111/ 100% 390/390/100% 412 / 413 / 99,7% 297/297/100% 226/ 227/ 99.5% 1.620/6.006/26,97% 3.089 / 5.826 / 53,0% 12.301 / 21.386 / 57,5% 13.842 / 22.065 / 62,7% Total 7.815 / 14.592 / 53,5% 8.032 / 10.357/ 77,5% 835/ 836 / 99,8% 1.413 / 2.493 / 56,6% 2.014 / 2.014 / 100% 802 / 803 / 99,8% 523/ 524 / 99,8% 4.709 / 11.832 / 39,7% 26.143 / 43.451 / 60,1% Función SUJ CD CI CREG ATR CPRED CAG CC Total CORPUS: CESS-ECE-CAST C-origen C-prueba 5.207 / 7.746 / 67.2% 4.631 / 6.967 / 66.5% 3.438 / 4.838 / 71.1% 3.327 / 5.018 / 66.3% 502 / 612 / 82.0% 261 / 521 / 50.1% 585 / 857 / 68.3% 470 / 869 / 54.1% 1.537 / 1.550 / 99.2% 955 / 963 / 99.2% 361 / 361 / 100% 288 / 288 / 100% 188 / 189 / 99.5% 263 / 265 / 99.2% 1.953 / 7.434 / 26.3% 3.062 / 6.021 / 50.9% 13.771 / 23.587 / 58.4% 13.257 / 20912 / 63.4% Total 9.838 / 14.713 / 66,8% 6.765 / 9.856 / 68,6% 763 / 1.133 / 67,3% 1.055 / 1.726 / 61.1% 2.492 / 2.513 / 99,2% 649 / 649 / 100% 451 / 454 / 99,3% 5.015 / 13.455 / 37,2% 27.028 / 44.499 / 60,7% funciones a etiquetar y el porcentaje de cobertura, respectivamente. Tabla 2: Resultados de la anotación automática desglosada por sub-corpus, funciones e idioma de manera casi unívoca una determinada anotación semántica y su grado de cobertura alcanza casi el 100%. En el caso del CD y del CREG en ambas lenguas y del CI en el caso del castellano, el grado de cobertura de la anotación es inferior en el corpus-prueba debido a que en este corpus la cobertura del léxico es inferior. La razón estriba en el hecho de que la asignación de argumento y papel temático, en estos casos, depende exclusivamente de las reglas de tipo II (léxicas). La función sujeto recibe menos anotaciones semánticas en catalán (7.759) que en castellano (9.690) porque el verbo ser -el más frecuente en el corpus- se ha tratado de forma monosémica en castellano, mientras que en catalán es polisémico. Las posiciones no argumentales, que corresponden a los CC sintácticos, son las que dan peores resultados debido a la amplia tipología de argumentos (ArgM, Arg2, Arg3, Arg4) y papeles temáticos que pueden recibir (LOC, TMP, MNR, etc.). Finalmente, en la tabla 3 se muestra el número total y el porcentaje de anotaciones totales y parciales. En la fila de los “Totales” se incluye el número total de funciones Podemos ver como del total de funciones sintácticas que pueden recibir anotación semántica, 44.499 para el castellano y 43.531 para el catalán, se han anotado automáticamente un total de 27.028 y 26.143 respectivamente, lo que corresponde a un 60’7% para la primera lengua y a un 60,1% para la segunda: el 58’4% del corpus-origen y el 63’4% del corpus-prueba para el castellano y el 57,5% y el 62,73% respectivamente para los corpus del catalán. Como se puede observar la cobertura de anotación es superior en el corpus de prueba debido fundamentalmente al etiquetado de los CC. Esto se explica porque, por razones de criterios de anotación de los corpus, la anotación sintáctica del CC es más rica en el corpus de prueba que en el corpus de origen 12 . En lo que se refiere a la cobertura, como se puede observar en la tabla 2, las funciones sintácticas ATR, CAG, CPRED en ambas lenguas y el CI, en el caso del catalán, reciben 12 En el corpus de prueba los complementos circunstanciales de tiempo y lugar reciben una etiqueta específica, CCT y CCL respectivamente, que facilita la asignación semántica. 74 Anotación semiautomática con papeles temáticos de los corpus CESS-ECE revisado y validado el etiquetado obtenido automáticamente para ambas lenguas. En cuanto al corpus-prueba, se ha revisado y completado el 10% de las oraciones de ambos corpus. En este proceso de validación se ha computado el número de errores para un subconjunto de 500 funciones en cada corpus de ambas lenguas. El resultado obtenido es de un 2,1% de asignaciones incorrectas en el corpus del castellano y de 1,9% en el corpus del catalán, fundamentalmente en los CC. La precisión de la anotación automática depende básicamente de dos factores: las reglas y el léxico. Las reglas generales son aplicables a cualquier corpus y el resultado debería tener un nivel de calidad equivalente. No ocurre lo mismo con las reglas dependientes de la información contenida en el léxico, ya que este está constituido sobre el corpus de origen. Los problemas en este caso se circunscriben a la cobertura de verbos y sentidos. De los resultados obtenidos en la revisión manual se puede concluir, por lo tanto, que las reglas de tipo 1 y 3 dan resultados satisfactorios y son aplicables a cualquier otro corpus. Un análisis más profundo del complemento circunstancial y la proyección del mismo en la anotación semántica, mejoraría los resultados de las reglas de tipo 3. 13 Los errores detectados se refieren fundamentalmente a la asignación de papeles temáticos a los CC, debido a la ambigüedad y variedad de los mismos y por la presencia de sentidos en los corpus-prueba que no aparecen en los corpus origen. En cuanto a las reglas de tipo 2, en tanto que dependen del léxico, serían mejorables aumentando la cobertura de los mismos y si trataran las preposiciones que rigen los verbos en determinados complementos circunstanciales. A la vista de los resultados obtenidos tanto en la cobertura de anotación (una media el 60,4%) como en la alta calidad de ésta (alrededor de un 98% de aciertos) es innegable que la metodología propuesta supone un ahorro importante y resuelve en gran medida la tarea de la anotación de corpus con argumentos y papeles temáticos. Ello se debe, entre otras razones, a la base lingüística incorporada en las etiquetadas y el porcentaje que representa este número con respecto al total de anotaciones realizadas automáticamente y al total de funciones sintácticas por anotar. Se puede observar como, en casi todos los casos, la mayoría de anotaciones son completas (argumento + papel temático). El alto número de anotaciones parciales en el caso del complemento de régimen (CREG) se debe a que se ha decidido, de momento, no asignarle papel temático por la problemática que entraña. Este tema está en fase de estudio y se resolverá en una fase posterior. Los complementos con mayor ambigüedad y, por lo tanto, con mayor número de anotaciones parciales, son el sujeto (SUJ) y el complemento directo (CD): la posición argumental es deducible, pero no así el papel temático. CORPUS: CESS-ECE-CAT Función Arg+PT SUJ CD CI CREG ATR CPRED CAG CC Total 7.759 7.854 835 157 2.014 802 523 4.608 24.552 93,9% 56,5% Función Arg+PT SUJ CD CI CREG ATR CPRED CAG CC Total 9.690 6.600 703 57 2.492 649 451 4.859 25.501 94,3% 57,3% Arg 52 178 --1.256 ------101 1.587 6,0% 3,6% PT Total 4 --------------4 0,01% 0,0% 7.815 8.032 835 1.413 2.014 802 523 4.709 26.143 100% 60,1% CORPUS: CESS-ECE-CAST Arg 144 129 --998 ------156 1.427 5,3% 3,2% PT Total 4 9.838 36 6.765 60 763 --1.055 --2.492 --649 --451 --5.015 100 27.028 0,4% 100% 0,2% 60,7% Tabla 3: Anotación total vs. parcial en el corpus origen+prueba del catalán y castellano 5.2 Análisis cualitativo de los resultados 13 Esta ampliación se está ya aplicando para la anotación semántica automática del corpus CESSECE-CAT. Actualmente se ha completado la anotación semántica manual del corpus-origen y se ha 75 M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran Conference on Language Resources and Evaluation, LREC-2000. Atenas, 2000. Hovy, E.H., M. Marcus, M. Palmer, S. Pradhan, L. Ramshaw, and R. Weischedel. OntoNotes: The 90% Solution. En Proceedings of the Human Language Technology / North American Association of Computational Linguistics conference (HLT-NAACL 2006). New York, NY, 2006. Palmer, M., D. Gildea, y P. Kingsbury. The Proposition Bank: An Annotated Corpus of Semantic Roles, Computational Linguistics, 31(1), 2005. Sebastián, N., M. A. Martí, M. F. Carreiras y F. Cuetos. LEXESP: Léxico Informatizado del Español, Ediciones de la Universidad de Barcelona, Barcelona, 2000. Taulé, M., J. Aparicio, J. Castellví, y M. A. Martí. Mapping syntactic functions into semantic roles. En Proceedings of the Fourth Workshop on Treebanks and Linguistic Theories (TLT 2005). Universitat de Barcelona, Barcelona, 2005. Taulé, M., M. A. Martí y J. Castellví. Semantic Classes in CESS-LEX: Semantic Annotation of CESS-ECE. En Proceedings of the Fifth Workshop on Treebanks and Linguistic Theories (TLT-2006). Prague, Czech Republic, 2006. reglas y a la calidad de los procesos de anotación previos (morfosintáctico y sintáctico). Para hacernos una idea, se ha cuantificado que el coste de anotación manual del 40% no cubierto por el proceso automático junto con la revisión manual del 100% del texto de los dos idiomas es de 1.655 horas persona. El coste de haber etiquetado manualmente el 60% cubierto por las reglas automáticas se estima comparable a esta cantidad, mientras que el desarrollo y la implementación de las reglas no ha superado las 100 horas persona, dejando el ahorro neto en una cantidad superior a 1.500 horas persona. 6 Conclusiones En este artículo se ha presentado la metodología seguida en la anotación automática del corpus CESS-ECE con estructura argumental y papeles temáticos. Se trata de un proceso automático previo a la anotación manual completa. Las reglas que se han aplicado, a la vista de los resultados cualitativos obtenidos, tienen una precisión próxima al 100%, aunque se ha sacrificado la cobertura ya que sólo se anota un 60% del corpus. No se trata en ningún caso de un sistema de anotación automática de roles temáticos, sino de un pre-proceso automático de ayuda en la anotación y revisión manuales de un corpus con esta información. Una vez completado, el corpus posibilitará, entre otras cosas, estudios lingüísticos empíricos y también la aplicación de técnicas de aprendizaje automático para desarrollar herramientas automáticas de análisis de los nuevos niveles semánticos incorporados. Cabe destacar, en primer lugar, que el grado de cobertura alcanzado tanto en el corpus-origen como en el corpus-prueba es prácticamente el mismo (algo superior en este último). En segundo lugar, la alta calidad de la anotación automática (98%). Finalmente, resulta de especial interés el conjunto de reglas que se ha elaborado tanto por su alta resolución como por las generalizaciones lingüísticas que recogen. Anexo 1: Entrada verbal ‘mover’ Este anexo presenta la información de la entrada verbal ‘mover’ en CESS-LEX, que tiene tres sentidos diferenciados. mover–01 synset: 01249365v C1 SUJ Arg1##TEM CC Arg4#hacia#DES CC ArgM##MNR EJ: "que se movía lentamente" mover–02 synset: 01263706v C2 SUJ Arg0##AGT CD Arg1##PAT CC Arg2#por#LOC CC ArgMcon#ADV EJ: "las naves que movía el viento por aguas y mares con estimable eficiencia " mover–03 synset: 01133437v A1 SUJ Arg0##CAU CREG Arg1#a# EJ: "resultó ser de los que mueven a la reflexión" Bibliografía Cotton, S. y S. Bird. An Integrated Framework for Treebanks and Multilayer annotations. En Proceedings of the 2nd International 76 Multilingualidad en una aplicación basada en el conocimiento Guadalupe Aguado de Cea [email protected] Elena Montiel Ponsoda [email protected] José Ángel Ramos Gargantilla [email protected] Ontology Engineering Group (OEG) – Universidad Politécnica de Madrid Campus de Montegancedo – Boadilla del monte (Madrid) Resumen: La necesidad de dotar de multilingualidad a sistemas basados en el conocimiento plantea un nuevo reto a la investigación en Inteligencia Artificial. La mayoría de las estrategias adoptadas en la actualidad para la representación de multilingualidad en bases de conocimiento han optado por soluciones ad hoc. Partiendo, pues, de la inexistencia de planteamientos teóricos que hayan analizado todas las posibles soluciones, en este artículo tratamos de cubrir este vacío con un análisis detallado del fenómeno de la multilingualidad en las aplicaciones basadas en el conocimiento, en concreto en las ontologías. En la primera parte, recogemos brevemente las estrategias de representación de multilingualidad adoptadas por recursos léxicos existentes. A continuación, nos centramos en los tres niveles que pueden soportar multilingualidad en las aplicaciones ontológicas, a saber, la interfaz, la representación de conocimiento propiamente dicha y los datos, y detallamos las principales posibilidades de representación. Asimismo se enumeran las ventajas y desventajas de cada representación, señalando las principales implicaciones técnicas de su implementación. Se dedica especial atención a la implantación de la multilingualidad en el nivel de representación del conocimiento por los numerosos aspectos a considerar según la posición que ésta ocupe. Finalmente, se señala la posibilidad de hibridación de dichos modelos de representación. Palabras clave: multilingualidad, representación de multilingualidad en sistemas basados en el conocimiento, ontologías multilingües, recursos léxicos multilingües Abstract: The incipient need to provide knowledge based systems with multilingual information has given rise to a new challenge in Artificial Intelligence. Current strategies used to represent multilinguality in knowledge bases have relied on ad hoc solutions. Starting from the premise that there are no theoretical approaches to representing multilinguality and their implications, we aim at filling this gap by presenting a detailed analysis of the multilinguality phenomenon in knowledge based applications, specifically in ontologies. The first part of this article deals with multilingual representation strategies followed by relevant online multilingual lexical resources, applied in the domain of ontologies. The second part is devoted to the analysis of the three identified ontology levels that can support multilinguality, i.e., interface, knowledge representation as such, and data, in which we account for the main options of multilingual information representation in each level. After a detailed survey of the different options, we describe their main advantages and disadvantages, highlighting the technical implications of their implementation, or possible metamodel modifications in the case a new language is added to the ontology. Special attention has been given to multilingual representation at knowledge representation level. Finally, we include a section in which a combination of various multilingual representation models are proposed in what we have called hybrid systems. Keywords: multilinguality, multilingual representation in knowledge based systems, multilingual ontologies, multilingual lexical resources ISSN: 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla 1 tomar como cánones puesto que no siguen estándares, ni contienen conocimiento consensuado. Introducción Desde que la Inteligencia Artificial trabaja con sistemas basados en el conocimiento, los esfuerzos se han centrado en el desarrollo teórico de modelos y en la construcción tanto de motores de inferencia para explotarlos como de aplicaciones basadas en ellos. La aparición de las ontologías como solución para la compartición de conocimientos consensuados, y la consiguiente inserción de éstas dentro de la Web, dando origen a la Web Semántica, ha supuesto la aparición del problema de la multilingualidad. El interés por los temas de multilingualidad ha estado presente en la comunidad científica desde diferentes perspectivas: búsqueda de información multilingüe, sistemas de búsqueda de respuestas, traducción automática, etc. (Peñas y Gonzalo, 2004). Sin embargo, aunque existen aplicaciones de Web Semántica y sistemas de conocimiento multilingüe, en general, se han adoptado soluciones específicas y particulares dirigidas a una implementación concreta y no como fruto de un estudio conceptual del problema. El Grupo de Ingeniería Ontológica (OEG) de la Universidad Politécnica de Madrid lleva más de diez años trabajando con ontologías y con aplicaciones basadas en ellas, dentro y fuera de la Web Semántica. En este tiempo ha tratado las aplicaciones y sistemas basados en ontologías en todos sus aspectos teóricos y prácticos, cubriendo todas las actividades del ciclo de vida de las ontologías. Por eso ahora, ante la creciente necesidad de tratar con elementos de conocimiento multilingües, ha estudiado a fondo y de manera teórica la implicación de la multilingualidad dentro de las aplicaciones basadas en el conocimiento. En este artículo abordamos el análisis de los distintos niveles en que la multilingualidad se puede presentar dentro de estos sistemas, y describimos las posibles soluciones identificadas. Asimismo, para que el estudio sea verdaderamente útil, se completa con la evaluación de las ventajas y desventajas de cada una de las soluciones posibles en cada caso y nivel. Las figuras que aparecen en este artículo tienen como misión que las argumentaciones se comprendan de una manera más intuitiva con el apoyo de una representación gráfica. Todas ellas son ejemplos docentes pero no se han de 2 Nociones previas Antes de entrar en materia propia del artículo, conviene tener presentes y claras una serie de nociones que faciliten la comprensión. A la hora de representar un conocimiento tenemos tres niveles: datos, modelo y metamodelo. Los datos es el nivel inferior y son los individuos (o instancias) en sí. El modelo es el nivel intermedio y representa la estructura de los datos. El metamodelo es el nivel superior y representa la estructura del modelo. Veamos un ejemplo de una ontología sobre animales de ficción (información de dominio): Mickey es un individuo, Minnie es otro individuo y Pluto es un tercer individuo. Estos tres individuos son el conjunto de instancias Disney, los datos. Mickey y Minnie son instancias del concepto Ratón ficticio, Pluto es instancia del concepto Perro ficticio y hay una relación son amigos entre Perro ficticio y Ratón ficticio. Ratón ficticio y Perro ficticio son conceptos de la ontología Animales de ficción, el modelo. Concepto y Relación son los componentes de la representación de ontologías, el metamodelo. Un mapping es una relación entre elementos de conjuntos diferentes. Estos conjuntos pueden ser dos ontologías, una ontología y una base de datos, etc. Siguiendo con el ejemplo anterior, imaginemos que tenemos otra ontología (información de dominio) Animales reales, con un conjunto de instancias llamado Zoo Madrid. En este conjunto de instancias hay una instancia del concepto Ratón real que se llama Madroño. Existe un mapping que se llama tienen igual color y que relaciona Madroño y Mickey. Este mapping es el dato de información de mappings. El modelo de mappings viene representado por Elemento1, Elemento2 y Relación. El modelo de la información de mappings está al mismo nivel que el modelo de la información de dominio (ontología). Por otra parte, partiendo de las mismas dos ontologías de antes, podemos tener un mapping que relaciona el concepto Ratón ficticio 78 Multilingualidad en una aplicación basada en el conocimiento adaptación de ese recurso a una comunidad lingüística y cultural concreta. Hasta ahora, el término ‘localización’ se ha venido aplicando al software (Esselink, 2000). Pero, si lo extrapolamos al dominio de las aplicaciones basadas en ontologías, nos encontraremos con que, en un sistema basado en el conocimiento, ese proceso de adaptación tiene que darse en tres niveles diferentes: • Interfaz • Representación del conocimiento • Datos de la ontología Animales de ficción y el concepto Ratón real de la ontología Animales reales. Este mapping se llama toma como ejemplo a. En este caso, los datos de la información de mappings (el mapping toma como ejemplo a) está al mismo nivel que los modelos de la información del dominio (las ontologías Animales de ficción y Animales reales). Y, por tanto, el modelo de la información de mappings está al mismo nivel que el metamodelo de la información de dominio (el metamodelo de las ontologías). Hay que tener presente esta separación entre la distinta información que se va a tratar (de dominio, lingüística y de mappings), ya que, como en el último caso de mappings ejemplificado, no estarán al mismo nivel los datos, modelos o metamodelos. 3 En la actualidad, pocas son las aplicaciones basadas en ontologías disponibles en más de una lengua natural. La biblioteca de ontologías OntoSelect 1 contiene únicamente 28 ontologías multilingües de las 1.117 que recoge, es decir, menos de un 3%. Además, se ha podido constatar que estas ontologías multilingües muestran, en su mayoría, importantes carencias en aquellas lenguas que no son la original de creación de la ontología. Como resultado de la búsqueda de ontologías multilingües, conviene destacar la casi nula información pública disponible sobre la representación de la multilingualidad para los diferentes recursos multilingües. Esto puede ser debido a que, hasta ahora, la representación de la multilingualidad no ha sido objetivo primordial de la investigación sino que el interés se centraba meramente en su existencia. Es decir, que en los recursos y sistemas multilingües la multilingualidad era una propiedad secundaria, más enfocada a la explotación de los mismos que a la conformación del propio recurso. Sólo en casos contados la multilingualidad ha sido tratada con la importancia que le confiere la explotación actual desde la perspectiva de la globalización. No hay que olvidar en ningún momento que las características básicas de las ontologías, que les han convertido en uno de los sistemas de representación más extendido y con mayor auge en los últimos años, son el consenso de su conocimiento y la reutilización del mismo. Y es para lograr esta reutilización y este consenso para lo que es básica la multilingualidad. En los siguientes subapartados recorreremos algunos de los sistemas que incorporan multilingualidad Estado de la cuestión El interés de los investigadores de Inteligencia Artificial por el lenguaje natural se centró primeramente en la comunicación del usuario con la máquina, con lo que las interfaces fueron los primeros componentes de las aplicaciones inteligentes construidas en lenguaje natural (Abascal y Moriyón, 2003). Así lo explica Moreno (2000): “De hecho, el interés por los sistemas de Natural Language Processing basados en el conocimiento surgió a raíz de la necesidad de construir interfaces en lenguaje natural para sistemas expertos”. Las ontologías tienen como principales características: el ser un modelo consensuado por la comunidad del dominio, la compartición de su conocimiento y la computabilidad del mismo. Todo esto ha convertido a las ontologías en las representaciones más utilizadas en los nuevos desarrollos y, sobre todo, han pasado a ser la piedra fundamental de la creciente Web Semántica. Al mismo tiempo, debido a su uso generalizado, no pueden escapar al fenómeno de la globalización que exige ahora que la información en lenguaje natural sea además multilingüe. Las ontologías se enfrentan, pues, al fenómeno de la multilingualidad -que ya se manifiesta de forma patente en diferentes recursos léxicos computacionales- en lo que se ha denominado el proceso de “localización de ontologías”. La localización de un recurso léxico se entiende como el proceso de 1 79 http://olp.dfki.de/OntoSelect/ Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla Figura 1: Esquema general de dos wordnets mapeados al ILI (Vossen, 2002) 3.1 se amplía y complementa con conceptos específicos de cada lengua, como se muestra en la Figura 1. EuroWordNet EuroWordNet 2 (EWN) (Vossen, 2002 y 2004) fue un proyecto europeo de tres años de duración (1996-1999) y cuyo resultado principal fue un lexicón multilingüe. Este recurso léxico se basaba en la estructura de la base de datos léxica WordNet, desarrollada en la Universidad de Princeton (Miller et al., 1990). El objetivo del proyecto consistía en el desarrollo de un lexicón multilingüe con wordnets para ocho lenguas europeas (holandés, español, italiano, inglés, francés, alemán, checo y estonio). El enfoque general seguido para la construcción de EWN se basaba en la reutilización de recursos léxicos existentes en cada lengua. 3.2 La Base de Conocimientos sobre el Genoma Humano (GENOMA-KB 3 ) (Cabré et al., 2004a y 2004b) fue un proyecto desarrollado en el Instituto de Lingüística Aplicada (IULA) de la Universitat Pompeu Fabra en Barcelona (20012003). Este proyecto persigue la construcción de un recurso esencial para la recuperación de información, con control terminológico, en el dominio del genoma humano, en inglés, castellano y catalán. Esta base de conocimiento se divide en cuatro módulos interrelacionados: el módulo ontológico, el módulo terminológico, el módulo del corpus y el módulo de las entidades, como se puede observar en la Figura 2. El módulo ontológico se desarrolló con la herramienta de gestión terminológica OntoTerm 4 , porque permite la construcción de la ontología y la base de datos terminológica de forma paralela. Esta herramienta, utilizada también en el proyecto OncoTerm 5 , proporciona un núcleo ontológico formado por 21 conceptos básicos (ALL, OBJECT, EVENT, PROPERTY, etc.). A continuación, a estos conceptos básicos se les añadió una lista de 100 conceptos propuestos por expertos en el Al igual que en WordNet, la información sobre nombres, verbos, adjetivos y adverbios se organiza en synsets (conjunto de sinónimos, es decir, palabras con la misma categoría gramatical, e intercambiables en ciertos contextos). Los wordnets en EWN se consideran “ontologías autónomas monolingües”, que están interconectadas a través de un Inter-Lingual-Index (índice interlingüístico o ILI). Dicho ILI consta de una lista de conceptos sin estructura, procedentes de WordNet y relacionados con dos ontologías, una general y otra de dominio (Top-Ontology y Domain-Ontology, respectivamente). Una selección de conceptos del ILI forma el núcleo de las diferentes ontologías monolingües, que 3 4 2 GENOMA-KB http://genoma.iula.upf.edu:8080/genoma/ http://www.ontoterm.com/ 5 http://www.ugr.es/~oncoterm/ http://www.illc.uva.nl/EuroWordNet/ 80 Multilingualidad en una aplicación basada en el conocimiento el ontológico y el terminológico, relacionados entre sí. Esta distribución posibilita la inclusión de una cantidad considerable de información lingüística en la base terminológica, sin que por ello la ontología tenga que sufrir ningún tipo de modificación. dominio, y el resto de conceptos de la ontología se recuperó a partir de información textual especializada, con la ayuda de recursos léxicos. De esta forma, la información lingüística pasó a estar integrada en un modelo separado de la ontología, con lo que se obtenían dos modelos, Figura 2: Arquitectura de la base de conocimiento GENOMA-KB (Feliu, Vivaldi y Cabré, 2002) 3.3 AGROVOC 4 La Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO) desarrolló el Tesauro AGROVOC (Soergel et al., 2006) a principios de los años 80 con la finalidad de estandarizar el proceso de indexación y recuperación de datos en el dominio de la agricultura, la pesca, la alimentación y otros dominios relacionados como el medio ambiente. AGROVOC se desarrolló por expertos del dominio en inglés, y posteriormente se tradujo al español y al francés. Actualmente está disponible online 6 en 10 lenguas y en proceso de traducción para otras tantas. La estructura del tesauro actual se centra en una representación conceptual basada en la concepción semántica del inglés, con traducciones al resto de lenguas, con lo que la información lingüística estaría integrada en el modelo de la ontología. Todas y cada una de las lenguas comparten un mismo concepto, y los términos se consideran equivalentes entre sí. 6 Niveles de multilingualidad Como ya se ha apuntado, la multilingualidad, en una aplicación sobre un sistema basado en el conocimiento, puede darse en tres niveles diferentes: Interfaz Representación del conocimiento Datos Una vez identificados los niveles en los que se manifiesta la multilingualidad, en los apartados siguientes se analizan cada uno de ellos y se presentan diversas propuestas sobre cómo incorporar la multilingualidad en las ontologías, destacando las ventajas y desventajas de las soluciones propuestas. 5 Interfaz Aunque el análisis de la interfaz ya haya sido tratado por otras áreas más cercanas a la interacción hombre-máquina, queremos dejar patente la idea de que la multilingualidad de una interfaz puede o no conllevar la multilingualidad del resto de la aplicación (el sistema basado en el conocimiento subyacente). http://www.fao.org/aims/ 81 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla Por ello creemos que es conveniente mencionarlo en este estudio para dar una idea más global del alcance de la multilingulidad en todas sus facetas. La multilingualidad en la interfaz puede darse en dos visualizaciones diferentes: visualización de mensajes y visualización de contenido. 5.1 Mensajes Los mensajes de una interfaz pueden ser monolingües o multilingües, y, dentro de los segundos, pueden ser multilingües simultáneamente o no. Figura 3: Ejemplo de mensajes monolingües Figura 4: Ejemplo de mensajes multilingües simultáneos Figura 5: Ejemplo de mensajes multilingües no simultáneos En el segundo caso, la aplicación consultará la base de conocimientos y luego utilizará un recurso multilingüe (diccionario, glosario, base de datos, etc.) para traducir el contenido y mostrarlo a través de la interfaz. En ambos casos, la interfaz resultante sería similar y podría seguir la misma política de simultaneidad o no simultaneidad que se ha mencionado en la visualización de mensajes. Sin embargo, es importante tener en cuenta el que la base de conocimientos sea multilingüe o no para los tiempos de respuesta. En la Figura 3 aparece un ejemplo de interfaz con mensaje monolingüe en inglés. En la Figura 4 se muestra un ejemplo de interfaz con mensajes multilingües simultáneos, es decir, con más de una lengua a la vez (inglés y español en el ejemplo). Finalmente, en la Figura 5 se encuentra un ejemplo de interfaz con mensajes multilingües no simultáneos: se puede ver en varios idiomas pero sólo uno cada vez. 5.2 Contenido La visualización de contenido de forma multilingüe tiene dos posibles vías de resolución: (a) la base de conocimientos es multilingüe, o (b) la base de conocimientos es monolingüe y se usa un sistema de traducción. En el primer caso, la aplicación sólo realizará una consulta a la base de conocimientos para obtener el contenido que mostrará la interfaz en el idioma requerido. 5.3 Ventajas y desventajas Cada una de las soluciones mencionadas presenta ventajas e inconvenientes. La visualización de mensajes de forma simultánea implica que la incorporación de nuevos idiomas requiere la modificación del código de visualización existente. Ahora bien, la visualización no simultánea no implica la modificación de todo el código existente, sino 82 Multilingualidad en una aplicación basada en el conocimiento realización sería una ontología propiamente dicha (ontología de coches, de libros, de profesiones, etc.). Veamos cada una de ellas y las implicaciones de cada uno de los aspectos de la multilingualidad ejemplificando con el caso concreto de las ontologías. la ampliación del número de interfaces y la consiguiente modificación de la parte de interfaz donde se codifican las opciones (banderas en el ejemplo de la Figura 5). En cuanto a los tiempos de respuesta en las consultas, podemos encontrarnos con dos casos: (a) si se dispone de una base de conocimientos multilingüe, el tiempo de obtención de los contenidos que se muestran es el tiempo de respuesta de la base de conocimientos. Esto se debe a que se ha conferido multilingualidad a la base de conocimientos en tiempo de diseño. Sin embargo, para el caso (b) cuando la base de conocimientos es monolingüe, la traducción se realiza en tiempo de ejecución, y el tiempo de obtención de los contenidos es el tiempo de respuesta de la base de conocimientos más el tiempo de respuesta del recurso multilingüe que proporciona la traducción. En este segundo caso, pueden surgir ciertos problemas adicionales como, por ejemplo, la desambiguación, que, en el primer caso, se habrá resuelto en tiempo de diseño. Esto supone que la aplicación tendrá unos tiempos de respuesta diferentes en cada solución. 6 6.1 Información La información sobre la multilingualidad de una representación del conocimiento forma parte de los metadatos de dicha representación. Así, junto con metadatos como el autor o la fecha de creación de la representación del conocimiento, aparecerá la información sobre multilingualidad. En principio, tan sólo sería necesario saber las lenguas en las que la representación (en este caso en particular, la ontología) está disponible. Y decimos en principio porque, como se verá en la parte de modelización, también será necesario expresar los componentes de la representación (de la ontología) que tienen esta multilingualidad. Para ejemplificar esto, tomemos como base una representación de ontología en la que se almacenan como metadatos el autor, la fecha de creación y la dirección URI donde se encuentra. Con la finalidad de ofrecer una realización concreta es recomendable introducir esta información en un estándar o similar, como es el vocabulario de metadatos sobre ontologías OMV (Hartman y Palma, 2006). Para almacenar la información sobre multilingualidad, existen dos posibles soluciones: 1) Concepto lingüístico: Se dispone del concepto Language, con su correspondiente caracterización, y se asocia con el concepto Ontology. Esta relación lleva asociada la información relativa a los componentes que están en dicha lengua. En la Figura 6 se han incluido unas etiquetas bajo el concepto Language a modo de ejemplo, teniendo en cuenta que una lengua tiene diversos componentes (alfabético, con caracteres cirílicos o latinos, por ejemplo, morfosintáctico, léxico y semántico). La multilingualidad pasaría por tener varias relaciones para las diferentes lenguas. Representación del conocimiento La multilingualidad en una representación del conocimiento se tiene que abordar a tres niveles: Información, Modelización y Realización. En cuanto al primero, la Información, se refiere al dato de que la representación del conocimiento se encuentra expresada en varios idiomas. La Modelización es la representación de los componentes que darán multilingualidad a la representación del conocimiento. Finalmente, la Realización es la expresión lingüística real de la multilingualidad en la representación del conocimiento. Tomemos un ejemplo sencillo para la mejor identificación de los niveles: un libro. La información serían los datos del libro (autor, título, año de publicación, país), la modelización sería similar a “páginas impresas consecutivas entre dos pastas y unidas por un lado común llamado lomo” y la realización sería el tomo físico. Igualmente, para el caso de las ontologías, la información está compuesta por los metadatos de la ontología (autor, fecha de creación, etc.), la modelización es la metaontología que describe los componentes de la ontología y sus relaciones (conceptos que tienen atributos y se unen por relaciones...) y la 83 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla Figura 6: Información de multilingualidad con concepto que representa la lengua (Language) 2) Por otra parte, la segunda solución (Figura 7) supone una pérdida de información lingüística sobre la lengua. Por ello, resulta imprescindible realizar una evaluación previa de la información lingüística necesaria para el sistema en concreto. Sin embargo, si se quiere prescindir de este tipo de información, resulta la solución más sencilla, porque tiene menos información lingüística y es más fácil de implementar. Ahora bien, en el caso en que se hiciera una modificación como la propuesta en la opción 2, pero sólo con un atributo en que se indicase la lengua (Language) en vez de la tupla (Component, Language), se perdería la posibilidad de que un componente de la conceptualización pudiera ser multilingüe o monolingüe independientemente del resto de componentes. Modificación del concepto Ontology: Se dispone de un metadato con valor múltiple y ese metadato se representa por medio de tuplas de la lengua y del componente que está en dicha lengua. Figura 7: Informacion de multilingualidad modificando el concepto Ontology En la Figura 6 se puede ver un ejemplo correspondiente a la primera solución y en la Figura 7 se presenta un ejemplo correspondiente a la segunda solución. Cualquiera de las dos soluciones resolvería la expresión de información sobre la multilingualidad. Además, la representación de la información de multilingualidad es independiente del enfoque que se siga para la representación del contenido. 6.1.1 6.2 Modelización La segunda de las perspectivas que hemos mencionado es la modelización. En este ámbito, la modelización de la multilingualidad en ontologías admite tres posibles soluciones: (a) ampliación con información lingüística del metamodelo de ontologías, (b) agregación de un modelo de información lingüística que se relacionará con el metamodelo de ontologías para representar la multilingualidad, y (c) utilización de un modelo de mappings para relacionar ontologías monolingües y obtener así multilingualidad. En los tres subapartados siguientes se muestran diversos ejemplos de modelizaciones que ilustran las soluciones propuestas. En ningún caso se ha pretendido, por razones de espacio, una exhaustividad total en las posibles variantes que permita cada solución, sino que el objetivo es, más bien, facilitar al lector la comprensión de las teorías expuestas, teniendo en cuenta que los ejemplos no son reales pero sí extrapolables. Ventajas y desventajas Veamos ahora las implicaciones de cada una de las dos soluciones. La primera opción (Figura 6) requiere la instanciación del concepto Language con información del dominio lingüístico, lo que no es un trabajo trivial. Además, sistemas que traten con relaciones que lleven asociadas información semántica (en este caso is expressed in lleva asociado component) son difíciles de encontrar. Para superar este handicap se puede optar por una reificación, con lo que toma entidad de concepto Component y se establecen dos relaciones: Composed by entre Ontology y Component y is expressed in entre Component y Language. 84 Multilingualidad en una aplicación basada en el conocimiento 6.2.1 Metamodelo modificado de ontologías En este caso, dentro del metamodelo de la ontología se incluye la modelización de la información de la multilingualidad. Hay que tener en cuenta que esta información se puede precisar a nivel de componentes (clase, propiedad, axioma, etc.) dentro de la ontología. Así, las modificaciones en el metamodelo de la ontología pueden ser más o menos profundas, según el número de componentes al que afecte. Figura 10: Ejemplo de ampliación con multilingualidad en atributos de los conceptos Figura 8: Ejemplo de metamodelo de ontologías Figura 11: Ejemplo de ampliación con multilingualidad en etiquetas relacionadas con los atributos Figura 9: Ejemplo de ampliación con multilingualidad de etiquetas en conceptos, con idiomas previamente fijados Figura 12: Ejemplo de ampliación con multilingualidad en etiquetas relacionadas con los conceptos y atributos En la Figura 8 se puede ver un ejemplo simplificado de un metamodelo de ontologías siguiendo el paradigma de marcos 85 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla En las siguientes figuras presentamos varias modificaciones de ese metamodelo: con multilingualidad en etiquetas de conceptos (Figura 9 y Figura 10); con multilingualidad en etiquetas de atributos (Figura 11); con multilingualidad en etiquetas tanto de conceptos como de atributos (Figura 12) y, finalmente, incluyéndola en etiquetas de conceptos, de atributos y de relaciones (Figura 13). En realidad, puede haber más combinaciones, pero como se ha mencionado antes, no se pretende recoger aquí una relación exhaustiva de todas las posibles. 6.2.2 Metamodelo de ontología y Modelo de recurso lingüístico La creación de un modelo para la información multilingüe utilizando un modelo de recurso lingüístico permite un aumento de las posibilidades de inclusión de información acerca del idioma de expresión de los componentes de las ontologías. El metamodelo de multilingualidad constará, pues, del metamodelo de la ontología, el modelo del recurso lingüístico y los enlaces entre el metamodelo de ontologías y el modelo de recurso lingüístico. La Figura 14 ilustra una posible solución para un modelo de etiquetas (modelo del recurso lingüístico), que no modifica el metamodelo de ontologías que aparece en la Figura 8. En este modelo de recurso lingüístico la etiqueta viene caracterizada por un texto (Text), por ejemplo ‘vino’. Figura 13: Ejemplo de ampliación con multilingualidad en etiquetas relacionadas con tres componentes Figura 14: Ejemplo de modelo de etiquetas Figura 15: Ejemplo de metamodelo de multilingualidad para etiquetas de conceptos 86 Multilingualidad en una aplicación basada en el conocimiento Figura 16: Ejemplo de metamodelo de multilingualidad para etiquetas de conceptos, de atributos y de relaciones Se puede utilizar un modelo de recurso lingüístico con información específica para etiquetas o utilizar uno que modele más información aunque no sea necesaria para este uso. Al igual que en la sección anterior, existen múltiples posibilidades a la hora de combinar las etiquetas y los componentes de la ontología para dotar a estos últimos de multilingualidad. En la Figura 15 se muestra un ejemplo de metamodelo de multilingualidad para etiquetas de conceptos. En la Figura 16 se muestra un metamodelo de multilingualidad para etiquetas de conceptos, de atributos y de relaciones. 6.2.3 Metamodelo de ontología y Modelo de mappings Otra forma de conseguir que el modelo sea multilingüe es mediante la combinación de un modelo de mappings con el metamodelo de ontologías. En este caso, la multilingualidad se consigue con ontologías del mismo dominio pero en diferente lengua (todas monolingües) y mappings de equivalencia entre los términos de las diferentes lenguas. Un ejemplo de este metamodelo se muestra en la Figura 17. Figura 17: Ejemplo de metamodelo de multilingualidad con mappings para etiquetas de conceptos, de atributos y de relaciones 87 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla La finalidad de este metamodelo no es ser un metamodelo de multilingualidad, aunque con él se pueda representar la multilingualidad si atendemos sólo a los mappings que relacionan componentes a través de la función “translate” o “equivalence label”, por ejemplo. Así pues, la multilingualidad puede presentarse de múltiples formas, dependiendo tanto del modelo de mappings que se utilice como del metamodelo de ontologías empleado, y de las relaciones que entre ambos se establezcan. Por ejemplo, si el mapping no es de aridad limitada a dos, es decir, relaciona más de dos elementos, se podría hacer un mapping múltiple entre todos los términos relacionados y de esta forma se evitaría un alto número de mappings binarios entre varias ontologías monolingües. Este metamodelo es el menos intuitivo a este nivel de abstracción, pero quedará suficientemente claro al mostrar las diferentes realizaciones posibles que se derivan de él, y que se analizan en la sección 6.3.3. 6.3 Realización La tercera de las perspectivas apuntadas más arriba es la realización de la multilingualidad, que está unida irremediablemente a la modelización de la misma. Estas acciones son las dos únicas, de las que aparecen en este documento, que tienen una estrecha interrelación, de manera que la una depende de la otra, ya que la realización no es más que la instanciación de la modelización, es decir, el modelo será la instancia del metamodelo. 6.3.1 Información lingüística dentro de la ontología En este primer caso, la realización se corresponde con el enfoque en que se amplía el metamodelo de la ontología para introducir la información lingüística que permitirá la multilingualidad (5.2.1.). Según sea la modificación del metamodelo que se haya seguido obtenemos diversas realizaciones. Así, la Figura 18 muestra un ejemplo de realización del metamodelo de ejemplo mostrado en la Figura 9. Figura 18: Ejemplo de modelo basado en un metamodelo de ontologías ampliado para etiquetas multilingües en conceptos Figura 19: Ejemplo de modelo basado en metamodelo de ontologías ampliado para etiquetas multilingües en conceptos y atributos En el ejemplo de la Figura 18 se observa que existen tres etiquetas que identifican a cada concepto. Sin embargo, tal como se puede ver en la Figura 9, los atributos no tienen multilingualidad al sólo disponer de una etiqueta. Si la ampliación del metamodelo de ontologías afectase de igual forma a los atributos, dotándoles de las mismas tres etiquetas, se obtendría un modelo como el reflejado en la Figura 19. 88 Multilingualidad en una aplicación basada en el conocimiento Figura 20: Ejemplo de modelo basado en metamodelo de ontologías ampliado con etiquetas asociadas a conceptos relacional, una base terminológica, un lexicón multilingüe, un tesauro multilingüe, etc., el número de emparejamientos ‘modelo de ontologías’ – ‘conjunto de instancias del recurso lingüístico’ se dispara. Además, puede darse el caso de que se utilice un metamodelo de ontologías que almacene información lingüística de una lengua en sus etiquetas o bien que las etiquetas de la ontología no pertenezcan a ninguna lengua. Para ejemplificar estas posibilidades se muestran a continuación dos ejemplos reflejados en la Figura 21 y la Figura 22. En la primera de ellas la ontología no contiene información lingüística y toda la información que conforma la multilingualidad está almacenada en el recurso lingüístico, que, para facilitar la comprensión, se ha optado por representar de una manera simplificada. Como se menciona en la sección anterior, se pueden realizar diferentes ampliaciones en el metamodelo de ontología para incluir la información lingüística que permite representar la multilingualidad. En la Figura 20 se puede ver un ejemplo de realización correspondiente al metamodelo que aparece en la Figura 10. 6.3.2 Información lingüística fuera de la ontología Cuando la información lingüística toma entidad y se convierte en modelo separado de la ontología en sí, estamos ante la posibilidad de utilizar metamodelos de multilingualidad que engloben el metamodelo de ontologías, el modelo del recurso lingüístico y las relaciones entre estos dos. Ahora bien, puesto que el modelo del recurso lingüístico puede ser una base de datos Figura 21: Ejemplo de modelo basado en un metamodelo de multilingualidad con metamodelo de ontologías “alingüe” y modelo de recurso lingüístico 89 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla Figura 22: Ejemplo de modelo basado en un metamodelo de multilingualidad con metamodelo de ontologías monolingüe y modelo de recurso lingüístico En cambio, en la Figura 22, podemos ver que la información correspondiente a una de las lenguas está almacenada en forma de etiquetas en la ontología. Para ilustrar mejor estos casos, cabe mencionar, como ejemplo de un sistema real que sigue uno de estos modelos, el sistema Genoma-KB (Cabré et al., 2004a y 2004b). Como se ha visto en el estado de la cuestión, este sistema consta de una ontología con etiquetas que no se atienen a ninguna lengua y una base terminológica en donde se encuentra la información lingüística que dota de multilingualidad a la base de conocimientos. Aunque en los ejemplos mencionados en este apartado se toma, por razones de claridad, la multilingualidad de las etiquetas de los conceptos, no hay que olvidar que pueden existir también otros sistemas con multilingualidad para los diferentes componentes de las ontologías (atributos, relaciones, etc.) y todas sus combinaciones. 6.3.3 Uso lingüística de mappings con función Como ya se ha apuntado en el epígrafe 6.2.3, los modelos basados en un metamodelo de multilingualidad que conste de un metamodelo de ontologías enlazado a un modelo de mappings pueden tener varias realizaciones diferentes según sea el modelo de mappings. Así, aunque se siga el mismo metamodelo de multilingualidad, se pueden obtener diferentes realizaciones siempre que las herramientas lo permitan. Veamos alguna de estas posibilidades. Tomando como base el metamodelo del ejemplo que aparece en la Figura 17, se muestran a continuación tres realizaciones diferentes: con mappings binarios entre conceptualizaciones monolingües en forma de grafo ortogonal (Figura 23), con mappings narios entre conceptualizaciones monolingües (Figura 24) y con mappings binarios entre las conceptualizaciones monolingües y una conceptualización intermedia en forma de grafo radial (Figura 25). Figura 23: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings binarios en grafo ortogonal 90 Multilingualidad en una aplicación basada en el conocimiento Figura 24: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings n-arios Figura 25: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings binarios en grafo radial con mappings binarios, se puede recurrir a la construcción de una conceptualización sin información lingüística que haga las veces de solución reificada de la anterior. La realización que sigue este último modelo, ejemplificado en la Figura 25, es similar a la utilizada por EuroWordNet (Vossen, 2002 y 2004), analizada en el estado de la cuestión, donde la conceptualización intermedia es una Interlingua (ILI) que no pertenece a ninguna de las lenguas que reconoce el sistema. En EuroWordNet las ontologías no son meras traducciones tal y como las tomamos para la realización, sino conceptualizaciones propias de cada lengua. Al igual que se ha explicado en el apartado anterior, todos los modelos de ejemplo correspondientes a esta sección se están tomando como multilingües a nivel de etiquetas de concepto, pero, siempre que lo admita el metamodelo de mappings, se puede representar multilingualidad del componente o conjunto de componentes que se desee. En el caso del modelo de la Figura 24 se pueden ver mappings de aridad tres, pues la aridad ha de ser igual al número de ontologías monolingües del sistema. La gran desventaja de esta solución es que ningún sistema contempla mappings de aridad superior a dos, salvo soluciones ad hoc para operaciones concretas. Sin embargo, para expresar esta misma información de otro modo 91 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla 6.4 Comparativa de las soluciones Objetivo de la Nivel de modificación complejidad Metamodelo 3 n modelos o conjuntos de 2 instancias 1 modelo 1 Para poder elegir entre una de las soluciones que aquí se han expuesto, es necesario disponer de unos criterios básicos sobre los que se apoya la decisión que se vaya a tomar, ponderando para cada caso particular, la conveniencia de cada solución. Para facilitar esta tarea, hemos confeccionado una tabla en donde se reflejan estos datos. Las características y los criterios que se han tomado como referencia son: (a) Número de metamodelos y modelos del metamodelo de ontologías multilingües (f) Complejidad del mantenimiento de la consistencia: este mantenimiento depende del número de modelos y conjuntos de instancias del modelo multilingüe. Cuantos más modelos sean necesarios (más gestores de esos modelos), mayor dificultad habrá en mantener la consistencia. Complejidad (b) Número de modelos y conjuntos de instancias del modelo multilingüe c (constante) n (lineal) n² (cuadrática) (c) Número de razonadores (R): depende del número de modelos y conjuntos de instancias. Nos encontraremos 3 tipos de razonadores: • Razonadores sobre ontologías (OR) • Razonadores sobre mappings (MR) • Razonadores sobre recurso lingüístico (LRR) (g) Disponibilidad real de herramientas y sistemas existentes: este criterio se refiere al número de componentes (gestores, razonadores, etc.) con los que se puede contar realmente. (d) Complejidad de las consultas: el nivel de complejidad de una consulta se infiere del número de modelos y conjuntos de instancias del modelo multilingüe y del número de componentes de ellos que han de ser consultados para obtener el resultado. Así, hemos identificado 5 niveles de complejidad diferentes para nuestro propósito, que estarán comprendidos en un rango de 1 (la más baja complejidad) a 5 (la más alta complejidad). Nivel de complejidad 1 componente 2 componentes 3 componentes 1 modelo o conjunto de instancias 1 2 - Nivel de complejidad 1 2 3 Una vez establecidos los criterios de evaluación, veamos cómo se aplican a los ejemplos de los 3 metamodelos multilingües presentados en la sección anterior. 1) Metamodelo de ontologías modificado. En los ejemplos recogidos en la Figura 9, la Figura 10, la Figura 11, la Figura 12 y la Figura 13, pueden verse los modelos multilingües fruto de la inserción de la información lingüística dentro de una clase del metamodelo de las ontologías. 2 modelos o conjuntos de instancias 3 4 5 En estos modelos, el número de modelos (a) es 1, y, por tanto, el número de razonadores (c) es también 1. El nivel de complejidad de la consulta (d) reflejado en los modelos de la Figura 18 y la Figura 19 es también 1, porque para obtener el resultado se necesita consultar un modelo y un único componente, lo que representa una gran ventaja. Sin embargo, para los modelos multilingües provenientes de incorporar información lingüística como clases dentro del metamodelo de ontologías (Figura 20), la complejidad de la consulta aumenta a 2, ya que en las resoluciones se requiere de dos componentes (las clases con información conceptual y las clases con información lingüística). (e) Complejidad de adición de una nueva lengua: el grado de complejidad que nos encontraremos cuando queramos añadir una nueva lengua a nuestra base de conocimiento depende de los elementos que haya que modificar, pudiéndo estar entre 1 (la menor) y 3 (la mayor): 92 Multilingualidad en una aplicación basada en el conocimiento Por otra parte, para añadir una nueva lengua (e), nos encontramos con algunas limitaciones, porque el número de lenguas en el metamodelo multilingüe de la Figura 10 se ha establecido en tiempo de diseño y, por lo tanto, es fijo. Aumentar el número de lenguas supondría una gran desventaja, porque sería necesario cambiar el metamodelo de toda la base de conocimiento. Por esto es por lo que la complejidad de esta tarea sería 3. En cambio, para el caso de añadir otras lenguas en los casos reflejados en la Figura 10, Figura 11, la Figura 12 y la Figura 13 no haría falta cambiar el metamodelo, con lo que la complejidad de esta tarea sería 1. Metamodelo de ontologías multilingüe Metamodelo ontologías modificando Concept Figura 9 Metamodelo ontologías insertando conceptos Figura 10, Figura 11, Figura 12 y 2) Metamodelo de ontologías + Modelo de recurso lingüístico. Veamos ahora el caso de metamodelos de ontologías enlazados con modelos de recursos lingüísticos (Figura 15 y Figura 16), que se corresponden con los dos ejemplos de modelos multilingües, representados en la Figura 21 y la Figura 22. En estos casos, nos encontramos con 2 modelos o conjuntos de instancias (a), que implican 2 razonadores (c), y el nivel de complejidad de las consultas (d) es 3. Metamodelo ontologías + modelo RL Figura 15 y Metamodelo ontologías + modelo mappings Figura 17 Figura 16 Figura 13 Modelo de ontologías multilingüe Número de metamodelos y modelos (a) Número de modelos y conjuntos de instancias: ontologías (O), mappings (M) y LR (b) Número de razonadores (c) Complejidad de consultas (d) Complejidad de adición de lengua (e) Complejidad mantenimiento consistencia (f) Disponibilidad real (g) Figura 18 y Figura 19 Figura 20 Mappings en distribución ortogonal Mappings en distribución radial Figura 23 Figura 25 2 2 2 2 1(O) + n(O) + n (O) + n+1(O) + 1 (LR) n(n-1)/2 (M) 1(M) n (M) Figura 21 y Figura 22 Mappings de aridad n Figura 24 1 1 1(O) 1(O) 1 OR 1 OR 1 OR 1 LRR 1 OR 1 MR 1 OR 1 MR 1 OR 1 MR 1 2 3 4 5 4 3 1 del recurso lingüístico) 2 1 1 1 1 2 n + n(n+1)/2 n+1 2n+1 SÍ SÍ (depende del recurso lingüístico) SÍ SÍ NO 1-3 (depende Tabla 1: Criterios de selección de soluciones lingüístico. Si ello implica modificación del modelo en el recurso lingüístico la complejidad será 3 (en este caso representará una desventaja Por otra parte, el nivel de complejidad de añadir una nueva lengua (e) puede variar de 1 a 3, dependiendo del modelo del recurso 93 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla importante), pero si sólo se trata de añadir nuevas instancias de la información lingüística, la complejidad será 1. Del mismo modo, el criterio de la disponibilidad de las herramientas y sistemas existentes está condicionado al modelo del recurso lingüístico. sólo un conjunto de instancias de mappings ha de modificarse. • Si el sistema se forma con mappings n-arios (Figura 24) el nivel de complejidad será el mismo que en el caso anterior, ya que sólo habrá que modificar un conjunto de instancias de mappings. 3) Metamodelo de ontologías + Modelo de mappings. El metamodelo de multilingualidad formado por el metamodelo de ontologías y el modelo de mappings (Figura 17) tiene 2 metamodelos o modelos (a), pero el número de modelos de ontologías y conjuntos de instancias de mappings sobre los que mantener la consistencia (f) no es igual para cada instanciación. Así, se obtienen tres diferentes planteamientos, representados en la Figura 23, la Figura 24 y la Figura 25, respectivamente, donde este número varía: • Si el sistema se forma con mappings binarios en una distribución ortogonal (Figura 23) el número es: n (ontologías) + n(n-1)/2 (conjuntos de mappings). Sin embargo, el problema para el uso de la última solución (Figura 24) no es la complejidad asociada que lleve, sino que no existen sistemas y herramientas que sean capaces de manejar mappings de aridad mayor que dos. Para hacer uso de la tabla y obtener la solución más adecuada a nuestras necesidades, habrá de tener en cuenta todas las características de la situación de partida a la hora de crear nuestra aplicación. Así, a los aspectos reflejados directamente en la tabla y que son propios del uso de la aplicación (frecuencia de modificaciones en el número de idiomas, frecuencia de consultas, etc.), se añaden los derivados de las situaciones particulares de cada caso. Por ejemplo, si partimos de cero y queremos crear un sistema basado en el conocimiento y una aplicación multilingüe sobre cualquier plataforma ya existente que gestione este sistema, no implica ninguna restricción adicional a las características intrínsecas del uso de la aplicación. Sin embargo, si partimos de una ontología creada y que está alojada en un determinado servidor que nos conviene mantener, las características de este servidor harán que el número de posibles soluciones a adoptar sea inferior (el servidor puede limitar el número máximo de modelos a usar, no dar soporte a mappings, etc.). • Si el sistema se forma con mappings binarios en una distribución radial (Figura 25) el número es: n + 1 (ontologías) + n (conjuntos de mappings). • Si el sistema se forma con mappings n-arios (Figura 24) el número es: n (ontologías) + 1 (conjuntos de mappings). Estas soluciones tienen una gran desventaja al tener que repetir información conceptual en todas las ontologías (monolingües). La complejidad de las consultas (d) está entre 4 y 5 porque el número de modelos y los multiples componentes que habría que consultar para resolverlas. Una limitación importante a tener en cuenta es el mantenimiento de la consistencia. El número de mappings puede ser muy alto, en consonancia con el número de modelos de ontologías, con lo que la consistencia puede verse amenazada. La adición de una nueva lengua (e) supone un nivel de complejidad bajo: • Si el sistema se forma con mappings binarios en una distrbución ortogonal (Figura 23) el nivel será el más alto de los tres casos, siendo de 2, al ser necesario tener que cambiar n conjuntos de instancias de mappings. 7 Datos El último de los niveles en los que se manifiesta la multilingualidad es en los datos, es decir, la información sobre los individuos. En este caso, vendrá condicionada por la propia naturaleza de los individuos y estará modelada en la representación del conocimiento que se toma para el dominio. Dependiendo de la naturaleza de los datos y del dominio de que se trate, la modelización de la multilingualidad dentro de la representación del conocimiento puede ser muy variada. La • Si el sistema se forma con mappings binarios en una distribución radial (Figura 25) el nivel de complejidad es 1, porque tan 94 Multilingualidad en una aplicación basada en el conocimiento la representación de conocimiento por la característica Language, que es parte de la descripción del concepto (Article o Man). En la Figura 27 se muestra otro ejemplo de datos multilingües, pero en este caso los individuos que aparecen son mono y multilingües. multilingualidad se tratará como otro carácter del dominio que habrá que modelar. En la Figura 26 se muestran dos ejemplos de datos multilingües modelados con una representación del conocimiento monolingüe. En ambos casos, los datos individualmente son monolingües, pero su conjunto es multilingüe y esa multilingualidad está contemplada dentro de Figura 26: Ejemplos de datos multilingües (individuos monolingües) Figura 27: Ejemplo de datos multilingües (individuos multilingües) 8 embargo, aportar la multilingualidad para atributos y relaciones a través de la conexión con un metamodelo de un recurso lingüístico. Se podría incluso optar por tener multilingualidad a nivel de aplicación global para el contenido, realizándose la traducción de las relaciones en tiempo de ejecución, mientras que los atributos se pueden traducir en tiempo de diseño. Hibridaciones Como se ha explicado a lo largo de este trabajo, la multilingualidad de la base de conocimiento se puede dar en uno o en varios componentes de la representación del conocimiento. Por tanto, pueden diseñarse sistemas en los que se haya optado por dotar de multilingualidad a cada componente, mediante una solución distinta. Por ejemplo, se puede tener la multilingualidad correspondiente a las etiquetas de los conceptos dentro del metamodelo de la ontología y, sin 95 Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla 9 ontologías monolingües (c) tiene dos implicaciones importantes: la primera se refiere a la existencia de ontologías en todas y cada una de las lenguas, y la segunda a que la disponibilidad de herramientas que traten con el modelo de mappings dependerá de la aridad de los mismos. Finalmente, cabe destacar la posibilidad de combinar opciones de representación a los distintos niveles e incluso para los distintos componentes, creando de ese modo sistemas híbridos que se pueden adaptar a las necesidades del recurso y, lo que es más importante, dejan la puerta abierta a la reutilización de recursos existentes. Conclusiones Como se ha explicado, el problema de dotar de multilingualidad a las aplicaciones sobre sistemas basados en el conocimiento, también denominado proceso de “localización”, ha adquirido gran importancia. Tras una revisión de diversos recursos multilingües, nos centramos en ofrecer una breve explicación de las nociones más relevantes de los tres niveles que pueden soportar multilingualidad en una de estas aplicaciones, es decir, la interfaz, la representación del conocimiento y los datos. En este trabajo se hace un examen exhaustivo de las diferentes posibilidades de representación y sus implicaciones a nivel técnico. Cabe destacar la importancia de la identificación de las ventajas e inconvenientes en todos y cada uno de los aspectos de la representación del conocimiento, principalmente en la elección de la modelización de la multilingualidad. Los metamodelos de representación de multilingualidad que en este artículo se recogen son tres: (a) Metamodelo de ontología modificado (b) Metamodelo de ontología y Modelo de recurso lingüístico (c) Metamodelo de ontología y Modelo de mappings 10 Agradecimientos El trabajo aquí expuesto ha sido financiado por el proyecto europeo NeOn: Networked Ontologies (FP6-027595). Bibliografía Abascal, J. y R. Moriyón. 2002. Tendencias en interacción Persona-Computador. Revista Iberoamericana de Inteligencia Artificial, Vol. 6, nº 16. Esselink, B. 2000. A practical guide to software lozalization. John Benjamins Publishing. Todos ellos cumplen con la función de proporcionar multilingualidad al sistema. Sin embargo, las implicaciones que se deriven de cada elección pueden tener distintos alcances, como se ha resumido en la Tabla 1, principalmente en cuanto a la complejidad de la consulta y la complejidad que implica la inclusión de una nueva lengua. Así pues, un metamodelo de ontología ampliado con información lingüística (a) presenta distintas modificaciones del metamodelo dependiendo de los componentes de la ontología que vayan a soportar multilingualidad, lo que a su vez implica cambios en la complejidad de la consulta. El caso (b) de agregación de un modelo de recurso lingüístico relacionado con el metamodelo de ontología permite una única conceptualización para todas las lenguas y la independencia de la información lingüística. En cuanto a la complejidad de la consulta, ésta aumenta por la existencia de dos modelos, mientras que la inclusión de una nueva lengua no requiere mayor complejidad que la que plantee el recurso lingüístico. Por último, el uso de un modelo de mappings para relacionar Hartmann, J. y R. Palma. 2006. OMV Ontology Metadata Vocabulary for the Semantic Web, 2006. v. 2.0, available at http://omv.ontoware.org/ Peñas, A. y J. Gonzalo. 2004. Acceso a información multilingüe. Número monográfico de la Revista Iberoamericana de Inteligencia Artificial, Vol. 8. nº 22. Cabré, M. T., C. Bach, R. Estopà, J. Feliu, G. Martínez y J. Vivaldi. 2004a. The GENOMA-KB project: towards the integration of concepts, terms, textual corpora and entities. LREC 2004 Fourth International Conference on Language Resources and Evaluation. Lisboa: European Languages Resources Association. pp. 87-90. Cabré, M. T., R. Estopà y J. Feliu. 2004b. A Specialized Knowledge Base: from Distributed Information to the Specialized Dictionary Construction. 11th EURALEX International Conference Proceedings Lorient: Euralex. pp. 867-872. 96 Multilingualidad en una aplicación basada en el conocimiento Feliu, J., J. Vivaldi y M.T. Cabré. 2002. Towards an Ontology for a Human Genome Knowledge Base. LREC2002. Third International Conference on Language Resources and Evaluation. Proceedings. Las Palmas de Gran Canaria, pp. 1885-1890. ISBN: 295-1740-808. Miller G., R. Beckwith, C. Fellbaum, D. Gross y K. J. Miller. 1990. Revised in 1993. Introduction to WordNet: An On-line Lexical Database. International Journal of Lexicography, 3(4), 235–244. Moreno, A. 2000. Diseño e implementación de un lexicón computacional para lexicografía y traducción automática. Estudios de Lingüística Española, Volumen 9. Soergel D., B. Lauser, A. Liang, F. Fisseha, J. Keizer y S. Katz . 2006. Reengineering Thesauri for New Applications: the AGROVOC Example. http://journals.tdl.org/jodi/article/viewArticl e/jodi-126/111 Vossen, P. 2002. EuroWordNet General Document. Disponible en http://www.vossen.info/docs/2002/EWNGen eral.pdf Vossen, P. 2004. EuroWordNet: a multilingual database of autonomous and languagespecific wordnets connected via an InterLingual-Index. Semi-special issue on multilingual databases, IJL 17/2. 97 Ontologías mixtas para la representación conceptual de objetos de aprendizaje Haliuska Hernández Ramírez Universidad Agraria de la Habana, Cuba [email protected] Maximiliano Saiz Noeda Universidad de Alicante, España [email protected] Resumen: En materia de aprendizaje virtual, son numerosos los recursos que existen y se almacenan en repositorios. La tendencia hacia la estandarización de estos almacenes ha contribuido a mejorar la compartición, búsqueda y recuperación de la información, además de fomentar la interoperabilidad entre las diferentes plataformas existentes. Los metadatos que siguen estos estándares aportan información básicamente sintáctica, por lo que se hace necesaria una estructura semántica que la enriquezca. En este artículo se propone la representación del conocimiento vinculado a los Objetos de Aprendizaje (OAs) ubicados en un repositorio. Nuestra aproximación se basa tanto en el diseño de una ontología que describa la semántica existente en los metadatos así como en la definición de una marco de trabajo sobre ontologías multilingües, relacionadas entre sí por una conceptualización interlingua que describa los dominios de los diversos OAs existentes en los repositorios. Palabras clave: ontologías, e-learning, objetos de aprendizaje, ontología interlingua Abstract: Lot of resources in virtual learning are stored in repositories. The tendency towards standarization of these repositories has improved information sharing, searching and retrieval and fomented the interoperability among existing platforms. The metadata esencially contribute basic syntactic information, so it is necessary a semantic structure to enrich Learning Objects (LOs) management into the repositories. In this paper, the knowledge representation related to the LOs in the repository is proposed. Our approach is based in the design of an ontology to describe metadata semantic and in the definition of a framework with multilingual ontologies to describe different domains for the existing LOs. These domain ontologies can be linked one each other through an interlingua conceptualization. Keywords: ontologies, e-learning, learning objects, interlingua ontology 1 Introducción El incremento sustancial de información en Internet y la necesidad de aprovechar al máximo la gran cantidad de recursos disponibles, han dado a la luz proyectos como la Web Semántica. Esta iniciativa ha estado marcada por el uso de técnicas de representación del conocimiento, con el objetivo de que los ordenadores, además de representar la información almacenada, sean capaces de entenderla y gestionarla inteligentemente. En este proyecto confluyen la Inteligencia Artificial y las tecnologías web y se proponen nuevas técnicas y paradigmas para la representación del conocimiento que contribuyan a la localización e integración de recursos a través de la www (Berners-Lee, ISSN: 1135-5948 2001). La web semántica se apoya en la utilización de ontologías como vehículo para cumplir este objetivo (Gruber, 1993). En la misma medida que la información en la Web se incrementa, también lo hacen los recursos que pueden utilizarse en el sector educativo. El término “objeto de aprendizaje” (OA) ha surgido con la finalidad de compartir recursos y reutilizarlos en el dominio del elearning. Esta definición es aplicable a los materiales digitales creados como pequeñas piezas de contenido o de información (Wiley, 2000) con el objetivo de que puedan ser utilizados en diferentes escenarios educativos. Estos objetos actualmente se organizan en repositorios y son descritos a través de estándares que contribuyen a la interoperabilidad entre las diferentes © Sociedad Española para el Procesamiento del Lenguaje Natural Haliuska Hernández Ramírez, Maximiliano Saiz Noeda plataformas del dominio. Existen diferentes iniciativas de estándares para describir OAs (LOM, Dublin Core, IMS, SCORM, …). Aún así la gestión de objetos de aprendizaje dentro de los repositorios no es óptima sólo con la aportación sintáctica de los metadatos. Se hace necesario incorporar una aportación semántica que describa efectivamente a los OAs, metadatos y las relaciones OA-OA y OAmetadatos. De aquí que el uso de las ontologías no se reduce sólo al ámbito de la Web Semántica sino que se ha extendido al dominio del e-learning, dando lugar a numerosas iniciativas ontológicas que contribuyen a una efectiva gestión tanto interna como externa de los OAs en los repositorios. LoraServer y se han implementado otras aplicaciones periféricas para la creación de metadatos, la indexación o la búsqueda de OAs. Una de las particularidades de este repositorio es el uso del formato Virtua MetaData (VMD) para describir los OAs que se incorporan a este almacén. VMD no es un estándar, sino un tipo de metadato genérico que agrupa los diferentes estándares existentes más empleados (IMS-MD, LOM, SCORM, IMS-LD, CanCore, Dublin Core). La utilización de VMD permite la importación de OAs descritos en cualquier formato o incorporar nuevos objetos, así como la exportación de OAs descritos en el marco cualquiera de los estándares mencionados. Los repositorios actuales de OAs, tales como MERLOT 1 , ARIADNE 2 , EDNA 3 y CAREO 4 , proporcionan un soporte para albergar los objetos y sus metadatos (aunque pueden también almacenar sólo metadatos y una referencia a la ubicación física del recurso). En estos repositorios se garantiza una búsqueda más estructurada que la que se realiza a través de la Web, aunque también permiten revisiones cooperativas de los OAs, de modo que la calidad de la información es cuestionada por los diferentes usuarios del repositorio. La desventaja de estos almacenes es que carecen “de un modelo conceptual que establezca qué es un objeto de aprendizaje y qué descriptores de metadatos hay asociados a cada una de las diferentes conceptualizaciones” (Soto, García, Sánchez, 2006). La información que definen los diferentes estándares es de propósito descriptivo y no está orientada a ser procesada por agentes de software, por lo que se dificulta la generación de conocimiento y la autonomía de agentes que puedan interactuar en los diferentes procesos de un repositorio (búsqueda, recuperación, etiquetado, etc.). A partir de este proyecto, en este artículo se propone el modelado de una ontología para la representación de OAs en repositorios de tipo LOR@, además de la utilización de diferentes ontologías de dominio multilingües que describen los principales conceptos y relaciones existentes en los diversos dominios educativos. 2 2.1 Propuesta de ontologías mixtas Ontologías educacionales Se considera una ontología educacional a cualquiera que pueda ser utilizada en la enseñanza basada en tecnologías Web. Podemos clasificar las ontologías educacionales de la siguiente forma (Devedzic, 2006): Ontología de dominio: describe los conceptos esenciales, relaciones y teorías de los diferentes dominios de interés. Ontología de tareas: los conceptos y relaciones que se incluyen en este tipo de ontología pertenecen a los tipos de problemas, estructuras, partes, actividades y pasos a seguir en el proceso de solución de problemas. Ontología para la estrategia de la enseñanza: provee instructores y actores con la facilidad de modelar experiencias en la enseñanza, especificando el conocimiento y los principios de las diferentes acciones pedagógicas y comportamientos. Ontología de modelo de aprendizaje: se utiliza para construir modelos y es esencial para los sistemas que representan escenarios de aprendizaje adaptativo. Ontología de interfaz: especifica el comportamiento adaptativo y las técnicas en el nivel de interfaz de usuario. Una de las iniciativas desarrolladas en esta línea es el proyecto LOR@ 5 , (Iriarte et al., 2006) que propone una arquitectura para el uso de repositorios de OAs. Dentro de esta arquitectura se ha desarrollado el repositorio 1 http://www.merlot.org/ http://www.ariadne-eu.org/ 3 http://www.edna.edu.au/edna/page1.html 4 http://careo.ucalgary.ca/ 5 http://wiki.contenidos-abiertos.org/doku.php/ uaes:universidad_de_alicante_espana 2 100 Ontologías mixtas para la representación conceptual de objetos de aprendizaje Ontología de comunicación: se utiliza en el intercambio de mensajes entre las diferentes plataformas, repositorios y servicios educativos. Define la semántica en que se basarán los mensajes, por ejemplo, el vocabulario de términos que se utilizarán en la comunicación. Ontología de servicios educacionales: estrechamente relacionada con la ontología de comunicación, está basada en OWL-S y proporciona medios para crear descripciones, procesables por los ordenadores, de los servicios educacionales, de las consecuencias de la utilización de estos servicios y una representación explícita de su lógica. LOM a través de una ontología. La Universidad de Belgrado ha desarrollado una arquitectura basada en ontologías para recuperar información relevante para los OAs y los diseños de aprendizaje (Jovanovi et al., 2006). Sus aportaciones principales son: una ontología dedicada a capturar información del estado actual de un OA dentro del diseño de aprendizaje (actividad de aprendizaje en que se utiliza, ejercicios, etc.) y una ontología basada en el estándar IMS-LD. Cómo se puede apreciar, las aproximaciones descritas se desarrollan en el marco de los diferentes estándares existentes, en aras de solucionar las limitaciones semánticas en la gestión de OAs actualmente. Nuestra propuesta tiene un objetivo más amplio, dado que está dirigida a repositorios heterogéneos de tipo LOR@ y, por tanto, la ontología basada en metadatos que se propone describe las relaciones entre conceptos (comunes o no) de los estándares más utilizados en el campo del elearning. La Figura 1 muestra un fragmento de esta ontología con algunos conceptos esenciales de VMD. En el presente trabajo se propone, por un lado, la definición de una ontología (no incluida explícitamente en la anterior clasificación) basada en VMD que describa los conceptos y relaciones entre los metadatos. Por otro lado, y de acuerdo a esta clasificación, proponemos el uso de un conjunto de ontologías de dominio (desarrolladas en varias lenguas) que representen el conocimiento contenido en los diversos OAs de un repositorio. 2.3 Ontologias de dominios con interlingua 2.2 Diseño de ontologías basadas en metadatos Una de las principales motivaciones de este trabajo es la necesidad de organizar el creciente volumen de recursos desarrollados para el Aula Virtual de Español (AVE) del Instituto Cervantes. AVE es un entorno didáctico que ofrece cursos para aprender español por Internet y para el que se hizo necesaria una estructura que almacenara y gestionara sus recursos. En los últimos años se han desarrollado diversas iniciativas para la representación semántica de metadatos orientadas a tareas como la anotación automática o la recomendación de OAs. Entre estas propuestas cabe citar el trabajo realizado por la Universidad Nacional de Taiwan, Chung Kung, que propone un modelo de recomendación de OAs, etiquetados bajo el estándar SCORM, basado en métodos ontológicos (Tsai et al., 2006). Por otra parte resulta muy interesante la propuesta del departamento de informática de la Escuela Superior de Electricidad, Francia. Esta muestra una herramienta semi-automática para la extracción de OAs a partir de páginas html y etiquetarlos bajo el estándar LOM (Doan, Bourda, Dumitrascu, 2006). Para ello se hace uso de una ontología que describe el estándar. Esta misma institución ha propuesto un sistema educacional basado en múltiples ontologías con el objetivo de facilitar el intercambio de recursos, basados en LOM, con otras instituciones (Doan, Bourda, 2006). Se hace uso también de la descripción semántica de Los repositorios tipo LOR@, como Loraserver, no están dirigidos a un único tipo de recursos (como los que se requieren para la enseñanza del español), sino que son capaces de gestionar OAs de diversas materias. Su arquitectura abierta permite también el intercambio de OAs entre repositorios, lo que hace que usuarios de diversos países y lenguas puedan interactuar con los OAs. Esto contribuye a que el repositorio no sea sólo un almacén heterogéneo de recursos, sino que pueda constar de OAs en diferentes lenguas. A pesar de esto Loraserver, al igual que los repositorios actuales, no dispone de un modelo semántico para representar la información. 101 Haliuska Hernández Ramírez, Maximiliano Saiz Noeda Learning Object Composite Object Unit Of Learning General Description LifeCycle Metadata Organization Resources Learning Design Identifier Ref Type Identifier Status Catalog Entry Identifier IsVisible Level Sequence-used Version Structure Contribute Learning Objective Condition Criteria Action word:taxonpath Language Title Metadata Shema Role Entity Date Descrption Method Component Identifier IsVisble Prerequisite Metadata Shema Keyword Activity Description Coverage Enviroment Activity Activity Structure Esta formado por (IsFormedBy) Es un (Is_a) Role Feedback Description Information Figura 1. Fragmento de ontología que describe metadatos de VMD y sus relaciones de recuperación, búsqueda y etiquetado de objetos independientemente de la lengua. A pesar de lo ambicioso del planteamiento, no es nuestro objetivo el de crear nuevas ontologías de dominio, sino más bien el de definir un marco de interacción de ontologías multilingües (que podrían existir ya) a través de un módulo interlingua (ver Figura 2). Es evidente que el uso de ontologías ofrecerá un entorno enriquecido para prestar servicios y gestionar la terminología de cualquier materia. Esto contribuye a la búsqueda y recuperación de recursos, no sólo proporcionando acceso a los documentos específicos sino también ofreciendo sugerencias relativas a oros recursos potencialmente pertinentes para el tema de interés. Es por esto que nuestra iniciativa propone el uso de ontologías de dominio para representar las relaciones entre los conceptos de las diversas áreas del conocimiento a las que pertenecen los OAs de un repositorio. Estas ontologías pueden, además, ser de naturaleza multilingüe ya que esto contribuye a una mejor representación de los OAs, enriqueciendo sobre todo su búsqueda y recuperación. Esto se convierte en una fortaleza dentro del repositorio, sobre todo en el e-learning donde la información es más importante que el idioma de representación. Para dar solidez a esta estructura ontológica multilingüe, se propone la existencia de una ontología “puente” (fundamentada en la universalidad del inglés como lengua) que sirva de enlace (interlingua) proporcionando relaciones entre clases e instancias de las diferentes ontologías. Esta arquitectura, como ya se ha demostrado en otros recursos semánticos (Vossen, 2000), facilitará las tareas Figura 2: Ejemplo de ontología interlingua para la enseñanza de la sintaxis en español 102 Ontologías mixtas para la representación conceptual de objetos de aprendizaje 2.4 Coverage en VMD podría indicar que este objeto es útil en la enseñanza de la Programación Orientada a Objetos. Conexión metadatos-dominio Además de la definición de una ontología basada en los metadatos del estándar VMD y una arquitectura multilingüe para las ontologías de dominio, proponemos también la posibilidad de cooperación entre ambas representaciones conceptuales. Por otro lado, y aunque hasta el momento no se ha profundizado en este tema, las ontologías de dominio supondrían también una evidente ventaja en cualquier tarea de búsqueda y recuperación multilingüe de objetos de aprendizaje en un repositorio, permitiendo la expansión de las solicitudes (preguntas) así como la de las posibles respuestas. La Figura 3 muestra el esquema de interacción y uso de las ontologías comentadas. Un ejemplo de la utilidad de esta acción conjunta (metadatos y dominio) es el proceso de etiquetado de OAs. Es posible automatizar este proceso desde la extracción de información a través del uso, por ejemplo, de palabras clave definidas en la ontología y presentes en los documentos html a etiquetar. Para esto podemos definir reglas que conjuntamente con la ontología permitan extraer la información necesaria para el etiquetado. Por ejemplo en: Ontologías de Dominio Multilingüe Oración Ontología VMD SV SN ORel det <?xml version “1.0”?> <General> <ExtractFromHtmlTag=”Title” MetaTagID=”Identifier” MetaTagID=”Title”/> <MatchMetaTag=”Description” Step=”12”/> <MatchKeyword=“Subject” Step=”8” MetaTagID=”KeyWords” /> Pron APO SP adj art sust Frase bolsa perro negro Phrase bello SV SV SN SN det FRel APO Pron SP PRel det nom art Pron agg nom art adj sacc hetto cane nero bello Sentence sac chien noir beau VS NS det noun dog ORel APPO bag Pron PS adj art black beautiful se definen las siguientes etiquetas: LoraServer ExtractFromHtmlTag: extrae el texto que se encuentra en la etiqueta html definida. MetaTagID: posiciona el texto extraído a través de cualquier regla en la etiqueta equivalente en el documento XML del metadato. MatchMetaTag: busca en el documento html palabras que coincidan directamente con los campos definidos en el estándar y extrae el texto a partir de la posición “Step”, después de que se encuentra la palabra. MatchKeyword: Busca palabras claves y sitúa el texto extraído a partir de la posición “Step” en la etiqueta correspondiente en el XML del metadato. Documentos heterogéneos multilingües Etiquetado OAs Búsqueda Recuperación Figura 3: Papel de las ontologías en un repositorio LOR@ 2.5 Metodología de diseño Para el diseño de cualquier ontología es necesario contar con una metodología específica. Son muchas las propuestas existentes. De entre ellas podemos destacar algunas como la metodología Cyc (Lenat et al, 1990), en la que primeramente se extrae manualmente el conocimiento común que está implícito en diferentes fuentes para después, cuando se tenga suficiente conocimiento en la ontología, adquirir nuevo conocimiento común usando herramientas de procesamiento de lenguaje natural o aprendizaje computacional. Por otro lado la ontología de dominio colaboraría en este proceso aportando información catalogada en los metadatos e inferida a partir del contenido del documento. Por ejemplo, el campo Coverage describe el escenario óptimo de uso del objeto en cuestión. Así, en el supuesto caso en que se esté catalogando un documento relacionado con los constructores y destructores en C++, es posible determinar a través de una ontología del dominio de la programación que el campo La Metodología de Uschold y King (Uschold et al.; 95) propone los siguientes pasos para desarrollar ontologías: (1) identificar el propósito; (2) capturar los conceptos y relaciones entre estos conceptos y los términos 103 SP Haliuska Hernández Ramírez, Maximiliano Saiz Noeda seleccionan automáticamente los términos relevantes para describir el dominio y acotar la ontología Sensus. Consecuentemente, el algoritmo devuelve el conjunto de términos estructurados jerárquicamente para describir un dominio, que puede ser usado como esqueleto para la base de conocimiento. utilizados para referirse a estos conceptos y relaciones; (3) codificar la ontología. La ontología debe ser documentada y evaluada, y se pueden usar otras ontologías para crear la nueva. En la metodología de Grüninger y Fox (Grüninger et al.; 95) el primer paso es identificar intuitivamente las aplicaciones posibles en las que se usará la ontología. Luego, se utilizan un conjunto de preguntas en lenguaje natural, llamadas cuestiones de competencia, para determinar el ámbito de la ontología. Se usan estas preguntas para extraer los conceptos principales, sus propiedades, relaciones y axiomas, los cuales se definen formalmente en Prolog. La metodología On-To-Knowledge (Staab et al., 2001) aplica ontologías a la información disponible electrónicamente para mejorar la calidad de la gestión de conocimiento en organizaciones grandes y distribuidas. Esta incluye la identificación de metas que deberían ser conseguidas por herramientas de gestión de conocimiento y está basada en el análisis de escenarios de uso y en los diferentes papeles desempeñados por trabajadores de conocimiento y accionistas en las organizaciones. En la metodología Kactus (Bernaras et al, 1996) se construye la ontología sobre una base de conocimiento por medio de un proceso de abstracción. Kactus define los siguientes pasos (1) Especificación de la aplicación, (2) diseño preliminar basado en categorías ontológicas top-level relevantes y (3) refinamiento y estructuración de la ontología. La metodología Terminae (Aussenac-Gilles et al, 2002) aporta tanto una metodología como una herramienta para la construcción de ontologías a partir de textos. Se basa en un análisis lingüístico de los textos, el cual se realiza mediante la aplicación de diferentes herramientas para el procesamiento del lenguaje natural. En particular se usan dos herramientas: (1) Syntex para identificar términos y relaciones; y (2) Caméléon para identificar roles o relaciones. La metodología funciona como sigue. Mediante la aplicación de Syntex obtenemos una lista de posibles palabras y frases del texto y algunas dependencias sintácticas y gramaticales entre ellas. Estos datos se usan como entrada para el proceso de modelado junto con el texto original. La metodología Methontology (FernándezLópez, Gómez-Pérez, Jurista, 1997) permite construir ontologías totalmente nuevas o reutilizar otras ontologías. El entorno incluye la identificación del proceso de desarrollo de la ontología donde se incluyen las principales actividades (evaluación, conceptualización, configuración, integración, implementación, etc.), un ciclo de vida basado en prototipos evolucionados y la metodología propiamente dicha, que especifica los pasos a ejecutar en cada actividad, las técnicas usadas, los productos a obtener y su forma de evaluación. Esta metodología está parcialmente soportada por el entorno de desarrollo ontológico WebODE y propone las siguientes etapas: (1) especificación, (2) conceptualización, (3) formalización, (4) implementación y (5) mantenimiento. La ontología basada en metadatos que se propone en este artículo describirá las relaciones que se establecen entre los conceptos de VMD, donde están reflejados los estándares LOM, SCORM, Dublin Core, CanCore, OAI, IMS-MD, e IMS-LD. Este último se dedica a describir Unidades de Aprendizajes, o lo que es lo mismo: un OA más complejo donde intervienen uno o más recursos y actividades educativas que responden a un diseño de aprendizaje determinado. La propuesta aquí presentada tomará como base la descripción ontológica realizada por Amorim (2006), basada en la especificación IMS-LD en nuestra propuesta agregando nuevos las nuevas relaciones que se establecen entre los conceptos La metodología Sensus (Swartout et al, 1997) es un enfoque top-down para derivar ontologías específicas del dominio a partir de grandes ontologías. En esta metodología se identifican un conjunto de términos semilla que son relevantes en un dominio particular. Tales términos se enlazan manualmente a una ontología de amplia cobertura. Los usuarios 104 Ontologías mixtas para la representación conceptual de objetos de aprendizaje de un conjunto de estándares para etiquetar objetos de aprendizaje, junto con el uso de una estructura multilingüe, encabezada por una ontología interlingua, que modelará el conocimiento de dominio contenido en dichos objetos. La interacción de ambas representaciones dotará a los procesos de gestión y recuperación de OAs de una semántica propia de repositorios inteligentes. de IMS-LD y los de otros estándares. Por estas razones hemos considerado utilizar para la implementación de la ontología la metodología Methontology. En esta primera fase de diseño de la ontología se han tenido en cuenta varios criterios de acuerdo con algunos principios de diseño (Gruber, 1995); Bernaras et al., 1996); (Borgo et al., 1996) ;(Gómez-Pérez, Benjamins, 1999). Por ejemplo, la claridad y objetividad, que significan que la ontología debería proporcionar el significado de los términos definidos al proporcionar definiciones objetivas y también documentación en lenguaje natural; la completitud, coherencia, modularidad, la extensibilidad monótona máxima, lo cual permite la inclusión de nuevos términos sin que se afecten las definiciones existentes. La diversificación de jerarquías para aumentar la potencia proporcionada por los mecanismos de herencia múltiple, también ha sido un aspecto a valorar en el diseño de la propuesta, junto con la minimización de la distancia semántica entre conceptos hermanos, esto significa que se agrupan los conceptos similares y se representan usando las mismas primitivas. A pesar de tratarse de una aproximación aún preliminar, estamos convencidos de que la solvencia de las arquitecturas, estándares y metodologías en que se basa, unido a la poco explorada semántica en objetos de aprendizaje, la hacen una propuesta interesante. Pretendemos, en las etapas inmediatamente siguientes de este trabajo, definir en profundidad las técnicas de recuperación de información desde las ontologías de dominio así como las reglas de etiquetado a partir de la ontología basada en metadatos. Bibliografía Amorim, R. R., Lama, M., Sánchez, E., Riera, A., Vila, X. A. 2006. A Learning Design Ontology based on the IMS Specification. Educational Technology & Society, 9 (1), pp. 38-57. Para la fase de implementación de la ontología propuesta se ha valorado el lenguaje OWL. Una de las ventajas de este lenguaje es su fortaleza para describir las relaciones entre clases, propiedades, etc. Por ejemplo, se puede especificar en OWL si una propiedad es simétrica (Symetric), inversa de otra (InverseOf), si es equivalente (EquivalentProperty), si una clase es una intersección (InterseccionOf) o una unión de otras (UnionOf), etc. 3 Aussenac-Gilles, N., Biebow, B., Szulman, S. 2002. Modelling the travelling domain from a NLP description with Terminae. Workshop on Evaluation of Ontology Tools, European Knowledge. Acquisition Workshop, Sigüenza, España. Bernaras, A., Laresgoiti, I., Corera, J. 1996. Building and Reusing Ontologies for Electrical. Network Applications. Proceedings of the European Conference on Artificial Intelligence (ECAI96), pp. 298302. Conclusiones La representación ontológica de la información relativa a los OAs dentro de repositorios como LoraServer constituye una alternativa para la mejora de servicios tales como la búsqueda, etiquetado, recuperación, etc. Esta semántica incorporada es la base para que agentes de software puedan inferir conocimiento a partir de los axiomas declarados en las ontologías. Berners-Lee, T., Hendler, J., Lassila, O. The Semantic Web. Scientific American. Vol. 284, n. 5. (May, 2001). Borgo, S., Guarino, N., Masolo, C. 1996. Stratified Ontologies: the case of physical objects. Proceedings of the Workshop on Ontological Engineering. Held in conjunction with ECAI96. pp. 5-15. Budapest. Se ha presentado una arquitectura mixta que define una ontología orientada a la conceptualización de los metadatos procedentes 105 Haliuska Hernández Ramírez, Maximiliano Saiz Noeda Devedziz, V. 2006. Semantic Web and education. Springer’s Integrated Series in Information Systems. Learning Technologies (ICALT'06), pp. 669673. Lenat, D.B., Guha, R.V. 1990. Building large knowledge-based systems. Addison-Wesley Publising Company, Inc. 1990. Doan, B., Bourda, Y. 2006. An Educational System Based on Several Ontologies Proceedings of the Sixth International Conference on Advanced Learning Technologies (ICALT'06), pp. 179-183 Soto, J., García, E., Sánchez, S. Repositorios Semánticos para Objetos de Aprendizaje. 2006. Expolearning2006 Barcelona, España. Doan, B., Bourda, Y., Dumitrascu,V. 2006 A Semi-Automatic Tool using Ontology to Extract Learning Objects. Proceedings of the Sixth International Conference on Advanced Learning Technologies (ICALT'06), pp. 92-93 Swartout, B., Patil, R. Knight, K., Russ, T. 1997. Toward distributed use of large-scale ontologies. In AAAI-97 Spring Symposium Series on Ontological Engineering. Tsai, K., Kai, T. Chiu, Che, M., I, T. 2006. A Learning Objects Recommendation Model based on the Preference and Ontological Approaches. Proceedings of the Sixth International Conference on Advanced Learning Technologies (ICALT'06). pp. 3640 Fernández-López M, Gómez-Pérez A, Juristo N 1997 METHONTOLOGY: From Ontological Art Towards Ontological Engineering. Spring Symposium on Ontological. Engineering of AAAI. Stanford University, California, pp. 33–40. Uschold, M., King, M. 1995. Towards a Methodology for Building Ontologies. Workshop on Basic Ontological Issues in Knowledge Sharing. Gómez-Pérez, A., Benjamins, V.R. 1999. Overview of knowledge sharing and reuse components: ontologies and problemsolving methods. In V.R. Benjamins, B.Chandrasekaran, A.Gómez-Pérez, N.Guarino and M.Uschol.d (Eds), Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods, Stockholm, Sweden. Vossen, P. 2000. EuroWordNet: a Multilingual Database withWordNets in 8 languages. The ELRA Newsletter, 5(1):9–10. Wiley, D. 2000. (Ed), Connecting learning objects to instructional design theory: A definition, a metaphor, and a taxonomy. The Instructional Use of Learning Objects: Online Version. Association for Instructional Technology . Gruber, T. R. 1993.A Translation Approach to Portable Ontologies. Knowledge Acquisition. Vol. 5, n. 2, pp. 199-220. Gruber, T. R. 1995. Towards Principles of the Design of Ontologies Used for Knowledge Sharing. International Journal of Human Computer Studies, 43. pp. 907-928. Gruninger, M., Fox, M.S. 1995. The logic of enterprise modelling. In J. Brown & D.O. Sullivan, Eds. Reenginering the Enterprise. pp. 83-98. London: Chapman & Hall. Iriarte, L., Marco, M., Morón, D., Pernías, P. 2006. Architecture Oriented towards the management of Learning Objects Repositories (LOR@). Proceedings of the Sixth International Conference on Advanced Learning Technologies (ICALT'06), pp. 255256. Jovanovi, J., Knight, C., Gaševi, D., Richards, G. 2006. Learning Object Context on the Semantic Web. Proceedings of the Sixth International Conference on Advanced 106 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico Francisco Carrero García Jacinto Mata José María Gómez Hidalgo Manuel Maña López Universidad de Huelva Manuel de Buenaga Rodríguez Universidad Europea de Madrid Escuela Politécnica Superior 28035 Villaviciosa de Odón, Madrid, SPAIN 21071 Palos de la Frontera, Huelva, España {franscisco.carrero,jmgomez,buenaga}@uem.es [email protected], [email protected] Resumen: Unos de los enfoques más prometedores en la Recuperación de Información Croslingüe es la utilización de recursos léxico-semánticos para realizar una indexación conceptual de los documentos y consultas. Hemos seguido esta aproximación para proponer un sistema de acceso a la información para profesionales sanitarios, que facilita la preparación de casos clínicos, y la realización de estudios e investigaciones. En nuestra propuesta se conecta la documentación de los pacientes (la historia clínica), en castellano, con la información científica relacionada (artículos científicos), en inglés y castellano, usando para ellos recursos de gran cobertura y calidad como la ontología SNOMED. Se describe asimismo como se gestiona la confidencialidad de la información. Palabras clave: Recuperación de Información Croslingüe, información biomédica, ontologías, recursos léxicos y semánticos, Unified Medical Language System (UMLS), SNOMED, Medical Subject Headings (MeSH) Abstract: One of the most promising approaches to Cross-Language Information Retrieval is the utilization of lexical-semantic resources for concept-indexing documents and queries. We have followed this approach in a proposal of an Information Access system designed for medicine professionals, aiming at easing the preparation of clinical cases, and the development of studies and research. In our proposal, the clinical record information, in Spanish, is connected to related scientific information (research papers), in English and Spanish, by using high quality and coverage resources like the SNOMED ontology. We also describe how we have addressed information privacy. Keywords: Cross-Language Information Retrieval, biomedicine, ontologies, lexical and semantic resources, Unified Medical Language System (UMLS), SNOMED, Medical Subject Headings (MeSH) 1 Introducción La posibilidad de acceder, utilizando diferentes medios y desde cualquier lugar, al gran volumen de información que se genera cada día en el mundo es el elemento que caracteriza, cada vez más, la época actual. En este marco de innumerables ventajas, también cobra un peso creciente el problema general de la sobrecarga de información, y se hace cada vez mayor la necesidad del desarrollo de técnicas que ayuden a los usuarios a organizar, buscar y comprender la información (Buenaga, Fernández-Manjón y Fernández-Valmayor, 1995). ISSN: 1135-5948 En esta situación, general, se encuentra también, con especial relevancia, el ámbito médico: los investigadores y profesionales en general de este ámbito, necesitan de forma cada vez más crucial, herramientas que faciliten el acceso a la información adecuada a sus necesidades (Hersh y Bhupatiraju, 2003). Como agravante de la situación descrita, la información se encuentra disponible en múltiples idiomas, y no siempre la más relevante se encuentra disponible en el idioma materno del usuario, lo que no impide que sea comprensible para el mismo. Es necesario superar las barreras del lenguaje para entregar al usuario información en varios idiomas, ante © Sociedad Española para el Procesamiento del Lenguaje Natural Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López consultas suyas en uno solo. Ya no se trata de un entorno multilingüe, sino de recuperación croslingüe – Cross-Language Information Retrieval ó CLIR (Grefenstette, 1998). Un entorno de trabajo tan retador exige soluciones nuevas, que pasan por la utilización creciente de recursos léxico-semánticos o de sistemas de traducción de gran cobertura y calidad. En este artículo presentamos una propuesta de método de acceso a la información para el profesional sanitario, que se basa en asociar distintos tipos de información (especialmente clínica y científica) en dos idiomas. El modo previsto de trabajo es la presentación de información científica en inglés y castellano, relacionada de manera conceptual con la historia clínica del paciente objetivo. Esta propuesta se basa en la utilización de una ontología multilingüe específica del dominio biomédico para la representación de los documentos textuales, concretamente SNOMED (Spackman, Campbell y Côté, 1997). La asociación de conceptos de SNOMED a los documentos objetivo se aborda como una tarea de categorización automática (Sebastiani, 2002), y la asociación entre documentos de varios idiomas emplea el Modelo del Espacio Vectorial (Salton, 1989) usando como vocabulario de indexación los conceptos de la ontología. El trabajo aquí descrito se encuentra enmarcado dentro de los proyectos de investigación SINAMED e ISIS 1 (Maña et al., 2006), cuyo objetivo es desarrollar nuevos mecanismos de acceso a la información mediante la aplicación de técnicas de análisis del lenguaje humano, en el ámbito de la biomedicina. Hemos organizado este trabajo del modo siguiente. En la sección 2 se presenta el esquema general de acceso bilingüe, y se presenta brevemente el aspecto funcional de nuestra propuesta. En la siguiente sección se describen y comparan los recursos léxicosemánticos más adecuados para nuestro trabajo. En la sección 4 se introducen las fuentes de información utilizadas en nuestro enfoque, junto con las técnicas actuales y las que nosotros hemos empleado hasta el momento para tratar la información confidencial. A continuación presentamos los elementos técnicos más relevantes de nuestra propuesta, finalizando este trabajo con una presentación de nuestros siguientes pasos. 2 Acceso bilingüe a la información biomédica 2.1 La Recuperación de Información Croslingüe La globalización de la información, especialmente a través de Internet, exige que los sistemas de Recuperación de Información sean capaces de trabajan en entornos multilingües. Un entorno multilingüe es aquél en el que el usuario puede trabajar en varios idiomas, tanto a la hora de plantear consultas como a la de examinar resultados. Por ejemplo, algunos buscadores Web como Google, permiten la recuperación de resultados en múltiples idiomas ante una consulta en español. Hay que resaltar que esta recuperación se realiza identificando los documentos en los que aparecen los términos de la consulta, independientemente del idioma de los documentos. Por ejemplo, la consulta “Java” podría arrojar resultados en múltiples idiomas, al tratarse de un nombre propio. Sin embargo, la consulta “lenguajes de programación orientados a objetos” difícilmente arrojaría resultados que no fuesen en castellano. De manera adicional, los resultados se pueden traducir al idioma nativo del usuario, usando sistemas de traducción automática. Obviamente, este tipo de sistemas ofrecen funcionalidades multilingües limitadas. En los últimos años hemos asistido a un creciente interés por parte de investigadores y desarrolladores en los sistemas de Recuperación de Información Croslingüe – CLIR (Grefenstette, 1998). En este tipo de sistemas, se ofrece la posibilidad de superar de una manera efectiva las barreras del idioma, recuperando documentos en múltiples idiomas ante consultas en uno solo, de manera eficaz. Siguiendo el ejemplo anterior, un sistema croslingüe recuperaría documentos en 1 SINAMED (Diseño e integración de técnicas de generación de resúmenes y categorización automática de textos para el acceso a información bilingüe en el ámbito biomédico) está parcialmente financiado por el Ministerio de Educación y Ciencia (TIN2005-08988-C02-01). ISIS (Sistema Inteligente de Acceso Integrado a la Información de Historial Clínico del Paciente y Documentación Médica Relacionada), ha sido parcialmente financiado por el Ministerio de Industria (FIT-350200-2005-16). Este trabajo ha contado también con la financiación de la Comunidad Autónoma de Madrid, bajo la red de I+D MAVIR (S-0505/TIC-0267) 108 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico castellano e inglés ante la consulta “lenguajes de programación orientados a objetos”, con la misma efectividad que si la consulta también se hubiese expresado en inglés, como “objectoriented programming languages”. Si Internet constituye un marco de referencia para los sistemas de recuperación croslingüe, debido a la abundancia de información en una gran cantidad de idiomas (por ejemplo, Wikipedia), no menos lo es el dominio de la biomedicina. No sólo recursos como MedLine indexan y ofrecen el acceso a medio millón de nuevas referencias al año 2 , sino que los médicos se ven enfrentados de una manera diaria a la tarea de preparar casos de pacientes en base a información científica frecuentemente en otros idiomas. Si la necesidad de sistemas de recuperación croslingüe se hace patente al examinar la búsqueda en la Web, con más razón existe en dominios como el de la biomedicina. En la próxima sección presentamos el esquema de una aplicación de acceso a la información bilingüe (inglés-castellano) para el dominio de la biomedicina, con múltiples aplicaciones para médicos, investigadores y estudiantes. clínica de un paciente objetivo, en español), y se permite acceder a información científica relacionada con el mismo (usualmente, informes científicos aparecidos en revistas de biomedicina, en inglés y castellano). Nuestro sistema tiene tres tipos posibles de usuarios: • Los médicos en ejercicio, al preparar un caso clínico de un paciente concreto. • Los investigadores cuando están analizando un caso arquetípico. • Los estudiantes de ciencias biomédicas cuando están preparando un caso teórico. En los tres casos, el usuario precisa acceder a la información científica más relevante para el diagnóstico y la toma de decisiones sobre pruebas o tratamientos del paciente, bien de manera teórica o práctica. En los últimos dos casos, el historial clínico se ha de presentar convenientemente anonimizado 3 , para evitar que el usuario tenga acceso a datos protegidos por las leyes vigentes de protección de información 4 . El tema de la anonimización, sin ser el centro de este trabajo particular, se discute con detalle en la sección 5. La información científica mencionada puede encontrarse en múltiples idiomas 5 . El problema tipo para un potencial usuario de nuestro sistema es encontrar información científica en inglés y castellano, en relación con un historial en castellano. El elemento clave de nuestra propuesta es el modo de realizar esta conexión entre documentación médica en castellano y en otros idiomas, que tratamos en las próximas secciones. 2.2 Una propuesta de sistema Bilingüe de Acceso a la Información Nuestra experiencia en los proyectos SINAMED e ISIS, incluye la observación de las fuentes de información que utilizan los médicos en su trabajo diario, en entornos como el Hospital de Fuenlabrada. También hemos trabajado con investigadores biomédicos, y con estudiantes de distintas disciplinas médicas (fisioterapia, enfermería, etc.) en el marco docente de la Universidad Europea de Madrid. De dichas observaciones se desprende que los médicos, científicos y estudiantes trabajan con información cuando menos bilingüe, a la hora de preparar casos, o elaborar informes y trabajos técnicos. Con el fin de proporcionar a estos usuarios un acceso más sofisticado y efectivo a la información relevante para su trabajo, hemos ideado un sistema de acceso a la información bilingüe que permite relacionar el documento base de trabajo, el historial clínico, con la información científica relevante al mismo. En este sistema, se presenta un documento principal de trabajo (típicamente la historia 2.3 Técnicas de Recuperación Croslingüe Con el fin de enmarcar adecuadamente nuestro trabajo, se hace necesario discutir aunque sea 3 La anonimización es el proceso por el cual se eliminan o sustituyen todos los datos de un archivo de manera que no sea posible, en ningún caso, reconstruir la información original, identificado directa o indirectamente al sujeto o sujetos mencionados. 4 En el caso de la legislación nacional, el precepto más relevante es la Ley Orgánica 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal (frecuentemente designada como la LOPD). 5 Por ejemplo, en el portal PubMed (NLMb, 2007), se proporciona acceso a más de 33.000 revistas científicas en 60 idiomas, en muchos casos con el texto de los artículos parcial o totalmente disponible en la Web. 2 Según los “Key MEDLINE® Indicators” (NLMa, 2007), se han agregado, por ejemplo, 606.000 referencias en 2005, y 623.089 en 2006. 109 Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López • La práctica inexistencia de recursos lexicosemánticos de suficiente cobertura y calidad para un entorno genérico de recuperación, e.g. los motores de búsqueda en la Web. • Las limitaciones en la eficacia de los sistemas de desambiguación de términos a significados y conceptos, que es también uno de los principales problemas en la calidad de los sistemas de traducción automática. Sin embargo, cada vez existen más recursos del tipo requerido (aunque, desde luego, no de la cobertura necesaria), siendo quizá uno de los más representativos la base de datos léxica EuroWordNet (Gonzalo et al., 1998). Justamente en este trabajo se presenta cómo utilizar la componente independiente del idioma de EuroWordNet, el InterLingual Index (ILI), para realizar una recuperación croslingüe, de la manera más inmediata: usando los conceptos del ILI como elementos de indexación o índices. Sin embargo, la limitada cobertura no inglesa de EuroWordNet, junto con la baja efectividad de la desambiguación necesaria para identificar el concepto asociado a cada término, dificultan enormemente su implantación práctica y efectiva. Sin embargo, existe un número creciente de recursos eventualmente utilizables en Recuperación de Información Croslingüe en biomedicina. En la próxima sección discutimos algunos de estos recursos y cómo se están utilizando. Por otra parte, el tipo de información con la que trabajamos en nuestra propuesta, permiten abordar los problemas de desambiguación con perspectivas de alcanzar la efectividad necesaria para que la recuperación sea precisa. Discutimos estas fuentes de información en la sección 4, para describir con más detalle nuestra propuesta en la 5. brevemente los enfoques generales para la Recuperación de Información Croslingüe. Existen múltiples taxonomías de métodos de este tipo, usualmente organizados en términos de los recursos utilizados para la tarea: diccionarios bilingües, córpora paralelos o comparables, etc. (Eichmann, Ruiz y Srinivasan, 1998; Gonzalo et al. 1998; Schauble y Sheridan, 1997; Volk et al. 2003). Por conveniencia, nosotros tomamos como referencia la clasificación realizada en el capítulo 4 de (Grossman y Frieder, 2004). En dicho capítulo se presentan, tres enfoques básicos para la recuperación croslingüe: 1. Traducción de consultas. La consulta se traduce a todos los idiomas objetivo y se recupera independientemente en cada uno de ellos, fusionando los resultados en una sola lista. Para ello, se utilizan recursos léxicos multilingües (diccionarios bilingües, tesauros, listas bilingües de términos generadas automáticamente, etc.). 2. Traducción de documentos. De manera alternativa a la anterior, se traducen todos los documentos al idioma de la consulta y se recupera en dicho idioma. Una ventaja importante sobre la traducción de consultas es que se dispone de más texto que en la consulta, y es de esperar que la traducción sea más precisa. 3. Utilización de una representación interna para consulta y documentos. En este enfoque, los documentos y la consulta se representan de una manera conceptual, típicamente independiente del idioma. El vocabulario de representación no está formado ya por los términos de los documentos, sino por los conceptos independientes del idioma a los que dichos términos hacen referencia. Identificados los conceptos a los que hace referencia una consulta, se recuperan los documentos indexados bajo ellos, independientemente de su idioma. Los dos primeros métodos, no estando exentos de problemas que se escapan del ámbito de este artículo, son con diferencia los dominantes 6 . El tercer método claramente adolece de dos problemas: 3 Recursos biomédicos y uso en CLIR En esta sección nos centramos en los tres recursos que, tras un análisis detallado conducido en las primeras fases del proyecto SINAMED, hemos considerado que se tratan de los tres de los más relevantes y utilizados en recuperación de información, especialmente croslingüe. Estos recursos son SNOMED, los MeSH y el UMLS. 6 En los artículos y libros citados previamente, el tercer enfoque prácticamente ni se menciona. Por otra parte, en la taxonomía de Grossman y Frieder (2004), este tercer enfoque está también basado en la traducción, pero nosotros nos hemos permitido reinterpretarlo para acomodar nuestro razonamiento. 110 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico 3.1 alfabética de descriptores con las respectivas referencias cruzadas de sinónimos y términos relacionados; la segunda es una clasificación jerárquica que agrupa a todos los descriptores en 16 categorías, que se subdividen a su vez en subcategorías con un mayor nivel de especificidad. Estos árboles de descriptores no constituyen una clasificación exhaustiva de las materias, y se utilizan como guía para las personas encargadas de asignar categorías a documentos. En su última versión, MeSH dispone de 22.997 descriptores, así como de más de 151.000 conceptos suplementarios (Supplementary Concept Records) recogidos en un tesauro separado. Existen también más de 136.000 referencias cruzadas que ayudan a determinar el descriptor de MeSH más apropiado para cada caso. La principal aplicación de MeSH se encuentra en su uso por parte del NLM para indexar artículos de más de 4.800 de las principales revistas biomédicas para la base de datos MEDLINE/PubMED (NLMa, 2007). SNOMED-CT SNOMED-CT (Systematized Nomenclature of Medicine Clinical Terms®) es una extensa terminología clínica desarrollada de manera conjunta por el NHS Connecting for Health y el College of American Pathologists (SNOMED Internacional, 2007). La terminología SNOMED-CT cubre enfermedades, hallazgos clínicos y procedimientos, y ayuda a realizar indexación, almacenamiento, recuperación y agregación de datos clínicos de forma consistente. Para ello, permite estructurar y gestionar por ordenador los registros médicos, reduciendo la variabilidad en la manera en que se pueden adquirir, utilizar y codificar los datos necesarios para el cuidado clínico de los pacientes y la investigación. Sus elementos básicos son: • Conceptos: representan una unidad mínima de significado. • Jerarquías: compuestas por categorías de primer nivel y sus correspondientes subcategorías. • Relaciones: las de tipo “es_un” permiten enlazar conceptos con jerarquías; las relaciones de atributos conectan conceptos entre jerarquías. • Descripciones: términos o nombres asociados a un concepto. La última versión se compone de más de 308.000 conceptos organizados en 19 categorías jerárquicas de primer nivel. Además, contiene más de 770.000 descripciones y más de 924.000 relaciones. Existe una versión en español de SNOMEDCT que mantiene el diseño técnico, la arquitectura, el contenido (tablas de conceptos, descripciones y relaciones, tablas de relaciones históricas, referencias cruzadas con la CIE, etc.), y la documentación técnica relacionada. 3.2 3.3 UMLS El UMLS (Unified Medical Language System) es un sistema desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos. Está compuesto por un meta-tesauro, una red semántica y un lexicón especializado, distribuidos con una serie de herramientas que facilitan su uso (NLMd, 2007). El meta-tesauro es una base de datos multilingüe y multipropósito que contiene información sobre conceptos biomédicos y relacionados con la salud, incluyendo sus diferentes nombres y sus relaciones. La red semántica proporciona una clasificación consistente de todos los conceptos representados en el meta-tesauro, además de un conjunto de relaciones entre dichos conceptos. Todos los conceptos del meta-tesauro tienen asignado al menos un tipo semántico de la red semántica. El lexicón especializado pretende ser un lexicón general que incluye términos biomédicos. La mayoría de los términos que aparecen en los nombres de conceptos del metatesauro aparecen igualmente en el lexicón. Es de reseñar que UMLS se nutre de múltiples lexicones y ontologías, entre los qure se encuentran tanto MeSH como SNOMED. De alguna manera, el UMLS es un “super-sistema” MESH Los Medical Subject Headings (MeSH) son un tesauro desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos (NLMc, 2007). Se compone de una serie de términos asociados a descriptores, dispuestos en una estructura jerárquica que permite realizar búsquedas con diversos niveles de especificidad. Los descriptores de MeSH se organizan de dos maneras distintas: la primera es una lista 111 Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López • En (Marko, Schulz y Hahn, 2005) se presenta el sistema MorphoSaurus, que realiza recuperación croslingüe usando UMLS para la indexación interlingüe, y se realiza un experimento que compara la efectividad de dicho enfoque con uno basado en traducción de consultas, resultando favorable al primero la evaluación. Estos informes, junto con la naturaleza específica de la información con la que trabaja nuestro sistema (y que discutimos a continuación), nos permite concluir que nuestro enfoque es viable y muy prometedor en términos de efectividad. que incluye a los anteriores y proporciona una estructura común a estos y otros recursos. 3.4 Utilización en CLIR Los recursos léxico-semánticos anteriores han sido concebidos desde un principio con el fin de proporcionar modos de acceso más unificados y efectivos a la información biomédica. En conjunto, se han convertido en los vocabularios controlados de indexación de la información biomédica, permitiendo a los usuarios no sólo búsquedas con texto libre a diversos canales de información, sino también búsquedas conceptuales que han demostrado su efectividad en la práctica 7 (Lowe y Barnett, 1994). Con el fin de sistematizar toda la literatura médica, y no sólo la inglesa, han ido apareciendo versiones de los recursos en distintos idiomas, y de manera natural, se han empleado en el desarrollo de sistemas e investigaciones multilingües y croslingües. Por su relación con nuestro trabajo, destacamos los siguientes: • En (Hersh y Donohoe, 1998) se presenta el sistema SHAPIRE Internacional, una adaptación del sistema de recuperación conceptual SHAPIRE a entornos multilingües. Este sistema permite recuperar conceptos de UMLS en inglés ante consultas en múltiples idiomas, incluyendo el castellano y el alemán. Al no devolver textos, no se puede hablar de una herramienta de recuperación de textos plena, pero si incluye su componente fundamental, que es el acceso a los conceptos independientes del idioma a partir de textos (consultas) en múltiples idiomas. • En (Volk et. al, 2002) se describe el enfoque de indexación conceptual usando UMLS que se realiza en el marco del proyecto de investigación europeo MUCHMORE, con el fin de evaluar la viabilidad técnica de construir sistemas de CLIR basados en indexación conceptual interlingüe. El énfasis es en el nivel de procesamiento del lenguaje necesario para alcanzar niveles razonables de calidad en la indexación, que los experimentos permiten afirmar que son suficientes. 4 Fuentes de información La información médica es voluminosa y de extrema complejidad. Uno de los factores con una mayor repercusión en la heterogeneidad del los contenidos médicos es la diversidad de fuentes. Cada fuente (escritos científicos, bases de datos de resúmenes, bases de datos estructuradas o semi-estructuradas, servicios Web o historiales clínicos de pacientes) tiene diferentes elementos y aspectos, como or ejemplo, la existencia o no de una estructura externa del documento, la existencia de texto libre con datos estructurados (tablas con resultados clínicos) o la longitud de los documentos. Estas diferencias en dominio, estructura y escala, dificultan el desarrollo de sistemas robustos e independientes que faciliten el acceso a este tipo de contenidos. Esta dificultad se agrava con la naturaleza multilingüe de la información, y es a lo que pretendemos dar respuesta con nuestra propuesta. En nuestra propuesta, se conectan dos tipos de información que se discuten a continuación. Dado que las historias clínicas contienen información sensible desde un punto de vista de la confidencialidad, también se discute su anonimización. 4.1 Documentación médica Considerando por ejemplo, los artículos científicos médicos, hay miles de revistas científicas en inglés, y el problema crece si consideramos otros lenguajes y fuentes. Medline, la base de datos bibliográfica más importante y consultada en el dominio biomédico constituye un ejemplo principal. Medline almacena referencias a artículos de revistas desde 1966 hasta la actualidad, 7 Una búsqueda en PubMed por “UMLS and information and retrieval” devuelve más de 200 resultados, correspondientes a informes científicos en los que UMLS se utiliza de alguna forma en un sistema de Recuperación de Información. 112 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico historial) e informes de alta (49 informes completos redactados al abandonar un paciente el hospital). En puntos siguientes se dan más detalles sobre este tipo de fuente en inglés. contiene más de 13 millones de referencias, con un crecimiento de entre 1.500 y 3.500 referencias por día. Esta gran cantidad de información hace difícil a los expertos sacar partido de toda la información publicada. En los sistemas desarrollados en nuestros proyectos, para ser probados y evaluados sobre usuarios finales, y para el que nos ocupa en particular, hemos trabajado sobre conjuntos representativos de esta información. En concreto se ha seguido un criterio para seleccionar un conjunto de revistas considerando el lenguaje (castellano e inglés), relevancia de la revista al proyecto (estábamos especialmente interesados en neumonía, enfermedades del corazón y alumbramientos) y acceso libre al texto completo. Teniendo presentes estas guías se seleccionaron: British Medical Journal, Journal of the American Association y las revistas en castellano Archivos de Bronconeumología y Anales de Pediatría. Estas revistas publican artículos de diferentes clases, entre los que hemos seleccionado: scientific papers (trabajos de investigación originales), clinical reviews (revisiones de literatura disponible en un tema), practice (escritos breves que están centrados en historias de casos específicos), técnicas y procedimientos, y noticias. 4.2 4.3 Tratamiento de información confidencial Los historiales clínicos almacenan información que puede ser de gran utilidad en la investigación médica. Sin embargo, como los historiales contienen también información confidencial estos deben ser tratados con la debida cautela. La Ley 16/2003 de Cohesión y Calidad del Sistema Nacional de Salud garantiza la confidencialidad e integridad de los datos en el intercambio de información entre los organismos del Sistema Nacional de Salud. En general, el uso por terceros de información médica que incluya datos personales del paciente requiere el permiso expreso de este. Cuando la información que se desea tratar se encuentra almacenada de cierto tiempo, puede ser imposible conseguir este permiso. En este caso, la anonimización de la información clínica mantiene el nivel de confidencialidad deseado a la vez que permite el acceso a la información (Kalra et al., 2006). La anonimización del historial médico de un paciente consiste en eliminar la información que puede identificar a las personas involucradas en el proceso asistencial; tanto el paciente como los profesionales sanitarios que lo atendieron. La legislación estadounidense, a diferencia de la europea, define en el Health Information Portability and Accountability Act (HIPAA) (US Government, 1996), los elementos que deben ser excluidos en el proceso de anonimización. De entre ellos, destacamos los que suelen aparecer en un historial clínico: nombre y apellidos de los pacientes, representantes legales y familiares; nombres y apellidos de los médicos; números de identificación; números de teléfonos, fax y buscapersonas; nombres de hospitales; direcciones y localizaciones geográficas; fechas. La relevancia, cada vez mayor, de esta tarea está estimulando la organización de congresos, talleres y competiciones como i2b2: Challenges in NLP for Clinical Data: Deidentification Challenge (i2b2 NCBC, 2007). Dentro del proyecto ISIS (Buenaga et al., 2006) se trabajó con dos tipos de documentos pertenecientes al historial clínico del paciente que, en el marco de dicho proyecto, fueron proporcionados por el Hospital de Fuenlabrada. Historiales clínicos El historial clínico del paciente se define como el conjunto de documentos (datos, análisis, diagnósticos y otros tipos de información) que son generados a lo largo del proceso asistencial del paciente. El sistema de registros en papel clásico presenta toda una serie de limitaciones (información poco legible, desorganización, ausencia de consistencia, accesibilidad limitada, garantía incierta de confidencialidad, etc.) que pueden mejorarse con la utilización de registros electrónicos integrados. Alguna de las ventajas del historial clínico electrónico son: mejor accesibilidad a la información y mejora en la confidencialidad, homogenización de datos, visión completa del paciente, coordinación de tratamientos médicos, etc. En sistemas desarrollados en nuestros proyectos, hemos trabajado con información anonimizada en Español del hospital (Hospital de Fuenlabrada) que formaba parte del consorcio, de dos tipos: notas de evolución (9413 notas de evolución de 3666 historiales clínicos diferentes – una media 2,6 notas por 113 Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López <PAC: "PACIENTE:"> <FPAC: (("--")|("\n"))> <FD: ("FDO")> <DR: ("dr.")|("Dra")> void exprBasica():{}{ <PAC>((nombre()(<BLANCO4>)?<FPAC> |… |<FD>firmado() } void firmado():{}{ (<BLANCO1>)*<DR>(<BLANCO1>)*(<DOSPUNTOS>)?nombre()(<FPAC>)?(<BLANCO3>)?(<BLANCO4>)? |<DOSPUNTOS>(blancos())*(<DR>)?(<BLANCO1>)*(<BARRA><DR>)?(<PUNTO>)?(<BLANCO1>)*doctor() |(<PUNTO>)?(<DOSPUNTOS>)?(<BLANCO1>)*(<DR>)?(<PUNTO>)? (<BLANCO1>)*fin_firmado() } Figura 1: Ejemplo de regla sintáctica para la eliminación de nombres de pacientes y médicos. más utilizada es la aplicación de aprendizaje automático. El problema de la anonimización se puede plantear como una tarea de reconocimiento de entidades nombradas (REN), donde las entidades que se desean identificar son los datos con carácter confidencial. Este es el enfoque seguido en todos los trabajos presentados al i2b2. Los participantes en la competición dispusieron de una colección de entrenamiento formada por 671 informes de altas escritos en inglés que incluyen 14.309 entidades con información de carácter personal. En [Guo et al., 2006] los autores hacen uso de Support Vector Machines sobre características a nivel de token y otras específicas para cada tipo de entidad a reconocer. Otra aproximación distinta es la que se propone [Aramaki et al., 2006], donde además de características locales emplean otras dos de carácter global: información de las frases previa y siguiente, y consistencia de etiquetas de clasificación en el informe y en el corpus. También, en una componente de nuestro proyecto SINAMED que hemos evaluado de forma preliminar sobre los datos de I2B2 (para Smoking Challenge), hemos conseguido unos resultados muy cercanos a la media construyendo el clasificador únicamente utilizando atributos léxicos y morfológicos, sobre la arquitectura que estamos desarrollando y que describimos en el punto siguente (en concreto un valor para la f-measure de 0,765 frente a 0,795 de la media). El uso de estos atributos léxicos y morfológicos en combinación con los conceptos de Snomed podrían ayudarnos a obtener mejores resultados. Estos tipos de documentos son las notas de evolución clínica y los informes de alta. Las notas de evolución clínica son informes escritos por los médicos acerca de los cambios que se producen durante el proceso asistencial. El Hospital de Fuenlabrada proporcionó 9.413 notas de evolución pertenecientes a 3.666 historiales distintos, lo que supone una media de 2,6 notas por historial. El tratamiento de esta información requería un proceso previo de anonimización, ya que, contenían nombres de pacientes y médicos. La aproximación elegida, en este caso, fue la de analizar manualmente unas 100 notas de las que se extrajeron alrededor de 120 reglas sintácticas. Mediante la aplicación de estas reglas se consiguió eliminar, de forma automática, 393 nombres de médicos y pacientes. Finalmente, se eliminaron otros 30 nombres de forma manual. En la Figura 1 se muestra un ejemplo de una de las reglas sintácticas utilizadas. Esta regla permite la identificación del nombre del paciente después de la palabra “PACIENTE:” o la del nombre del médico después de la aparición de la expresión “FDO Dr.”. Los informes clínicos de alta constituyen un resumen del proceso asistencial del paciente que redactan los médicos al finalizar dicho proceso. El Hospital de Fuenlabrada proporcionó 49 informes de diferentes servicios hospitalarios: urgencias, urgencias pediátricas, cirugía general y digestiva, pediatría, maternidad, traumatología, medicina interna y medicina intensiva. Para la anonimización de estos informes se llevó a cabo un proceso similar al descrito para las notas de evolución. De esta manera, se eliminó cualquier información personal sobre datos de los pacientes y los médicos que los trataron. A pesar de que la técnica empleada consigue anonimizar ambos tipos de documentos de forma efectiva, en la actualidad, la estrategia 5 Enfoque técnico de nuestra propuesta Nuestra propuesta está basada en los elementos anteriormente descritos. Se propone el desarrollo y evaluación de un sistema de acceso a la información para profesionales y 114 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico HISTORIAL SNOMED.SP SNOMED.EN ARTÍCULOS CIENTÍFICOS (CASTELLANO) ARTÍCULOS CIENTÍFICOS (INGLÉS) Conceptos para un texto Biyección de conceptos Figura 2: Método de conexión de del historial con la información científica relacionada vía e.g. SNOMED. como usuarios del sistema, se está utilizando la ontología SNOMED. • La utilización de técnicas de categorización automática (Sebastián, 2002), y no de desambiguación, para la asignación de conceptos de SNOMED a los documentos objetivo. Nosotros entendemos que en gran medida, los conceptos de SNOMED y en general del UMLS son más categorías temáticas que conceptos semánticos de grano fino como los de e.g. EuroWordNet, por lo que se pretende evitar una aplicación término a concepto, y promover una sistema texto a categoría. Los sistemas de categorización basados en aprendizaje han alcanzado niveles de efectividad comparables a los de profesionales humanos entrenados. Nuestra experiencia en este sentido es prolongada 8 , y avala nuestras perspectivas. Gran parte de la información médica científica se haya clasificada de acuerdo a los vocabularios conceptuales estándar mencionados anteriormente. Sin embargo, la información de los historiales médicos no está clasificada de esta manera. Esto supone un alimitación, dado que nos proponemos realizar la clasificación usando sistemas basados en aprendizaje, que dependen de la existencia de material manualmente clasificado para su estudiantes sanitarios, en el que se relacione la información básica de trabajo (la historia clínica), típicamente en castellano, con la información científica apropiada, típicamente en inglés y castellano. El objeto de este sistema es simplificar la preparación de casos, investigaciones o trabajos, al evitar la necesidad de realizar búsquedas explícitas de información científica, al tiempo que realizar esta búsqueda implícita con mayor eficacia que el propio usuario. El esquema de asociación de las fuentes de información se presenta de forma gráfica en la figura 2. En dicha figura se observa como los historiales médicos se asocian a conceptos de e.g. la ontología de SNOMED en castellano, cuyos conceptos están a su vez asociados a los de SNOMED en inglés de una manera cuasibiyectiva. Por medio de los conceptos en español, se recuperan documentos científicos en español. También se recuperan documentos científicos en inglés usando estos conceptos en inglés, que han sido también asociados de manera automática con dichos documentos. Los pilares del sistema son: • La utilización de técnicas de recuperación croslingüe basadas en indexación conceptual interlingüe, avalada por otros trabajos, y que en nuestro caso se simplifica al no tener que desambiguar consultas sino fragmentos de información más extensos (los historiales clínicos). Inicialmente, y en vista del interés demostrado por los médicos que actuarán 8 Véase como guía e.g. (Gómez et al., 2004; Gómez, Buenaga y Cortizo, 2005). 115 Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña López Finalmente, integraremos los clasificadores en la herramienta y se llevarán a cabo experimentos que permitan validar la utilidad del sistema con cada uno de estos perfiles. entrenamiento. Lo habitual en estas situaciones es utilizar una técnica de bootstrapping, que consiste en clasificar un conjunto semilla de documentos, usarlos para entrenar el sistema, clasificar con él un segundo grupo de documentos, y revisar manualmente las decisiones menos seguras. Repetido iterativamente, este proceso permite construir una colección de datos de una magnitud suficiente de manera efectiva. Una vez obtenida esta colección, el sistema se entrena sobre ella, alcanzando niveles de calidad adecuados en sus decisiones sobre nuevos documentos. 6 Bibliografía Aramaki, E., Miyo, K. Automatic Deidentification by Using Sentence Features and Label Consistency. Proceedings of the Workshop on Challenges in Natural Language Processing for Clinical Data, 2006. Buenaga, M., Fernández-Manjón, B., Fernández-Valmayor, A, “Information Overload at the Information Age”. Collis, B., Davies, G. (eds) “Innovating Adult Learning with Innovative Technologies”, Ed. Elsevier, 1995. Conclusiones y trabajo futuro En este artículo, se ha presentado una visión de cómo conseguir el acceso a informes científicos en inglés y castellano a partir de un historial en castellano, utilizando para ello una categorización automática respecto a una ontología bilingüe. También se han discutido las diferencias fundamentales entre dos de las ontologías más relevantes en el ámbito biomédico: SNOMED y MESH. Se han descrito las fuentes de información más significativas en el marco del problema, considerando el aspecto fundamental de la confidencialidad de la información médica que incluye datos de carácter personal. Para solventar este problema, se ha expuesto la solución utilizada sobre dos colecciones de documentos proporcionadas por el Hospital de Fuenlabrada y se han discutido soluciones distintas sobre colecciones de informes de alta en inglés. En el futuro planificamos integrar en un sistema, la categorización de los documentos, la recuperación de los mismos y la anonimización de los informes médicos. Este sistema debe permitir un acceso personalizado en función del perfil del usuario. Se han concebido tres perfiles de usuario para el sistema: médicos en atención hospitalaria, investigadores médicos y alumnos de titulaciones relacionadas con la biomedicina. Con la ayuda de un número significativo de usuarios de cada perfil, se diseñarán las interfaces adecuadas. Una vez completada esta primera fase, hemos planificado la realización de implementaciones más efectivas de los distintos clasificadores que forman el sistema. Estas nuevas implementaciones se evaluarán sobre colecciones de referencia, como la utilizada en i2b2 para la anonimización. Buenaga, M., Maña, M.J., Gachet, D., Mata, J., 2006. The SINAMED and ISIS Projects: Applying Text Mining Techniques to Improve Access to a Medical Digital Library. LNCS: Research and Advanced Technology for Digital Libraries, vol. 4172, pp. 548-551. Eichmann, D., Ruiz, M.E., y Srinivasan, P. , 1998. Cross-Language Information Retrieval with the UMLS Metathesaurus. SIGIR'98 21st International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, August 24 – 28. Gómez, J.M., Cortizo, J.C., Puertas, E., Ruíz, M., 2004. Concept Indexing for Automated Text Categorization. In Natural Language Processing and Information Systems: 9th International Conference on Applications of Natural Language to Information Systems, NLDB 2004, Salford, UK, June 23-25, 2004, Proceedings, Lecture Notes in Computer Science, Vol. 3136, Springer, pp. 195-206. Gómez, J.M., Buenaga, M. de, Cortizo, J.C., 2005. The Role of Word Sense Disambiguation in Automated Text Categorization. Montoyo, A.; Muñoz, R.; Métais, Elisabeth (Eds.), Natural Language Processing and Information Systems: 10th International Conference on Applications of Natural Language to Information Systems, NLDB 2005, Alicante, Spain, June 15-17, Proceedings, Lecture Notes in Computer Science, Vol. 3513, Springer, pp. 298-309. 116 Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico Gonzalo, J., Verdejo, F., Peters, C. y Calzolari, N., 1998. Applying EuroWordNet to CrossLanguage Text Retrieval. Computers and the Humanities, 32, 2-3, 185-207. http://www.nlm.nih.gov/bsd/bsd_key.html. Acceso: 28 de enero de 2007. NLM (National Library of Medicine), 2007. PubMed. URL: http://www.pubmed.gov/. Acceso: 28 de enero de 2007. Grefenstette, G., (ed.) 1998. Cross-language information retrieval. The Kluwer international series on information retrieval 2, Kluwer Academic. NLM (National Library of Medicine), 2007. Medical Subject Headings. URL: http://www.nlm.nih.gov/mesh/. Acceso: 28 de enero de 2007. Grossman, D.A., Frieder, O., 2004. Information Retrieval: Algorithms and Heuristics. Second Edition. Springer. NLM (National Library of Medicine), 2007. Unified Medical language System. URL: http://www.nlm.nih.gov/research/umls/. Acceso: 28 de enero de 2007. Guo, Y., Gaizauskas, R., Roberts, I., Demetriou, G., Hepple, M., 2006. Identifying Personal Health Information Using Support Vector Machines. Proceedings of the Workshop on Challenges in Natural Language Processing for Clinical Data. Salton, G. 1989. Automatic text processing: the transformation, analysis and retrieval of information by computer. Addison-Wesley, Reading, US. Hersh, W.R., Donohoe L.C,, SAPHIRE International: a tool for cross-language information retrieval. Proceedings of the 1998 AMIA Annual Symposium, 1998, 673677. Schauble, P. y Sheridan, P., 1997. CrossLanguage Information Retrieval (CLIR) Track Overview. The Sixth Text REtrieval Conference (TREC-6), National Institute of Standards and Technology (NIST), Special Publication 500-240. Hersh, W. y Bhupatiraju, R.T., 2003. TREC Genomics Track Overview. NIST Special Publication: SP 500-255 (The Twelfth Text Retrieval Conference), pp. 14-23. Sebastiani, F. 2002. Machine Learning in Automated Text Categorization. ACM Computing Surveys, 34(1):1-47. SNOMED International, 2007. SNOMED-CT. http://www.snomed.org/snomedct. URL: Acceso: 28 de enero de 2007. i2b2 (Informatics for Integrating Biology and the Bedside) National Center for Biomedical Computing (NCBC), 2007. Challenges in Natural Language Processing for Clinical Data. URL: https://www.i2b2.org/NLP/. Acceso: 28 de enero de 2007. Spackman, K.A., Campbell, K.E, Côté, R.A., 1997. SNOMED-RT: a reference terminology for health care. Proceedings of the AMIA Annual Fall Symposium, pp. 6404. Kalra, D., Gertz, R., Singleton, P., Inskip, H.M., 2006. Confidentiality of personal health information used for research. British Medical Journal, vol. 333, pp. 196-198. US Government, 1996. Health Information Portability and Accountability Act. Washington, D.C.: US Government Printing Office. Lowe, H. y Barnett, G. 1994. Understanding and Using the Medical Subject Headings (MeSH) Vocabulary to Perform Literature Searches. Journal of the American Medical Association,271(14):1103–1108. Volk M, Ripplinger B, Vintar S, Buitelaar P, Raileanu D, Sacaleanu B., 2002. Semantic annotation for concept-based cross-language medical information retrieval. International Journal of Medical Informatics, 67 (1-3), pp. 97-112. Marko, K., Schulz, S., Hahn, U., 2005. MorphoSaurus--design and evaluation of an interlingua-based, cross-language document retrieval engine for the medical domain. Methods of Information in Medicine, 44(4), pp. 537-45. NLM (National Library of Medicine), 2007. Indicators. URL: Key MEDLINE® 117 Mejora de los sistemas multimodales mediante el uso de ganancia de información Manuel Carlos Díaz Galiano Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 [email protected] Arturo Montejo Raez Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 [email protected] Mª Teresa Martín Valdivia Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 [email protected] L. Alfonso Ureña López Universidad de Jaén Campus Las Lagunillas, Edif. A3. E-23071 [email protected] Resumen: En este trabajo se discute la utilización de la ganancia de información (IG) para reducir y mejorar la información textual incluida en los sistemas de recuperación de información multimodal. Además se muestran los distintos experimentos realizados combinando esta técnica de reducción con la mezcla de información visual y textual, para comprobar que la información textual consigue mejorar los sistemas multimodales convencionales. Palabras clave: Recuperación de Información Multimodal, Ganancia de Información, Corpus médicos multimodales Abstract: This paper discusses the use of information gain (IG) to reduce and improve the textual information included in multi-modal information retrieval systems. Furthermore, a number of experiments are described that combine this reduction technique with a visual- and textual-information merge. These show that the textual information manages to improve conventional multi-modal systems. Keywords: Multimodal Information Retrieval, Information Gain, Medical Multimodal Corpus 1 Introducción La ingente cantidad de información disponible electrónicamente en cualquier formato pone de manifiesto la necesidad de desarrollar técnicas que permitan acceder a dicha información de una manera eficiente. Actualmente, la información disponible electrónicamente tiende a ser cada vez más multimodal, incluyendo cualquier tipo de información. La adición de imagen y sonido a los sistemas informáticos suponen un gran avance tecnológico desde el punto de vista del usuario puesto que la comunicación humana es intrínsecamente multimodal (incluye sonidos, textos, fotografías, imágenes en movimiento…) (Lewis et al, 2006). Sin embargo, sería un error pensar que simplemente el tener más información, aunque esta información sea multimodal, puede resolver los problemas de acceso a la misma de ISSN: 1135-5948 manera eficiente. Todo lo contrario, si no disponemos de sistemas que sean capaces de realizar una recuperación eficaz, no importará la calidad de la información disponible puesto que no seremos capaces de acceder a ella aunque esté ahí. Los sistemas de recuperación de información visual o sistemas de recuperación de imágenes basados en contenido, han sido denominados de diversas formas: sistemas CBIR (Content Based Information Retrieval), CBVIR (Content Based Visual Information Retrieval) o QBIC 1 (Query by imagen content), este último fue el nombre que IBM dio a su primer sistema implementado en los años 90. Un sistema CBIR es una aplicación que busca dentro de una colección de imágenes aquellas que son semejantes o que tienen un contenido similar a una imagen dada como consulta. Que 1 http://wwwqbic.almaden.ibm.com/ © Sociedad Española para el Procesamiento del Lenguaje Natural Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López dichos sistemas sean basados en contenido significa que la búsqueda se realiza basándose en las características y el contenido de la imagen y no en otro tipo de información añadida manualmente, como por ejemplo el título de la imagen o palabras clave 2 . La primera vez que se utilizó el término CBIR fue por Kato (1992), para describir sus experimentos donde realizaba una recuperación visual basándose en los colores y las formas de las imágenes. Actualmente, están generando bastante interés sistemas en los que además de almacenar imágenes se incluye cierto texto asociado a dichas imágenes (meta-datos). Es el caso, por ejemplo, de los expedientes médicos en los que una radiografía puede tener asociada una información textual relativa al historial clínico del paciente, al comentario de un especialista sobre la radiografía, información sobre el tratamiento propuesto al paciente… Otro ejemplo sería una colección de fotografías con comentarios sobre las mismas. Las fotografías pueden ser cuadros de un museo, fotografías asociadas a noticias en un periódico o catálogos de productos de cualquier tipo. Una manera de recuperar información en este tipo de sistemas podría incluir la recuperación visual por una parte, la recuperación textual por otra, y finalmente, una mezcla de resultados parciales (visuales y textuales) que persigan la optimización de la respuesta dada. Un ejemplo práctico de la utilización de un sistema mixto (CBIR+IR), lo tenemos en el trabajo diario de un médico. Éste posee casos clínicos de sus pacientes. Dichos casos están compuestos por textos descriptivos del caso e imágenes que ilustran la dolencia. Con un sistema CBIR, ayudado por un sistema IR, como el que se muestra en la Figura 1, el médico podría utilizar una imagen de una dolencia (por ejemplo, una radiografía) y obtener información de casos similares a dicha dolencia. Por lo tanto, la recuperación sería tanto visual como textual, ya que los casos están compuestos tanto por información textual del caso como por imágenes. Cabe pues plantearse que una recuperación eficiente del texto puede ayudar a mejorar la calidad de los sistemas multimodales en general. El texto puede beneficiarse de las imágenes y viceversa. De hecho, así se pone de manifiesto en distintos foros y conferencias realizadas en los últimos años (Clough et al., 2006, Declerck et al., 2004, Müller et al., 2006). En una colección con gran cantidad de metadatos nos encontramos con la problemática de elegir aquellos metadatos que son de mayor utilidad y desechar aquellos que pueden añadir información no relevante (ruido) en nuestro Recuperar los casos de dichas imágenes Buscar imágenes similares Casos Clínicos Obtención de las imágenes de los casos más relevantes Mezclar imágenes y casos clínicos Recuperar los casos de dichas imágenes Casos Clínicos Figura 1: Ejemplo de utilización de un sistema mixto CBIR + IR 2 http://en.wikipedia.org/wiki/CBIR 120 Mejora de los sistemas multimodales mediante el uso de ganancia de información • • sistema. La ganancia de información es una técnica a través de la cual podemos seleccionar aquellos metadatos que aportan mayor información al sistema ignorando aquellos que no sólo no aportan información alguna, sino que en ocasiones incluso introducen ruido y pueden distorsionar la respuesta del sistema. En este trabajo se propone el uso de la ganancia de información como técnica para mejorar la calidad del corpus textual asociado a una colección de documentos que representan expedientes médicos. Una mejora del corpus textual implica una mayor eficacia en la recuperación de este tipo de información, lo que repercute directamente en la eficacia del sistema multimodal global. El resto de este artículo se organiza de la siguiente manera. En primer lugar, se hace una breve introducción a la ganancia de información, indicando su formulación y sus principales aplicaciones. A continuación se describe la colección de documentos que se ha utilizado para realizar los experimentos. En el apartado 4 se explica cómo se ha utilizado la ganancia de información para seleccionar las etiquetas con mayor información sobre la colección de documentos multimodales. En el apartado 5, se presentan los experimentos realizados sobre la colección multimodal así como los resultados obtenidos. Por último, se muestran los resultados obtenidos y se presentan las conclusiones junto con un avance sobre la orientación de los trabajos futuros que dan continuidad a esta investigación. 2 H(C): es la entropía del sistema H(C|E): es la entropía relativa de sistema conocido el valor de la etiqueta E. La entropía del sistema nos indica el grado de desorden del mismo y viene dada por la siguiente fórmula: |C| H(C) = −∑ p(ci )log 2 p(ci ) donde p(ci) es la probabilidad del valor i. La entropía relativa se calcula de la siguiente manera: H(C | E) = |E| ⎛ |C| ⎞ (3) = ∑ p(e j )⎜⎜ − ∑ p(ci | e j )log 2 p(ci | e j ) ⎟⎟ j=1 ⎝ i=1 ⎠ donde p(ei) es la probabilidad del valor i para la característica e, y p(ci|ej) es la probabilidad de ci relativa a ej La principal aplicación de la IG es la selección de características. Por lo tanto, es un buen candidato para la selección de aquellos meta-datos que son útiles para el dominio en el que se usa la colección. La IG se ha empleado en multitud de estudios (Quinlan, 1986), la mayoría de ellos de clasificación. Algunos ejemplos son la categorización de textos (Text Categorization – TC) (Yang y Pedersen, 1997), aprendizaje automático (Machine Learning – ML) (Mitchell, 1996) o detección de anomalías (Anomaly Detection – AD) (Lee y Xiang, 2001). Nosotros partimos de una colección multimodal que representa informes médicos consistentes en a un conjunto de imágenes médicas, y a cada una de ellas se asocia información textual mediante diferentes etiquetas (meta-datos) algunas de las cuales no aportan apenas información. Por ejemplo, este es el caso de la etiqueta LANGUAGE, ya que esta etiqueta contiene el mismo valor para toda la colección. Con la finalidad de depurar y mejorar la calidad del corpus textual, hemos calculado la ganancia de información de las etiquetas para poder realizar una selección de aquellas que aporten una información más discriminante. Ganancia de Información La Ganancia de Información (Information Gain – IG) es una medida basada en la entropía de un sistema, es decir, en el grado de desorden de un sistema (Shannon, 1948). Esta medida nos indica cuánto se reduce la entropía de todo el sistema si conocemos el valor de un atributo determinado. De esta forma, podemos conocer cómo se relaciona el sistema completo con respecto a un atributo, o lo que es lo mismo, cuánta información aporta dicho atributo al sistema. La fórmula para calcular la IG es la siguiente: IG(C|E) = H(C) − H(C|E) (2) i=1 (1) 3 Descripción de la colección multimodal donde • IG(C|E): es la ganancia de información de la etiqueta o característica E, Para realizar los experimentos se ha utilizado la colección suministrada por la organización de la 121 Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López competición CLEF (Cross Language Evaluation Forum) 3 en la tarea concreta sobre recuperación de imágenes médicas (Müller et al., 2006). Esta tarea se conoce como ImageCLEFmed 4 . La colección de documentos proporcionada para esta subtarea está formada por 4 subcolecciones de datos: CASImage, Pathopic, Peir y MIR, e incluyen unas 50,000 images. Cada subcolección se organiza en “casos” (véase Figura 2). Un caso está formado por una o varias imágenes (dependiendo de la colección) y un conjunto de anotaciones en formato texto asociadas a dicha imagen. Las anotaciones están marcadas con etiquetas y constituyen los metadatos de la colección. Algunos casos incluyen también otras imágenes relacionadas con el caso. Por ejemplo, se puede tener una imagen de una radiografía de un femur, y asociada a esta imagen disponer de otras que muestren secciones del mismo femur, una resonancia magnética, una fotografía, etc. La colección CASImage 5 contiene unas 8.725 imágenes agrupadas en 2.076 casos. Esta colección está compuesta de imágenes de escáner, rayos x, ilustraciones, fotografías y presentaciones. El 20% de los casos está en inglés y el resto en francés. La colección MIR (Mallinckrodt Institute of Radiology) 6 contiene 1.177 imágenes de medicina nuclear repartidas en 407 casos. Cada caso contiene anotaciones en inglés. Los casos de la colección PEIR (Pathology Education Instructional Resource) 7 sólo contienen una imagen por caso. Dicha colección contiene 32.319 imágenes con sus respectivos casos anotados en inglés. La información sobre las imágenes es muy escasa, aunque está bien clasificada en campos. La colección PathoPIC 8 contiene 7.805 imágenes de patologías. Al igual que la colección PEIR, existe una sola imagen por caso, aunque cada caso está anotado en dos idiomas, alemán e inglés. El idioma original de los casos es el alemán, por lo que las anotaciones en inglés son traducciones de dichos casos. Para generar la colección textual se utiliza un fichero índice que permite determinar qué imágenes y anotaciones textuales pertenecen a cada caso 9 . Las anotaciones textuales están en formato XML y la mayoría se encuentran escritas en inglés, sin embargo, el 80% de la subcolección CASImage está etiquetada en francés. Esto implica que antes de preprocesar <ID>3349</ID> <Description>On the frontal and lateral chest x-rays, perivascular haziness is visible with a ground glass and diffuse nodular infiltrate.</Description> <Diagnosis>Acute eosinophilic pneumonia</Diagnosis> Metadatos del caso <ClinicalPresentation>Patient with a fever and respiratory insufficiency since 5 days.</ClinicalPresentation> <Commentary>The diagnosis was based on a bronchoscopy with bronchoalveolar lavage, demonstrating eosinophilia > 25%, as well as the absence of parasites or any other pathogen. … Imágenes Figura 2: Ejemplo parcial de un caso de la colección CASImage 6 http://gamma.wustl.edu/home.html http://peir.path.uab.edu 8 http://alf3.urz.unibas.ch/pathopic/intro.htm 9 Para más información de la organización de la colección consultar la página del CLEF (http://ir.ohsu.edu/image/2005protocol.html) . 7 3 http://www.clef-campaign.org/ http://ir.ohsu.edu/image/ 5 http://www.casimage.com 4 122 Mejora de los sistemas multimodales mediante el uso de ganancia de información la colección completa es necesario realizar la traducción automática de las anotaciones del francés al inglés. Para ello se ha utilizado un traductor automático a través de Internet. Concretamente, se ha utilizado el traductor online Reverso 10 . La colección Pathopic contiene anotaciones en inglés y en alemán pero el corpus es paralelo (las mismas anotaciones en inglés están también en alemán). En este caso, simplemente se han ignorado las anotaciones en alemán y sólo se han incorporado a la colección completa las anotaciones en inglés. Algunos casos (aunque muy pocos) no contienen ninguna anotación. La calidad de los textos de las colecciones varía de una subcolección a otra, e incluso dentro de la misma subcolección. Se considera que por cada imagen se tiene un documento textual con las anotaciones sobre el caso. Si un caso tiene más de una imagen asociada, el texto del caso se repite tantas veces como imágenes contenga, tal y como se muestra en la Figura 3. De esta manera, se genera la colección textual completa con todos los documentos de cada una de las subcolecciones. Tomando como ejemplo de partida el caso de la Figura 2, la descomposición se realizaría de acuerdo al esquema mostrado en la Figura 3. 4 Selección de etiquetas Para depurar y mejorar la calidad de la colección de documentos, se ha aplicado la ganancia de información con el fin de permitir la selección de las mejores etiquetas y eliminar aquellas que no aportan apenas información. Para ello, se ha calculado la IG para cada una de las etiquetas de cada subcolección. Puesto que cada subcolección CASImage, Pathopic, Peir y MIR tiene un conjunto de etiquetas diferente, la IG se calcula en el ámbito de cada subcolección, independientemente del resto. Si tomamos la formula (1), C sería el conjunto de casos y E el conjunto de posibles valores de la etiqueta XML de nombre E. Para calcular el valor de IG, se calcula la entropía del conjunto de casos C como: |C| H(C) = −∑ p(ci )log 2 p(ci ) = i=1 1 1 1 log 2 = −∑ = −log 2 | C | | C | | C | i=1 |C| Y la entropía del conjunto de casos C condicionada por la etiqueta E como: <ID>3349</ID> <Description>On the frontal and lateral chest x-rays, perivascular haziness is visible with a ground glass and diffuse nodular infiltrate.</Description> <Diagnosis>Acute eosinophilic pneumonia</Diagnosis> … Case3349_En.xml 13187.jpg 13188.jpg <ID>3349</ID> <Description>On the frontal and lateral chest x-rays, perivascular haziness is visible with a ground glass and diffuse nodular infiltrate.</Description> <Diagnosis>Acute eosinophilic pneumonia</Diagnosis> … <ID>3349</ID> <Description>On the frontal and lateral chest x-rays, perivascular haziness is visible with a ground glass and diffuse nodular infiltrate.</Description> <Diagnosis>Acute eosinophilic pneumonia</Diagnosis> … 13187.xml 13188.xml Figura 3: Extracción de la anotación textual de cada imagen 10 (4) http://www.reverso.net 123 Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López mayor IG de 10 en 10 por ciento sobre el total, empezando en el 10% hasta el 100% de las etiquetas. También se han realizado experimentos con una colección que utiliza todas las etiquetas (sin aplicar el filtro por frecuencias comentado anteriormente). Además de la colección multimodal, la organización del CLEF también pone a disposición de los participantes 25 consultas compuestas por una o varias imágenes y por un texto asociado. H(C | E) = | C e | ⎛ |C| 1 1 j ⎜ −∑ log 2 ⎜ | Ce j=1 | C | ⎜ i=1 | C e | j j ⎝ |Ce j | | C ej | 1 log 2 = −∑ | Ce | i=1 | C | ⎞ ⎟ = (5) | ⎟⎟ ⎠ |E| =∑ j donde Cej es el subconjunto de casos en C que tienen el valor ej en la etiqueta E. El valor de ej es el conjunto de palabras que forman dicha etiqueta (sin considerar el orden de las palabras). Conociendo la entropía del sistema y la entropía condicionada podemos componer la ecuación final de la siguiente manera: 5.1 Para poder analizar las mejoras que el sistema híbrido propuesto pudiera aportar, se han realizado dos casos experimentales que sirven de base: un caso basado únicamente en las imágenes, y otro en la información textual. Como caso base visual se ha tomado el resultado obtenido para cada consulta utilizando exclusivamente un sistema CBIR (es decir, sin tener en cuenta el texto sino únicamente haciendo uso de la imagen). Para ello, se han utilizado las listas de resultados suministrada por la organización del CLEF para cada una de las 25 consultas. Estas listas (una por consulta) se obtienen como resultado al presentar una imagen a un sistema de recuperación de imágenes denominado GIFT 11 (GNU Image Finding Tool). Se trata de un sistema CBIR que usa 4 características de imagen para realizar la recuperación (Squire et al., 2000). El resultado obtenido tras una consulta con una imagen al sistema GIFT consiste en una lista de imágenes ordenadas según su valor de relevancia con respecto a la imagen de consulta. Como caso base textual se considera el resultado obtenido por cada consulta utilizando el texto de la misma sobre un sistema de recuperación de información textual. El sistema utilizado es LEMUR 12 . Este es un sistema multiplataforma desarrollado como parte del Proyecto LEMUR, una colaboración entre los departamentos de Informática de las universidades de Massachussets y Carnegie Mellon. Dicha herramienta permite el filtrado y la indexación de grandes colecciones documentales y la recuperación de información en dichas colecciones, utilizando una gran variedad de modelos de recuperación. El resultado obtenido tras una consulta a LEMUR con el texto de cada una de las 25 consultas es IG(C | E) = = −log 2 1 + |C | |Ce j | | C ∑ i=1 ej |C | | log 2 1 | Ce | (6) j Se calcula la ganancia de información para cada una de las etiquetas en cada una de las colecciones. Una vez que cada etiqueta tiene asociada su IG, se ordenan utilizando este valor como referencia. A continuación, la colección final se crea seleccionando aquellas etiquetas que tienen los valores de IG más altos. No obstante, existen etiquetas dentro de la colección (como por ejemplo el campo identificador ID) con un valor de IG muy alto y cuyo contenido es poco representativo, ya que difiere enormemente para cada caso y el número de términos que contiene es muy pequeño. Por lo tanto, antes de ordenar y seleccionar las mejores etiquetas, se eliminan aquellas cuya frecuencia media de palabras en la subcolección sea inferior a un umbral. De esta forma, una colección generada utilizando el contenido del 100% de la etiquetas con mejor IG contendrá, no obstante, menos etiquetas (y por lo tanto, menos texto) que una colección con todas la etiquetas. 5 Casos base visual y textual Experimentos y resultados El objetivo principal que se persigue es demostrar que los resultados obtenidos con un corpus en el que se han filtrado aquellas etiquetas que aportan poca información (es decir, con una IG baja) son mejores que cuando se utiliza el corpus completo. Para ello se han realizado experimentos utilizando diferente número de etiquetas seleccionadas. Concretamente, se han tomado etiquetas con la 11 12 124 http://www.gnu.org/software/gift/ http://www.lemurproject.org/ Mejora de los sistemas multimodales mediante el uso de ganancia de información una lista de documentos ordenados por su valor de relevancia. Show me photographs of benign or malignant skin lesions 5.2 Expansión de las consultas textuales Para mejorar los resultados de los casos base se ha utilizado la información textual disponible de cada caso y aplicando un método de retroalimentación. De este modo, hemos expandido las consultas originales con el texto asociado a las 4 primeras imágenes recuperadas con el sistema GIFT. El texto utilizado para realizar la expansión depende de la colección donde se realiza la recuperación de información textual (10%, …, 100% o todas). Además de los casos base textual y visual, se han realizado 3 tipos de experimentos: • Solo texto y GIFT: La forma más sencilla de incorporar información visual al resultado final consiste en mezclar el caso base textual con el caso base visual dando distintos pesos a los valores de relevancia (RSV) de ambos casos (Figura 4). La fórmula sería la siguiente: • • 5.4 Consulta Textual Sistema CBIR (GIFT) Sistema IR (Lemur) Lista de imágenes relevantes (Listvisual) 5.3 Mezcla de resultados textuales y visuales RSVfinal = (RSVtext · α) + (RSVvisual · β) Consulta Visual Lista de imágenes relevantes (Listtext) Mezclar ambas listas (RSVtext · α) + (RSVvisual · β) Lista de imágenes relevantes (Listfinal) (5) donde α y β son los pesos de cada lista y cumplen que α+β = 1 Consulta textual expandida: Otra manera de mezclar los resultados textuales y visuales es utilizando la lista obtenida al expandir la consulta textual. De esta forma, la aportación visual al experimento es mayor (Figura 5). Consulta textual expandida y GIFT: Por último, se puede mezclar la lista de la consulta expandida con la lista del GIFT, utilizando la fórmula (5), para realizar una doble aportación visual. Figura 4: Esquema de mezclado de las listas visuales y textuales Una vez calculada la IG de cada etiqueta y antes de ordenarlas por IG para seleccionar las etiquetas que tienen mayor valor, se han eliminado aquellas etiquetas cuya frecuencia media de palabras es inferior a un umbral dado. De esta forma, eliminamos aquellas etiquetas que teniendo pocas palabras (es decir, poca información) tienen un valor de IG alto. Así pues, el corpus denominado Coll_100 filtrado por IG contiene el 100% de las etiquetas que han superado el umbral de corte, y por lo tanto dicho corpus contiene menos etiquetas que el corpus completo (Coll_All). Para dar nombre a los experimentos de mezcla de listas se ha optado por la siguiente nomenclatura: Talfa_Ccoleción (para los experimentos de mezcla) Resumen de experimentos Cada uno de los experimentos diseñados () se ha lanzado contra cada una de las colecciones generadas usando filtrado de etiquetas con IG. A dichas colecciones se le ha denominado según el porcentaje de etiquetas seleccionadas: Coll_10, Coll_20, ..., Coll_100. Al corpus completo con todas las etiquetas se le ha denominado Coll_All. Recordemos que los corpus con el 100% de las etiquetas y con todas las etiquetas no son iguales. donde: 125 Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López • • alfa: el porcentaje dado al RSV textual colección: porcentaje de etiquetas que tiene la colección donde se realiza la recuperación textual Show me photographs of benign or malignant skin lesions Por ejemplo, si un experimento se nombra T90C30, significa que se le ha dado un 90% de importancia al RSV textual (y en consecuencia un 10% al RSV visual) y que se ha utilizado la colección con el 30% de etiquetas con mejor IG. Para los experimentos donde se realiza expansión de la consulta con las 4 primeras imágenes del GIFT, los experimentos se han nombrado de la siguiente manera: Consulta Visual Sistema CBIR (GIFT) Lista de imágenes relevantes (Listvisual) Expand_Ccoleción (para los experimentos de expansión) donde colección es el porcentaje de etiquetas que tiene la colección donde se realiza la recuperación de información. Por ejemplo, un experimento llamado ExpandCall, significa que se ha utilizado la colección con todas las etiquetas (all) para realizar la recuperación de información. En cuanto a los experimentos donde se realiza expansión de la consulta con las 4 primeras imágenes del GIFT más la mezcla de dichos resultados con el caso base textual, los experimentos se han nombrado de la siguiente manera: ExpandTalfa_Ccoleción (para los experimentos de expansión) Experimento GIFT (caso base visual) OnlyText (caso base textual) Texto expandido con GIFT 0% 100% 10%, …, 100% Consulta Textual + texto de las 4 primeras imágenes de Listvisual Consulta expandida Sistema IR (Lemur) Lista de imágenes relevantes (Listfinal) Figura 5: Esquema de expansión de la consulta utilizando las 4 primeras imágenes obtenidas con GIFT Por ejemplo, un experimento con nombre ExpandT50C20, significa que se le ha dado un 50% de importancia al RSV textual expandido (y en consecuencia un 50% al RSV visual) y que se ha utilizado la colección con el 20% de etiquetas con mejor IG. α (porcentaje textual) Consulta Textual 5.5 Resultados Dependiendo del experimento, tenemos varios tipos de resultados 5.5.1 Sólo texto con diferentes colecciones Colección utilizada Ninguna textual 10%, …, 100%, all 10%, …, 100%, all Con los primeros resultados obtenidos, podemos comparar cómo se comportan las distintas colecciones generadas, es decir, aquellas colecciones que tienen diferente porcentaje de etiquetas (etiquetas elegidas según su IG). Como se puede comprobar en la Figura 6, al utilizar sólo las consultas textuales para recuperar las imágenes relevantes, se obtienen mejores resultado que utilizando únicamente el Tabla 1: Resumen de experimentos realizados. 126 Mejora de los sistemas multimodales mediante el uso de ganancia de información 0,3 0,25 MAP 0,2 onlytext 0,15 GIFT 0,1 0,05 0 10 20 30 40 50 60 70 80 90 100 All Coll Figura 6: Comparación entre los casos base visual y textual sistema GIFT 13 , obteniéndose una precisión media (MAP) de casi el doble en el mejor de los casos (usando la colección con el 30% de etiquetas). En términos generales, las colecciones que tienen un porcentaje de etiquetas reducido (entre el 20% y el 50%) obtienen los mejores resultados, con un valor de MAP entre 0,18 y 0,17. 5.5.2 Mezcla de solo texto y GIFT El uso de colecciones con un menor número de etiquetas también mejora los resultados obtenidos (Figura 7). En este caso, podemos comprobar cómo se acentúa la influencia que produce la cantidad de etiquetas de la colección. El experimento que mejor se comporta es aquel que da un 60% de importancia al texto (α=0,6; β=0,4). En este experimento se comprueba que utilizar una colección que posea un número de etiquetas reducido (entre el 20% y el 40%) mejora la calidad de las soluciones. Como se puede comprobar, la mezcla de resultados supera con creces los resultados visuales (GIFT), incluso en aquellas mezclas en los que los resultados están por debajo del caso base textual. 5.5.3 Consulta textual expandida En cuanto a los experimentos realizados mezclando ambas listas (visual y textual), podemos comprobar que aquellos que dan más peso al texto obtienen mejores resultados, tal y como era de esperar, ya que la recuperación textual genera mejores resultados que la recuperación visual con GIFT. No obstante, aquellos experimentos donde el peso dado al texto está entre el 40% y el 90% también consiguen superar al caso base textual (Figura 6). Los experimentos con mejores resultados son aquellos en los que el peso de la parte textual no es muy elevado (50%, 60% y 70%) lo que efectivamente demuestra que la combinación de los dos tipos de resultados (textual y visual) permite superar los resultados obtenidos de manera independiente (Tabla 2). 13 Cuando se genera una nueva consulta con el texto original de la consulta más el texto asociado a las cuatro primeras imágenes de la lista visual, el resultado no difiere mucho de utilizar sólo texto. De hecho, los resultados obtenidos no son nada significativos puesto que prácticamente son iguales a los obtenidos con el caso base textual (la mayor diferencia entre resultados es de 0.001). Por este motivo, no se muestran dichos resultados. El valor MAP para el GIFT es 0.094 127 Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López onlytext T10 T20 T30 T40 T50 T60 T70 T80 T90 C10 0,1645 0,1132 0,1309 0,1544 0,1875 0,2073 0,2140 0,2055 0,1922 0,1804 C20 0,1695 0,1150 0,1341 0,1581 0,1912 0,2115 0,2164 0,2040 0,1915 0,1825 C30 0,1791 0,1161 0,1360 0,1610 0,1965 0,2198 0,2252 0,2131 0,2013 0,1920 C40 0,1762 0,1153 0,1347 0,1584 0,1898 0,2151 0,2238 0,2120 0,1995 0,1891 C50 0,1695 0,1147 0,1335 0,1568 0,1862 0,2012 0,2074 0,1988 0,1882 0,1806 C60 0,1599 0,1144 0,1326 0,1538 0,1792 0,1930 0,1955 0,1885 0,1785 0,1705 C70 0,166 0,1155 0,1342 0,1554 0,1795 0,1970 0,2010 0,1941 0,1851 0,1776 C80 0,1659 0,1153 0,1339 0,1552 0,1791 0,1962 0,2001 0,1930 0,1843 0,1768 C90 0,1659 0,1154 0,1342 0,1553 0,1791 0,1963 0,2000 0,1933 0,1846 0,1772 C100 0,1659 0,1154 0,1342 0,1553 0,1791 0,1963 0,2000 0,1933 0,1846 0,1772 CAll 0,1614 0,1166 0,1360 0,1572 0,1780 0,1919 0,1995 0,1901 0,1800 0,1716 C100 0,1659 0,1154 0,1341 0,1554 0,1795 0,1964 0,2004 0,1934 0,1847 0,1773 CAll 0,1614 0,1168 0,1363 0,1581 0,1784 0,1932 0,1997 0,1905 0,1807 0,1729 Tabla 2. Mezcla de solo texto y GIFT onlytext ExpandT10 ExpandT20 ExpandT30 ExpandT40 ExpandT50 ExpandT60 ExpandT70 ExpandT80 ExpandT90 C10 0,1645 0,1131 0,1309 0,1545 0,1876 0,2072 0,2139 0,2063 0,1925 0,1808 C20 0,1695 0,1150 0,1342 0,1582 0,1915 0,2119 0,2164 0,2043 0,1918 0,1828 C30 0,1791 0,1161 0,1362 0,1611 0,1966 0,2202 0,2256 0,2129 0,2013 0,1920 C40 0,1762 0,1151 0,1346 0,1579 0,1894 0,2145 0,2228 0,2110 0,1988 0,1882 C50 0,1695 0,1147 0,1335 0,1566 0,1863 0,2014 0,2073 0,1989 0,1886 0,1806 C60 0,1599 0,1143 0,1327 0,1537 0,1794 0,1931 0,1958 0,1884 0,1785 0,1705 C70 0,166 0,1155 0,1340 0,1552 0,1793 0,1970 0,2009 0,1935 0,1848 0,1774 C80 0,1659 0,1156 0,1344 0,1554 0,1797 0,1967 0,2006 0,1936 0,1845 0,1774 C90 0,1659 0,1154 0,1341 0,1554 0,1795 0,1964 0,2004 0,1934 0,1847 0,1773 Tabla 3. Mezcla de la consulta textual expandida y GIFT 0,25 0,2 OnlyText T10 T20 0,15 T30 MAP T40 T50 T60 0,1 T70 T80 T90 0,05 0 10 20 30 40 50 60 70 80 90 100 All coll Figura 7: Gráfica comparativa de los distintos métodos de mezclado de listas (visual y textual) 128 Mejora de los sistemas multimodales mediante el uso de ganancia de información 5.5.4 Mezcla de expandida y GIFT la consulta Este sistema de selección no necesita ningún tipo de entrenamiento ni conocimiento externo, simplemente estudia la importancia de cada etiqueta con respecto al total de documentos. Además, es independiente del corpus analizado, ya que en nuestros experimentos el cálculo de la IG se ha realizado de forma independiente en cada subcolección. Además, se ha comprobado que el uso y combinación de varias fuentes de información (textual y visual) mejora significativamente la utilización de una única fuente. Aunque por una parte, la recuperación textual por si sola supera a la recuperación visual, cuando se utilizan conjuntamente, los resultados superan a los obtenidos con las resuperaciones independientes. Por último, también se ha comprobado que la expansión de la consulta textual incorporando texto a partir de las imágenes de la recuperación textual no aporta apenas beneficios. En el futuro se intentará estudiar la incidencia de aplicar esta técnica en sistemas que necesitan más información, como por ejemplo, sistemas de búsqueda de respuestas. Además, se aplicarán todos los resultados obtenidos sobre otras colecciones con metadatos como por ejemplo a las colecciones TRECVid. textual Cuando utilizamos conjuntamente la expansión y la mezcla de listas los resultados son similares a la simple mezcla de listas, ya que como se ha comentado en el apartado anterior, la expansión no mejora los resultados textuales. Sin embargo, el mejor de los resultados global (experimento ExpandT60C30) es levemente superior al mejor de los resultados de la simple mezcla (experimento T60C30), tal y como se puede observar en la Tabla 3. En realidad, si se compara toda la tabla en general, la diferencia es ínfima. En la Figura 8, podemos observar claramente cómo los mejores resultados se concentran cuando se utilizan colecciones con un porcentaje de etiquetas menor y el peso de la lista textual es superior a la de la lista visual. Conclusiones y trabajos futuros La selección de etiquetas utilizando el método de IG permite filtrar un corpus con el fin de mejorar la calidad y obtener así mejores resultados en la recuperación de información. Además de reducir el tamaño de los corpus utilizados, este método permite seleccionar aquellas etiquetas más significativas dentro del corpus, o por lo menos, aquellas que más información aportan. 0,2500 0,2000 0,2000-0,2500 0,1500-0,2000 0,1500 0,1000-0,1500 MAP 0,0500-0,1000 0,1000 ExpandT90 0,0500 0,0000-0,0500 ExpandT70 0,0000 90 coll ExpandT30 70 50 30 10 ExpandT50 ExpandT10 All 6 Figura 8: Gráfica comparativa entre los experimentos que utilizan expansión y mezcla de listas 129 Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López 7 annotation tasks. Evaluation of Multilingual and Multi-modal Information Retrieval – Seventh Workshop of the Cross-Language Evaluation Forum, CLEF 2006. LNCS 2006. Agradecimientos Queremos expresar nuestra gratitud a la organización del CLEF y más concretamente a Carol Peters, por permitirnos utilizar y referenciar los distintos recursos disponibles en dicho foro. Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnología a través del proyecto TIMOM (TIN2006-15265C06-03). Quinlan, J. R. 1986. Induction of Decision Trees. Machine Learning, (1), 81-106. Shannon, C. E. 1948.A mathematical theory of communication. Bell System Technical Journal, vol. 27, pp. 379-423 y 623-656. Squire, D., W. Müller, H. Müller, T. Pun. 2000. Content-based query of image databases: inspirations from text retrieval. Pattern Recognition Letters. Selected Papers from The 11th Scandinavian Conference on Image Analysis SCIA '99, 21(13-14):11931198. Bibliografía Clough, P., H. Müller, T. Deselaers , M. Grubinger, T. Lehmann, J. Jensen, W. Hersh. 2005. The CLEF 2005 CrossLanguage Image Retrieval Track. In Proceedings of the Cross Language Evaluation Forum (CLEF 2005). Yang, Y., J. O. Pedersen. 1997. A Comparative Study on Feature Selection in Text Categorization. Proceedings of ICML-97, 14th International Conference on Machine Learning. Clough, P., M. Grubinger, T. Deselaers, A. Hanbury y H. Müller. 2006. Overview of the ImageCLEF 2006 photographic retrieval and object annotation tasks. Evaluation of Multilingual and Multi-modal Information Retrieval – Seventh Workshop of the CrossLanguage Evaluation Forum, CLEF 2006. Declerck, T., J. Kuper, H. Saggion, A. Samiotou, P. Wittenburg y J. Contreras. 2004. Contribution of NLP to the Content Indexing of Multimedia Documents. Image and Video Retrieval. LNCS 2004. Volume 3115/2004. Kato, T. 1992. Database architecture for content-based image retrieval. Image Storage and Retrieval Systems, Proc. SPIE 3312, 162-173. Lee, W., D. Xiang. 2001. Information-Theoretic Measures for Anomaly Detection. Proc. of the 2001 IEEE Symposium on Security and Privacy. Lewis, M. S., N. Sebe, C. Djeraba y R. Jain. 2006. Content-Based Multimedia Information Retrieval: State of the Art and Challenges. ACM Transactions on Multimedia Computing, Communications, and Applications, Volume 2. February 2006. Mitchell, T. 1996. Machine Learning. McGraw Hill. Müller, H., T. Deselaers, T. Lehmann, P. Clough y W. Hersh. 2006. Overview of the ImageCLEFmed 2006 medical retrieval and 130 La anotación del habla en corpus de vı́deo Manuel Alcántara Plá DFKI GmbH Saarbrücken [email protected] Resumen: La anotación lingüı́stica del habla en corpus multimodales es una labor tan nueva como costosa, pero también es prometedora para tareas como la extracción y el resumen de contenido, ası́ como para abrir nuevos caminos en el análisis del habla espontánea. El presente artı́culo repasa el estado de la cuestión en los distintos niveles de análisis con ejemplos de proyectos internacionales y nacionales, resaltando la importancia de encontrar una base común a pesar de la actual falta de estándares. Palabras clave: anotación lingüı́stica, corpus multimodal, estandarización Abstract: The linguistic tagging of spoken language in multimodal corpora is a new and complex task. However, its possibilities for other tasks such as content extraction/summarization and for further linguistic analysis are promising. This article reports on the state-of-the-art in the different analysis levels including experiences from international projects and stressing the importance of a common ground in spite of the current lack of standards. Keywords: linguistic tagging, multimodal corpora, standardization 1. Introducción El análisis lingüı́stico de las transcripciones del habla extraı́das de corpus de vı́deo es un campo de investigación muy reciente dentro de la lingüı́stica computacional. La cantidad de colecciones de habla es también muy limitada y aún más si sólo tenemos en consideración los corpus que incluyen algún tipo de anotación lingüı́stica. La aplicación en los corpus orales de los etiquetados diseñados para la lengua escrita requiere de una adaptación costosa que empieza incluso en las bases teóricas gramaticales, sólo probadas hasta ahora -en el mejor de los casos- sobre textos escritos. La necesidad de corpus anotados de estas caracterı́sticas es cada vez más obvia y acuciante tanto en la lingüı́stica como en las aplicaciones enmarcadas dentro de la inteligencia artificial. Por este motivo, el número de corpus de habla espontánea ha crecido de manera importante durante los últimos años y su desarrollo ha suscitado un buen número de cuestiones que se están multiplicando ahora al incluir las relaciones entre el habla y el resto de elementos presentes en un corpus multimodal. Este artı́culo describe cuáles son los problemas más graves encontrados en este nuevo reto de la lingüı́stica de corpus ası́ como algunas de las medidas que han sido adoptadas hasta el momento para resolverlos. Dado que ISSN: 1135-5948 muchos de los proyectos mencionados están aún desarrollándose, he optado por citar a pie de página el respectivo sitio de internet en cada primera mención para facilitar el acceso a su estado actual. En las conclusiones finales, se resaltará la necesidad de una base de trabajo común para el etiquetado del habla. 2. La transcripción del habla La anotación del habla depende en primera instancia de las caracterı́sticas de la transcripción. La mayorı́a de las transcripciones se realizan o generan siguiendo las convenciones ortográficas de la lengua que se trate tal y como recomiendan, entre otros, el Corpus de Habla Holandés (CGN)1 , el Corpus Nacional Británico (BNC)2 y el Corpus de Japonés Espontáneo (CSJ)3 . Debido a que la transcripción fonética se considera aún demasiado compleja para el habla espontánea, los corpus que incluyen transcripciones de este tipo en lugar -o además- de ortográficas se basan en alfabetos fonémicos en lugar de fonéticos. Con este fin, se utiliza el AFI en la última versión del UAM-C-Oral-Rom (Moreno et al., 2005) y en el Corpus Taiwanés de Lengua Infantil (TAICORP) (Tsay, 2005), el sistema 1 http://lands.let.kun.nl/cgn/ehome.htm http://www-dev.natcorp.ox.ac.uk/ 3 http://www2.kokken.go.jp/ csj/public/ 2 © Sociedad Española para el Procesamiento del Lenguaje Natural Manuel Alcántara Pla SAMPA4 en el CGN y las sı́labas Kana en el CSJ. Precisamente este último es un buen ejemplo de intento de realizar transcripciones fonéticas con el objetivo de etiquetar fenómenos como la palatalización. Sus conclusiones no son, sin embargo, muy alentadoras puesto que no fueron capaces de etiquetar todos los rasgos fonéticos que pretendı́an originalmente por el bajo nivel de acuerdo que se encontraron entre los anotadores. La transcripción, aun siendo ortográfica, implica un buen número de decisiones arbitrarias tales como el tratamiento de las mayúsculas, los acrónimos y los sı́mbolos, la puntuación, las marcas diacrı́ticas, los números, los préstamos lingüı́sticos y las palabras que no aparecen normalmente en fuentes escritas. Entre estas últimas, son especialmente importantes por su frecuencia las decisiones con respecto a los rasgos dialectales, las interjecciones y los marcadores discursivos. A este respecto, es importante señalar la existencia de guı́as como el Estándar de Codificación de Corpus (XCES) del grupo EAGLES5 , que desgraciadamente sólo cubren los aspectos más generales. Las convenciones ortográficas han probado ser problemáticas por dos razones curiosamente opuestas. Por un lado, hay casos en los que son excesivamente ambiguas y necesitan ser restringidas. Un ejemplo es el CSJ, que hace un uso del Kanji (pictogramas chinos) y del Kana (silabario japonés) mucho más estricto que el propuesto por las normas ortográficas del japonés estándar de modo que a cada forma sólo le corresponda una cadena fónica. Por otro lado, las convenciones pueden ser excesivamente restrictivas como para reflejar la creatividad del habla. El TAICORP es un ejemplo en el que se usa la ortografı́a china como base, pero se la acompaña del sistema de romanización Taiwan Southern Min para las palabras que no se pueden encontrar en los diccionarios tradicionales. Otro aspecto importante a tener en cuenta a la hora de analizar un corpus de habla es el modo en que se ha realizado la transcripción: de forma manual o automática. El estado actual de los sistemas de reconocimiento automático de habla (ASR) no permite obtener aún unos resultados fiables para el análisis lingüı́stico (Alcántara y Declerck, 2007). 4 5 Los sistemas más avanzados logran alrededor del 90 % de palabras correctas, pero sólo en las mejores condiciones (lo que significa habla con guión producida en un laboratorio). Si el corpus incluye diferentes hablantes y las grabaciones han sido realizadas en contextos naturales, el porcentaje baja a bastante menos de la mitad. 3. Elementos no lingüı́sticos Las transcripciones de habla suelen incluir la anotación de rasgos no lingüı́sticos que ayudan a su posterior análisis. Estos datos, generalmente en la cabecera del documento o en un documento externo, están relacionados tanto con la transcripción como con la fuente original del vı́deo. Con respecto a los documentos, datos tı́picos son su tamaño, su calidad acústica, los formatos, las fuentes, los hablantes que aparecen (generalmente con algunas caracterı́sticas como su edad, nivel educativo y género), los responsables de las transcripciones y los enlaces a otros archivos o documentos relacionados. La información sobre la calidad acústica suele acompañarse de detalles de la grabación tales como el tipo de micrófonos, la frecuencia o si el tratamiento es digital o analógico. La información sobre la fuente es especialmente importante si los textos han sido tomados de corpus preexistentes. En cuanto a los enlaces a otros documentos, es recomendable realizarlos a través de un documento externo de modo que sea más sencilla su gestión y la posibilidad de compartir o reutilizar los contenidos del corpus. El marco europeo Isle Meta Data Initiative 6 está proponiendo un estándar para este tipo de gestión de corpus multimodales/multimedia. En algunos casos, es fundamental la inclusión de información sobre el contexto y sobre los rasgos sociolingüı́sticos de la interacción contenida en el documento (como, por ejemplo, en CHILDES7 o C-Oral-Rom). Etiquetas tı́picas sobre el contexto son las condiciones en las que se produjo la grabación (incluyendo el papel que tuvo el grabador y el nivel de espontaneidad), la fecha y el lugar en que se produjo. Las anotaciones sociolingüı́sticas informan sobre los participantes de la interacción (nombres, edades y lugares de nacimiento, géneros, papel en la conversación, nivel educativo, etc.) y son un criterio común para http://www.phon.ucl.ac.uk/home/sampa/home.htm http://www.cs.vassar.edu/XCES/ 132 6 7 http://www.mpi.nl/IMDI/ http://childes.psy.cmu.edu/ La notación del habla en corpus de vídeo el diseño de los corpus (p.ej. CGN, CHILDES o C-Oral-Rom). Si el discurso está dividido en turnos, un identificador único se relaciona con cada participante para permitir referencias en el diálogo a la información del hablante. Otros rasgos sociolingüı́sticos como el dialecto o el registro son, aunque también frecuentes, más dependientes del objetivo del corpus. El CSJ, por ejemplo, incluye datos especı́ficos sobre el nivel de fluidez, de expresividad y de claridad articulatoria de los hablantes. Por último, algunas anotaciones legales pueden ser obligatorias dependiendo de la legislación vigente. El consentimiento de los hablantes a ser grabados y los derechos de la propiedad intelectual tienen que aparecer explı́citos en los corpus de la Unión Europea. Los consentimientos deben explicitar si el sonido puede ser transcrito, usado para la investigación y publicado. Aunque los derechos de propiedad intelectual son más tı́picos de los documentos escritos, también son relevantes en grabaciones literarias o con valor cientı́fico (por ejemplo, conferencias) ası́ como en documentos tomados de medios de comunicación. Este aspecto puede repercutir en el valor del corpus de dos maneras diferentes. Por un lado, las ventajas de un corpus que cuenta con todos los permisos para su utilización y publicación son evidentes para una investigación exitosa. Por otro lado, estos requisitos legales pueden comprometer la espontaneidad de lo grabado puesto que es difı́cil lograr una interacción natural después de haber advertido a los interlocutores de que sus palabras no van a ser sólo grabadas, sino también minuciosamente analizadas y probablemente publicadas. Como ocurre también con los demás niveles de anotación en el corpus, las etiquetas elegidas para los elementos no lingüı́sticos difieren completamente entre los distintos proyectos. Por este motivo, son de gran importancia iniciativas como la citada IMDI, que nos facilitarán en el futuro tanto el diseño de nuevos corpus como la utilización de los ya existentes. 4. mos señalar, no obstante, que existen corpus, generalmente no entre los más recientes, que sı́ se guı́an por la puntuación (p.ej. el CORLEC8 ). El análisis de este último muestra que la puntuación normativa influye a veces en la fiabilidad de la transcripción. El transcriptor tiende a adaptar lo que escucha a las formas normativamente correctas ya que en muchas ocasiones no es posible de otro modo ponerle puntos y comas al habla espontánea. Como consecuencia en parte de que los estudios se hayan centrado tradicionalmente en la lengua escrita, las unidades de análisis prosódicas son todavı́a controvertidas en cuanto a su definición y nomenclatura. La proferencia (utterance) es el término más común (Cresti y Moneglia, 2005; Miller y Weinert, 1998), pero no hay acuerdo en cuanto a su definición. Para algunos corpus como el CIAIR-Corpus de Diálogos en Coches (Kawaguchi et al., 2005) o el CSJ, los silencios son las pistas determinantes, pero la mayorı́a de corpus combinan criterios de otros niveles lingüı́sticos, sobre todo pragmáticos y sintácticos. Estos criterios son, no obstante, también discutidos con frecuencia. Mientras que los pragmáticos se critican por basarse en los actos de habla de Austin, considerados a menudo demasiado subjetivos para una anotación extensa y coherente, los sintácticos se critican por la dificultad de aplicar reglas fundamentadas en la lengua escrita sobre textos que tienen caracterı́sticas diferentes como, por poner un ejemplo, un tercio de oraciones no verbales (Cresti y Moneglia, 2005). Algunos proyectos proponen criterios mixtos para evitar estos problemas. El corpus TRAINS93, por ejemplo, se basa en dos claves para establecer los lı́mites prosódicos: por un lado, se da una ruptura en el discurso del hablante y otro hablante interviene; por otro lado, se produce una ruptura en la entonación, en la sintaxis (coincidencia con un lı́mite de categorı́a sintáctica) o hay una respiración (Heeman y Allen, 1995). En C-Oral-Rom, se distingue entre proferencias simples y complejas (con una o más de una unidad tonal) y se comparan las proferencias con los actos de habla de Austin (Austin, 1962) y las unidades tonales con las unidades informativas de Halliday (Halliday, 1976), pero siempre considerando los cambios entonativos la pista más Los lı́mites prosódicos La falta de una puntuación ortográfica en la lengua oral le da una especial relevancia a otros criterios más lingüı́sticos, en especial los lı́mites prosódicos (p.ej. las proferencias) y pragmáticos (p.ej. los actos de habla). Debe- 8 133 ftp://ftp.lllf.uam.es/pub/corpus/oral/ Manuel Alcántara Pla determinante a la hora de anotar lı́mites, con un fuerte protagonismo de los perfiles terminales (Crystal, 1975). Cabe señalar que este último ejemplo lo es de una experiencia exitosa puesto que el proyecto contó con un 95 % de acuerdo ent re los anotadores. Otras unidades han sido utilizadas en otros proyectos dependiendo del objetivo de sus análisis. Por poner dos ejemplos distintos, el CGN tiene anotadas las sı́labas prominentes, los lı́mites prosódicos entre palabras y los alargamientos segmentales (Hoekstra et al., 2002) mientras que el sistema de Multilevel Annotation Tools Engineering (MATE9 ) etiqueta grupos de acentos, pies, sı́labas y moras. Entre las aproximaciones más acústicas, el sistema TOBI10 (Tone and Break-Index) se ha utilizado como estándar para la transcripción de entonación y estructuras prosódicas al menos para el inglés, el alemán, el japonés, el coreano y el griego, con las adaptaciones pertinentes en cada caso. Junto con el contorno de la frecuencia fundamental y la transcripción ortográfica, el TOBI incluye un nivel para los tonos y otro para los ı́ndices de los distintos lı́mites. Las etiquetas transcriben las variaciones de tono como secuencias de tonos altos (H) y bajos (L) e incluyen marcas diacrı́ticas con su función (el inventario de eventos tonales está basado en análisis autosegmentales). Los lı́mites marcan los grupos prosódicos en una proferencia etiquetando el final de cada palabra sobre una escala del 0 (la unión perceptible más fuerte con la siguiente palabra) al 4 (la mayor separación). Un ejemplo de adaptación del sistema es el X-JTOBI, versión del TOBI de japonés leı́do para el habla espontánea11 . Las etiquetas para los tonos y los lı́mites fueron extendidas en el X-JTOBI para poder representar rasgos paralingüı́sticos propios de la entonación espontánea, incluyendo fenómenos de disfluencia tales como las pausas largas, las palabras fragmentadas y las pausas dentro de una palabra. Los diferentes sistemas existentes no se diferencian sólo en el modo en que se definen los conceptos que manejan, sino también en cómo estos son anotados. Una convención muy extendida es la de Gross (Gross, Allen, y Traum, 1993) con las proferencias separadas en distintas lı́neas o incluso ficheros, numeradas según el número de turno y el número de proferencia dentro de ese turno (como describen Nakatani y Traum sobre su corpus (Nakatani y Traum, 1999)). Otra convención frecuentemente utilizada es la del asterisco (*) junto a un código que identifique al hablante para marcar el inicio de un turno y la de las dobles barras (//) para marcar los lı́mites prosódicos (p.ej. en CHILDES y en C-Oral-Rom). Además de los lı́mites prosódicos, la lengua hablada incluye otros fenómenos que también suelen etiquetarse dentro de la anotación prosódica a pesar de que, dadas sus peculiaridades, afectan a prácticamente todos los niveles (González et al., 2004). El citado artı́culo los clasifica en dos grupos: rasgos de producción y rasgos de la interacción. Los primeros incluyen, entre otros, las palabras fragmentadas, los apoyos vocálicos y los reinicios. Los segundos son los cambios de turnos y los solapamientos. 5. Unidades morfosintácticas La anotación morfosintáctica de la lengua hablada es diferente a la de la escrita y no puede llevarse a cabo con los sistemas de etiquetado preexistentes. La morfosintaxis de la lengua oral es aún controvertida incluso en los aspectos más fundamentales. Por poner un ejemplo básico, algunos corpus utilizan los blancos para delimitar palabras (lo hacen ası́, p.ej., el BNC y el CGN) mientras que otros prefieren considerar palabras aquellos grupos mı́nimos de sonidos que tienen un significado propio (p.ej. el UAM C-Oral-Rom o el USAS12 ). Esta última decisión, aunque arbitraria en muchos casos, evita circunstancias como la descrita en las especificaciones del BNC, con etiquetados diferentes para formas distintas de una misma palabra (p.ej. “foxhole” o “fox hole”). En el habla se encuentran muchas partes difı́cilmente categorizables dentro de las tipologı́as morfológicas tradicionales. Un uso común es no transcribirlas como palabras, sino a través de sı́mbolos (o simplemente no transcribirlas en absoluto, lo que merma considerablemente la riqueza del corpus). Esta última solución fue la adoptada por los primeros corpus tales como el CORLEC, carac- 9 http://mate.nis.sdu.dk/ http://www.ling.ohio-state.edu/ tobi/ 11 http://www.ling.ohiostate.edu/research/phonetics/J ToBI/ 10 12 134 http://www.comp.lancs.ac.uk/ucrel/usas/ La notación del habla en corpus de vídeo terizados, como hemos visto antes, por seguir una transcripción ortográfica normativa. Los corpus más modernos están intentando ampliar la tipologı́a para dar cabida a estas palabras, con lo que están ganando prominencia categorı́as que antes eran marginales como es la de los marcadores discursivos. Como era de esperar, las caracterı́sticas de cada lengua influyen directamente en las decisiones tomadas con respecto al análisis morfológico de modo que la anotación de corpus como el CGN y el CSJ es claramente distinta. El último, por ejemplo, distingue entre palabras cortas (de uno o dos morfemas) y largas (compuestas de varias cortas y partı́culas), algo que no serı́a pertinente en un corpus de una lengua romance o germánica. Es importante señalar que esta influencia proviene frecuentemente más de la tradición lingüı́stica que de la lengua en sı́. Un ejemplo claro es la imposibilidad de acuerdo para las clases de palabras entre los cuatro grupos de C-Oral-Rom, cuyas respectivas lenguas (portugués, italiano, francés y español) eran en teorı́a muy parecidas. Precisamente las clases de palabras son la información morfosintáctica más básica y frecuente en los corpus, casi siempre acompañada de los lemas de las palabras. Los sistemas de etiquetado automático basados en métodos estadı́sticos como el TnT (Brants, 2000) o el de E. Brill (Brill, 1993) han demostrado resultados satisfactorios (p.ej. en los sistemas CLAWS4 (Leech, Garside, y Bryant, 1994) y GRAMPAL (Moreno, 1991)), pero siempre después de su adaptación a la lengua hablada. Ası́ la última versión de GRAMPAL incorpora marcadores discursivos y elementos enfáticos mientras que el BNC utiliza el mencionado sistema CLAWS4 adaptándolo a algunos fenómenos propios de la oralidad como son las repeticiones. La calidad de la anotación depende también de la adaptación de las categorı́as que son frecuentes en la escritura puesto que sus posiciones y frecuencias no suelen coincidir con las del habla. Los marcadores discursivos y las interjecciones, por ejemplo, son en general palabras utilizadas con otras funciones al escribir, lo que dificulta su desambiguación categorial hasta el punto de haber sido obviadas hasta ahora en la mayorı́a de los corpus (como los mencionados CGN, EAGLES, BNC y XCES). En los corpus en los que se ha optado por adaptar la anotación, la redefinición de las categorı́as se ha realizado desde criterios funcionales (p.ej. en el UAM C-Oral-Rom) o formales (p.ej. en el CGN). Más allá de los problemas de definición, no podemos olvidar aquellos heredados de la transcripción, como son la pronunciación extraña de palabras, la alta frecuencia de préstamos lingüı́sticos y el uso de neologismos (casi siempre a través de morfemas derivativos), que añaden gran cantidad de ruido a los análisis morfosintácticos. Por regla general, las normas de etiquetado suelen incluir un protocolo describiendo las decisiones que se han tomado para anotar estos fenómenos orales. En cuanto a la anotación puramente sintáctica, muy pocos corpus orales la incluyen por la dificultad de distinguir automáticamente unidades complejas (sintagmas y oraciones) en el habla. Algunos ejemplos de estas experiencias son el CGN y el CSJ. Un 10 % del primero fue etiquetado semi-automáticamente con el programa ANNOTATE siguiendo un análisis de dependencias diseñado con la máxima sencillez para minimizar los costes (Hoekstra et al., 2002). El mismo criterio llevó a elegir las proposiciones como unidad de anotación de un subcorpus del CSJ de 500.000 palabras tomadas de monólogos. Las proposiciones son más sencillas de segmentar que las oraciones porque los verbos conjugados y las conjunciones se colocan al final de ellas en japonés. 6. La semántica La anotación semántica se realiza habitualmente desde dos perspectivas en principio diferentes: la conceptual y la estructural. Los sistemas conceptuales etiquetan documentos o palabras según el campo al que pertenecen y se distinguen entre sı́ por el número de categorı́as y los criterios involucrados en sus ontologı́as. Por ejemplo, cada noticia grabada de los telediarios en la Digital Video Library13 se etiqueta automáticamente dentro de una de sus 3178 categorı́as temáticas gracias a un algoritmo de cercanı́a K. Un ejemplo de etiquetado de palabras para lengua escrita y hablada -en inglés- es el USAS utilizado en el software UCREL para análisis semánticos automáticos. Incluye 232 categorı́as divididas en 21 campos (como “educación” o “comida”) y sus reglas de desambiguación depen13 135 http://www.open-video.org/ Manuel Alcántara Pla den de la categorı́a morfológica de la palabra, de sus apariciones en el mismo texto, del contexto y del dominio en el que se encuadra el discurso. Otro caso tı́pico de etiquetado conceptual es el del reconocimiento de entidades propias (NE). En el Corpus Japonés de Diálogos para Análisis de Enfermerı́a (itoh Ozaku et al., 2005), se utilizó la herramienta NExT para extraer nombres propios, medicamentos y enfermedades de modo que se pudieran inferir fácilmente las situaciones que aparecı́an en cada grabación. Gracias al carácter multimodal del corpus, la desambiguación se llevaba a cabo teniendo en cuenta datos extralingüı́sticos como la localización en la que se encontraba la enfermera cuando pronunciaba las palabras (las enfermeras llevaban unos sensores de posición, lo que también permitı́a saber quién participaba en cada interacción). La anotación estructural difiere más de la lengua escrita que la conceptual y es, por lo tanto, uno de los grandes retos en los nuevos corpus. Su atractivo es grande debido a las ya mencionadas dificultades que plantea la estructuración sintáctica del habla espontánea y aún más si se utiliza conjuntamente con la información ontológica. Uno de los escasos ejemplos ya finalizados es SESCO (Alcántara, 2005), donde las estructuras eventivas fueron utilizadas en un etiquetado que buscaba, de nuevo, la mayor simplicidad para ser flexible en el análisis de un corpus de habla espontánea sin restricciones. La anotación se basó en la estructuración composicional de tres únicos tipos eventivos (estados, procesos y acciones) que podı́an ser subdivididos según los argumentos que requisieran. El resultado es un ejemplo claro de la potencialidad de este tipo de etiquetados puesto que sus estructuras se están utilizando en la actualidad como base para el análisis de otros niveles lingüı́sticos. Otro ejemplo es el Spanish Framenet, actualmente en desarrollo. Aunque el corpus que se utiliza en este proyecto es básicamente de lengua escrita, incluye también un 12 % de habla espontánea (alrededor de 35 millones de palabras según los datos expuestos en la página del proyecto14 ). El etiquetado estructura la lengua en marcos relacionando los lexemas con situaciones prototı́picas que incluyen diferentes tipos de participantes. Al 14 contrario que en SESCO, aquı́ el proceso no comienza en el corpus, sino en la identificación de los marcos. Una vez que el marco está definido, se buscan oraciones en el corpus que ejemplifiquen su tipo, anotando las distintas partes con las etiquetas apropiadas. El primer lexicón derivado de este trabajo está anunciado para principios del 2008. 7. La pragmática La codificación de elementos pragmáticos ha tenido un gran avance en las últimas décadas gracias al desarrollo de sistemas aplicados para tareas especı́ficas. Un ejemplo conocido es el Corpus de Tareas con Mapas (MTC) de la Universidad de Edimburgo (Anderson et al., 1991), que cuenta con tres niveles de anotación discursiva. En la superior, el diálogo se divide en transacciones en las que se completan los pasos de la tareas. Esas tareas se subdividen a su vez en juegos conversacionales similares a lo que Grosz y Sidner denominan segmentos discursivos (Grosz y Sidner, 1986). Por último, estos juegos se componen de inicios y respuestas clasificados según tipos de movimientos conversacionales. También relacionado con el modelo de Grosz y Sidner, el CSJ ha sido anotado con un sistema basado en el IAD de Nakatani (Nakatani et al., 1995). El anotador tiene que dividir manualmente el discurso en segmentos asignándoles su finalidad. El manual del proyecto aclara que ésta es una labor muy costosa que requiere trabajo en equipo y decisiones complejas. Sin embargo, han sido capaces de etiquetar un pequeño subcorpus de monólogos con patrones de cohesión (es decir, ”oraciones que tienen una relación local entre ellas”) y subhistorias (la finalidad de una parte completa del discurso). Un ejemplo diferente, más conectado con los aspectos morfosintácticos, es el esquema propuesto por Marco de Rocha para el análisis de expresiones anafóricas en la lengua hablada (de Rocha, 1997). Cada discurso se etiqueta con un tema que está formado por segmentos, los cuales son anotados según sus funciones discursivas (p.ej. introducción de un tema). Por último, las expresiones anafóricas son etiquetadas junto a su tipo, el tipo morfosintáctico del antecedente, el estatus de topicalidad del antecedente y el tipo de conocimiento necesario para procesarla. Nakatani y Traum ofrecen un ejemplo de etiquetado más centrado en los hablan- http://gemini.uab.es:9080/SFNsite 136 La notación del habla en corpus de vídeo tes. Anotan unidades de elementos comunes (CGU) que marcan “el acuerdo entre los hablantes sobre su entendimiento de lo que se dice” (Nakatani y Traum, 1999). Cada CGU contiene las oraciones necesarias para fundamentar un contenido, mientras que varias de estas unidades son anotadas juntas como unidades intencionales o informativas. Otro de los corpus mencionados anteriormente, el CIAR, también incluye la anotación de actos de habla con unas etiquetas denominadas marcas de intención (LIT), que indican la intención que tienen las oraciones para el hablante. Cada LIT está formado por cuatro niveles: acto discursivo, acción, objeto y argumento, y se asume que la oración -vinculada al LIT- es la unidad fundamental del diálogo. Varias oraciones forman una parte del discurso (PoD) que aparece etiquetada con la tarea principal que esté llevando a cabo el hablante. 8. pueden ser el cambio de cámara o el movimiento de la imagen. Estas unidades (denominadas shots) raramente coinciden con los lı́mites lingüı́sticos. Aunque serı́a lo ideal para el análisis del contenido, parece que la relevancia de la segmentación visual para la anotación lingüı́stica es escasa (Alcántara y Declerck, 2007). 9. Conclusiones para el futuro La multimodalidad supone un paso más en la evolución que se ha venido produciendo en la lingüı́stica de corpus durante las últimas dos décadas (Moreno, 2002). Esta nueva generación de corpus ofrece un gran potencial para el análisis lingüı́stico y el desarrollo de aplicaciones de inteligencia artificial dentro de un contexto en el que la dependencia de los corpus y de los avances tecnológicos está resultando ser claramente bidireccional. No obstante, las caracterı́sticas de estas colecciones hacen que requieran de un esfuerzo importante en la anotación tanto si se parte de la reutilización de sistemas como si se crean otros nuevos. El mayor problema que afrontamos al desarrollar corpus multimodales es, como se deduce de lo descrito en las secciones previas, la falta de una estandarización eficiente, un problema que en parte viene heredado de la brevı́sima tradición en el trabajo con corpus de habla (Llisterri, 1997). Como hemos descrito en este artı́culo, cada nivel de análisis cuenta en la actualidad con experiencias tan interesantes como dispares y la discrepancia no se da únicamente en el plano teórico, sino también en la forma en que se codifican las informaciones. El uso cada vez más extendido del XML (lo que incluye también la traducción de formatos antiguos a este formato) nos permite a este respecto compartir recursos con mayor facilidad ahora que en el pasado, pero compatibilizar las diferentes informaciones sigue resultando una tarea ardua. El contar con sistemas compatibles entre sı́ nos ayudarı́a a reutilizar y mejorar recursos ya existentes. Además, es un requisito indispensable para poder realizar investigaciones que impliquen más de un nivel lingüı́stico. Este último paso facilitarı́a la resolución de muchos de los problemas aquı́ planteados. Un ejemplo claro es la mencionada segmentación del documento en unidades pertinentes lingüı́sticamente. Las experiencias con habla espontánea demuestran que no es una tarea El alineamiento del texto con el sonido y la imagen La anotación prosódica está estrechamente relacionada con el alineamiento del sonido y el texto ya que se suelen tomar unidades de la prosodia para realizar el proceso. Las aplicaciones automáticas para el alineamiento se basan en rasgos acústicos (fı́sicamente reconocibles) que generalmente se corresponden con perfiles terminales, pero sus resultados son aún muy limitados. Algunos proyectos han utilizado unidades de definición más compleja, pero realizando la tarea manualmente (C-ORAL-ROM), mientras que otros han sacrificado esta complejidad para facilitar su automatización, tomando unidades como las pausas mayores de tres segundos (p.ej. el CGN) o los fonemas (realizado con un sistema HMM para el CSJ y siendo revisado después manualmente). El alineamiento del habla con las imágenes en corpus multimodales es un campo en el que apenas contamos con experiencias, pero los primeros intentos ya han evidenciado la dificultad de sus retos, centrados especialmente en la conciliación entre los rasgos lingüı́sticos y los puramente audiovisuales. La segmentación del documento en unidades que sean relevantes tanto desde un punto de vista visual como lingüı́stico es el primer problema a solucionar. Las divisiones para el análisis audiovisual se basan en rasgos acústicos y de la imagen detectados automáticamente, como 137 Manuel Alcántara Pla 10. fácil en ningún nivel, pero el uso combinado de la información obtenida en varios de ellos nos está dando resultados prometedores (Alcántara, 2007). El autor quiere mostrar aquı́ su agradecimiento a la citada red europea de excelencia K-Space (Knowledge Space of semantic inference for automatic annotation and retrieval of multimedia content, FP6-027026) de la que forma parte y, especialmente, a los otros miembros del equipo del DFKI que participan en dicha red, Thierry Declerck y Paul Buitelaar. El trabajo de este artı́culo ha sido financiado con una beca posdoctoral del Ministerio de Educación y Ciencia. Un problema relacionado es el de la excesiva especificidad de muchas anotaciones. Por poner un ejemplo, pocos proyectos de los mencionados en este artı́culo están diseñados para etiquetar más de una lengua. De hecho, en la mayorı́a de los casos ni tan siquiera se pretende cubrir una lengua completa, sino una pequeña parte estrictamente delimitada por rasgos como el dominio o el tipo de hablantes, dados por los objetivos inmediatos de cada proyecto. Esta especificidad dificulta también el intercambio de información y, lo que es aún más grave, impide la escalabilidad de los sistemas. Como es lógico, los estudios lingüı́sticos que estos corpus permiten tampoco se pueden extrapolar a las caracterı́sticas generales de la lengua. Bibliografı́a Alcántara, Manuel. 2005. Anotación y recuperación de información semántica eventiva en corpus. Ph.D. tesis, Universidad Autónoma de Madrid. Alcántara, Manuel. 2007. Merging semantics and prosody to structure spoken language. En Proceedings of the IWCS-7. Nos encontramos en un momento positivo porque contamos, por primera vez, con corpus multimodales y las posibilidades técnicas necesarias para etiquetarlos incluyendo información lingüı́stica. Sin embargo, la escasez de experiencias comunes y la necesidad de conseguir objetivos en cada caso diferentes nos sitúan en una posición en la que los avances no son tan importantes como cabrı́a esperar por el interés y el trabajo dedicados. El progreso en la anotación del habla necesita que nos esforcemos en encontrar una base común tanto en lo que se etiqueta como en cómo se etiqueta. En otras ocasiones, como ocurrió con los corpus de lengua escrita, los estándares se han ido imponiendo de forma natural por sistemas de etiquetado que por diversos motivos han gozado de una aceptación mayoritaria, pero parece que la rapidez de los desarrollos actuales recomienda la puesta en marcha de propuestas como la de, por ejemplo, la red europea de excelencia K-Space15 , dirigidas a acelerar ese proceso de convergencia. Esfuerzos de estandarización como el ya mencionado de Eagles (y otros como el de la Text Encoding Initiative16 o el de la Red de Corpus Europeos de Referencia-NERC (Teubert, 1993)) son una base de gran interés para este fin que deberı́a tenerse en cuenta para los futuros desarrollos. 15 16 Agradecimientos Alcántara, Manuel y Thierry Declerck. 2007. Shallow semantic analysis of asr transcripts associated with video shots. En Proceedings of the IWCS-7. Anderson, A., M. Bader, E. Bard, E. Boyle, G.M. Doherty, S. Garrod, S. Isard, J. Kowtko, J. McAllister, J. Miller, C. Sotillo, H.S. Thompson, y R. Weinert. 1991. The hcrc map task corpus. Language and Speech, 34. Austin, J.L. 1962. How to do Things With Words. Harvard University Press. Brants, Thorsten. 2000. Tnt - a statistical part-of-speech tagger. En Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000. Brill, E. 1993. A Corpus-Based Approach to Language Learning. Ph.D. tesis, Philadelphia. Cresti, Emanuela y Massimo Moneglia, editores. 2005. C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Language. Benjamins. Crystal, David. 1975. The English tone of voice: essays in intonation, prosody and paralanguage. Edward Arnold. de Rocha, Marco, 1997. Corpus-Based and Computational Approaches to Discourse Anaphora, capı́tulo Corpus-Based Study of Anaphora in English and Portuguese. UCL Press. http://kspace.qmul.net/ http://www.tei-c.org/ 138 La notación del habla en corpus de vídeo Moreno, Antonio. 2002. La evolución de los corpus de habla espontánea: la experiencia del lli-uam. En Actas de las Segundas Jornadas de Tecnologı́as del Habla. González, Ana, Guillermo de la Madrid, Manuel Alcántara, Raúl de la Torre, y Antonio Moreno. 2004. Orality and difficulties in the transcription of spoken corpora. En IV International Conference on Language Resources and Evaluation (LREC2004). Moreno, Antonio, Guillermo De la Madrid, Ana González, Jose Marı́a Guirao, Raul De la Torre, y Manuel Alcántara, 2005. C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages, capı́tulo The Spanish corpus. Benjamins. Gross, Derek, James F. Allen, y David R. Traum. 1993. The Trains 91 Dialogues. University of Rochester. Grosz, B.J. y C.L. Sidner. 1986. Attention, intention, and the structure of discourse. Computational Linguistics, 12(3). Nakatani, C. H. y David R. Traum. 1999. Coding discourse structure in dialogue (version 1.0). Informe técnico, University of Maryland. Halliday, M.A.K. 1976. System and Function in Language. Oxford University Press. Heeman, Peter A. y James F. Allen. 1995. The Trains spoken dialog corpus (CDROM). Linguistic Data Consortium. Nakatani, Christine H., Barbara J. Grosz, David D. Ahn, y Julia Hirschberg. 1995. Instructions for annotating discourse. Informe técnico, Center for Research in Computing Technology. Hoekstra, H., M. Moortgat, B. Renmans, M. Schouppe, I. Schuurman, y T. van der Wouden. 2002. Cgn syntactische annotatie. Informe técnico, Radboud University Nijmegen. Teubert, W. 1993. Phonetic/phonemic and prosodic annotation. final report. Informe técnico, IDS Mannheim. itoh Ozaku, Hiromi, Akinori Abe, Noriaki Kuwahara, Futoshi Naya, Kiyoshi Kogure, y Kaoru Sagara. 2005. Building dialogue corpora for nursing activity analysis. En Proceedings of the LINC05. Tsay, Jane S. 2005. Taiwan child language corpus: Data collection and annotation. En Fifth Workshop on Asian Language Resources (ALR-05). Kawaguchi, Nobuo, Shigeki Matsubara, Kazuya Takeda, y Fumitada Itakura. 2005. Ciair in-car speech corpus: Influence of driving status : Corpus-based speech technologies. IEICE transactions on information and systems. Leech, G., R. Garside, y M. Bryant. 1994. Claws4: The tagging of the british national corpus. En Proceedings of the 15th International Conference on Computational Linguistics (COLING 94). Llisterri, Joaquim. 1997. Transcripción, etiquetado y codificación de corpus orales. Seminario de Industrias de la Lengua Fundación Duques de Soria. Miller, J. y R. Weinert. 1998. Spontaneous Spoken Language. Syntax and Discourse. Oxford University Press. Moreno, Antonio. 1991. Un modelo computacional basado en la unificación para el análisis y la generación de la morfologı́a del español. Ph.D. tesis, Universidad Autónoma de Madrid. 139 Tesis Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación vectorial∗ Manuel Garcı́a Vega Departamento de Informática Universidad de Jaén [email protected] Resumen: Tesis doctoral en Informática Realizada por Manuel Garcı́a Vega y dirigida por el Doctor L. Alfonso Ureña López (Univ. de Jaén). El acto de defensa de tesis tuvo lugar en Jaén en diciembre de 2006 ante el tribunal formado por los doctores Miguel Toro Bonilla (Univ. de Sevilla), Manuel Palomar Sanz (Univ. de Alicante), Lidia Moreno Boronat (Univ. Politécnica de Valencia), Andrés Montoyo Guijarro (Univ. de Alicante) y Marı́a Teresa Martı́n Valdivia (Univ. de Jaén). La calificación obtenida fue Sobresaliente Cum Laudem por unanimidad. Palabras clave: Desambiguación, Redes neuronales, LVQ Abstract: PhD thesis in Computer Science written by Manuel Garcı́a Vega under the supervision of Dr. L. Alfonso Ureña López (Univ. of Jaén). The author was examined in December 2006 in Jaén by the committee formed by Miguel Toro Bonilla (Univ. of Sevilla), Manuel Palomar Sanz (Univ. of Alicante), Lidia Moreno Boronat (Univ. Politécnica of Valencia), Andrés Montoyo Guijarro (Univ. of Alicante) y Marı́a Teresa Martı́n Valdivia (Univ. of Jaén). The grade obtained was Sobresaliente Cum Laudem. Keywords: WSD, Neural Nets, LVQ 1. Introducción La desambiguación del sentido de las palabras (Word Sense Disambiguation) es el problema de asignar un sentido determinado a una palabra polisémica, usando su contexto. Este problema ha sido de interés, prácticamente desde el comienzo de la informática, en los años 50. La desambiguación es una tarea intermedia y no un fin en sı́ misma. En particular, es muy útil, a veces imprescindible, para muchos problemas del PLN, como por ejemplo la recuperación de información, la categorización de textos, la traducción automática... Los objetivos de este trabajo son: 1. Implementar un desambiguador del sentido de las palabras basado en el Modelo de Espacio Vectorial optimizando los pesos de los vectores del entrenamiento usando la red neuronal LVQ (Learning Vector Quantization) del modelo neuronal supervisado de Kohonen. 2. Proponer un método uniforme de integración de recursos que sirvan para el ∗ Este trabajo ha sido parcialmente financiado por los proyectos FIT-150500-2002-416, FIT-1505002003-412 y TIC2003-07158-C04-04 ISSN: 1135-5948 entrenamiento de la red. Los parámetros de la red LVQ han sido optimizados para el problema de la desambiguación. En este trabajo se ha demostrado que las redes neuronales, concretamente los modelos de Kohonen, resuelven brillantemente el problema de la resolución de la ambigüedad léxica, aportando robustez, porque la red LVQ es insensible a pequeños cambios observándose unos resultados homogéneos independientemente del entrenamiento; flexibilidad, porque es fácilmente aplicable a cualquier tarea de PLN; escalabilidad, porque pueden introducirse multitud de textos de entrenamiento para ajustarlo a cualquier dominio y efectividad, porque los resultados obtenidos son comparables y en muchos casos superan a los métodos tradicionales utilizados para resolver los mismos problemas. Se ha calculado los parámetros óptimos de configuración de la red LVQ para la tarea de desambiguación, maximizando la precisión, el recall y la cobertura. Se han integrado el corpus SemCor y la base de datos léxica WordNet. Además, se ha aportado un método de integración automática de cualquier corpus. © Sociedad Española para el Procesamiento del Lenguaje Natural Manuel García Vega En el capı́tulo 5 se evalúa el desambiguador que se ha construido. Primero, se simula una participación en la competición Senseval2 en la tarea de English Lexical Sample y posteriormente se detalla la participación en Senseval-3, concretamente a las tareas de English Lexical Sample y de English All Words. En el capı́tulo 6 se detallan las conclusiones, se explican las principales aportaciones presentadas en esta memoria, ası́ como las lı́neas futuras de investigación como continuación de este trabajo. Finalmente, se incluye una recopilación de trabajos publicados en revistas y congresos nacionales e internacionales durante el desarrollo de esta memoria y relacionadas con ella. Los experimentos realizados muestran el buen comportamiento de esta red para el problema concreto de la desambiguación. 2. Estructura de la tesis La estructura sigue un esquema clásico, introduciendo el problema, la motivación y las contribuciones obtenidos. En el capı́tulo 2 se describe detalladamente el problema de la desambiguación y la terminologı́a que es comúnmente usada. Ası́ mismo, se describen con detalle los recursos lingüı́sticos que se usan, concretamente corpus de textos y bases de datos léxicas. A continuación, se explican las principales medidas para la evaluación de los sistemas desambiguadores. Se describe la organización Senseval que actualmente es el principal medio de evaluación para cualquier sistema de resolución de la ambigüedad léxica y se describen los principales métodos de desambiguación, ası́ como los mejores desambiguadores presentados en las tres ediciones de Senseval. El capı́tulo 3 trata de manera general las redes neuronales artificiales, clasificándolas según diferentes criterios, definiendo sus partes principales y describiendo sus caracterı́sticas más importantes. A continuación, se detallan los principales métodos de entrenamiento, haciendo hincapié en su carácter supervisado o no supervisado. Se sigue con la cuantificación vectorial, como base matemática del aprendizaje LVQ. El modelo de Kohonen es presentado a continuación, enlazando la cuantificación vectorial y el aprendizaje competitivo para producir la red neuronal LVQ. El capı́tulo 4 está dedicado a describir el desambiguador. Comienza explicando el modelo del espacio vectorial, que da el soporte matemático a la red neuronal. Se detalla la integración del modelo matemático con la red LVQ y cómo se ha de realizar el entrenamiento. A continuación, se incluyen en el entrenamiento las fuentes lingüı́sticas disponibles. En primer lugar, el corpus SemCor, con el que se hace un experimento para comprobar su validez. Después, se detalla cómo integrar WordNet en el entrenamiento y se experimenta con los datos que aporta. Continúa con la integración de ambos recursos a la vez. Para terminar, se estudian a fondo los distintos parámetros de la red LVQ para optimizar su comportamiento. 3. Aportaciones de la investigación Las principales contribuciones de este trabajo de investigación son: Se ha propuesto un desambiguador basado en el modelo neuronal de Kohonen, usando la red LVQ. Proponemos un desambiguador que puede afinarse tanto para precisión como para recall, ajustando adecuadamente un cierto valor umbral para la probabilidad de acierto del sentido desambiguado. Se ha afinado el algoritmo LVQ para una mayor efectividad en el problema de la resolución de la ambigüedad léxica, fundamentando el cálculo en el comportamiento del desambiguador con experimentos ya contrastados. El desambiguador propuesto es muy robusto, mostrando un comportamiento homogéneo en los distintos experimentos realizados donde los dominios semánticos de los textos objeto de estudio eran muy diversos. Se ha construido un desambiguador independiente de la lengua, siempre y cuando se disponga de los recursos necesarios: lexicón y textos etiquetados en la lengua objeto. Se ha definido un método de integración de recursos lingüı́sticos heterogéneos para su uso como entrenamiento de la red LVQ, que permite la incorporación de información especı́fica en cualquier dominio semántico. 144 Integración de técnicas de clasificación de texto y modelado de usuario para la personalización en servicios de noticias Alberto Díaz Esteban Grupo de Diseño y Optimización de Sistemas Informáticos ITIS CES Felipe II - UCM C/ Capitán, 39, Aranjuez, Madrid 28300 [email protected] Resumen: Tesis doctoral en Informática realizada por Alberto Díaz Esteban bajo la dirección de los doctores Pablo Gervás Gómez-Navarro (Univ. Complutense de Madrid) y Manuel de Buenaga Rodríguez (Univ. Europea). El acto de defensa de la tesis tuvo lugar el 13 de Julio de 2005 ante el tribunal formado por los doctores Carmen Fernández Chamizo (Univ. Complutense de Madrid), Manuel Palomar Sanz (Univ. de Alicante), Juan Pavón Mestras (Univ. Complutense de Madrid), Julio Gonzalo Arroyo (UNED), David Bueno Vallejo (Univ. de Málaga). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad. Palabras clave: Personalización de contenidos Web, Modelo de usuario, Evaluación Abstract: PhD Thesis in Computer Science written by Alberto Díaz Esteban under the supervision of Dr. Pablo Gervás Gómez-Navarro (Univ. Complutense de Madrid) and Dr. Manuel de Buenaga Rodríguez (Univ. Europea). The author was examined in July 13th 2005 by the commitee formed by Dr. Carmen Fernández Chamizo (Univ. Complutense de Madrid), Dr. Manuel Palomar Sanz (Univ. de Alicante), Dr. Juan Pavón Mestras (Univ. Complutense de Madrid), Dr. Julio Gonzalo Arroyo (UNED), Dr. David Bueno Vallejo (Univ. de Málaga). The grade obtained was Sobresaliente Cum Laude. Keywords: Web contents personalization, User model, Evaluation 1 Introducción Los contenidos Web aparecen de muy diversas maneras en distintos dominios de aplicación pero en la mayoría de ellos la forma de presentación de la información es la misma para todos los usuarios, es decir, esos contenidos son estáticos en el sentido de que no se adaptan a cada usuario. La personalización de contenidos es una técnica que trata de eliminar la sobrecarga de información mediante la adaptación de los contenidos a cada tipo de usuario. En esta tesis se muestra un enfoque integrado de personalización de contenidos Web, aplicado a servicios de noticias, basado en tres funcionalidades principales: selección de contenidos, adaptación del modelo de usuario y presentación de resultados. Todos estos procesos están basados en la representación de los intereses del usuario que estarán reflejadas en un perfil o modelo de usuario. La selección de contenidos se refiere a la elección entre ISSN: 1135-5948 todos los documentos de entrada de aquellos más interesantes para un usuario dado. La adaptación del modelo de usuario es necesaria ya que las necesidades de los usuarios cambian a lo largo del tiempo, sobre todo como resultado de su interacción con la información que reciben. La presentación de resultados consiste en, una vez seleccionados los elementos de información que más le interesan a un usuario, mostrar un documento resultado que contenga, para cada elemento seleccionado, un extracto que sea indicativo de su contenido. En particular, se ha generado un resumen personalizado por cada elemento de información seleccionado para cada usuario. El modelo de usuario utilizado integra cuatro tipos de sistemas de referencia que permiten representar los intereses de los usuarios desde diferentes puntos de vista. Estos intereses están divididos en dos tipos: intereses a largo plazo e intereses a corto plazo. Los primeros representan intereses del usuario que permanecen constantes a lo largo del tiempo, mientras que los segundos representan los © Sociedad Española para el Procesamiento del Lenguaje Natural Alberto Díaz Esteban personalización de contenidos Web aplicado a servicios de noticias. intereses que se van modificando. A su vez, el modelo a largo plazo utiliza tres métodos de clasificación que permiten al usuario definir sus necesidades de información desde 3 puntos de vista diferentes: un sistema de clasificación dependiente del dominio, donde los documentos están preclasificados por el autor del documento (p.ej.: secciones en un periódico), un sistema de clasificación independiente del dominio, obtenido a partir de las categorías del primer nivel de Yahoo! España y un conjunto de palabras clave. Los resultados se muestran a los usuarios en forma de resúmenes personalizados. Esto permite un ahorro de tiempo a los usuarios a la hora de detectar si un documento realmente le interesa sin tener que leerse el texto completo. Las técnicas utilizadas para permitir la adaptación de los intereses de los usuarios se basan en la extracción de los términos más utilizados en los documentos que el usuario indica como relevantes de entre los seleccionados y presentados por el sistema. La evaluación de los sistemas de personalización es especialmente compleja debido a que son necesarias las opiniones de distintos usuarios para poder obtener conclusiones relevantes sobre su funcionamiento. En este trabajo se propone un marco de evaluación de sistemas de personalización de contenidos que permite establecer la efectividad del sistema (evaluación cuantitativa) y la satisfacción de los usuarios (evaluación cualitativa) cuando se utilizan distintas propuestas de personalización. Para evaluar los distintos procesos de personalización se han generado varias colecciones de evaluación donde se almacenan los juicios de relevancia de varios usuarios durante varios días de utilización del sistema. Estas colecciones han permitido probar los distintos enfoques propuestos para determinar cuál de ellos era la mejor elección. Además estas colecciones pueden ser utilizadas posteriormente por otros investigadores para comparar los resultados de sus técnicas de personalización. Las evaluaciones realizadas han mostrado que la propuesta de personalización basada en la combinación de modelos de usuario a largo y corto plazo, con resúmenes personalizados como forma de presentar los resultados finales, permite disminuir la sobrecarga de información de los usuarios, independientemente del dominio y del idioma, en un sistema de 2 Estructura de la tesis En el capítulo inicial se presentan los objetivos perseguidos y la motivación para el desarrollo de la tesis. En el Capítulo 2 se revisan los conceptos fundamentales de los sistemas de personalización de contenidos, primero se muestran las distintas formas de representar contenidos, después distintas formas de representar modelos de usuario y posteriormente se divide el proceso de personalización en las 3 funcionalidades principales: selección de contenidos, adaptación del modelo de usuario y presentación de resultados, y para cada una de ellas se presentan tanto las técnicas disponibles como los métodos de evaluación utilizados para juzgar su efectividad. En el Capítulo 3 se describen las técnicas propuestas para realizar la personalización de contenidos Web. En primer lugar se presenta la forma elegida para representar la información manejada por el sistema. A continuación se muestra la forma de modelar a los usuarios. Por último se explican las técnicas utilizadas en cada uno de los procesos de personalización: selección, adaptación y presentación. El Capítulo 4 detalla la metodología de evaluación utilizada en cada uno de los procesos de personalización, indicando las métricas más adecuadas para cada tarea. En el Capítulo 5 se describen las distintas colecciones de evaluación utilizadas en los distintos experimentos. En el Capítulos 6 se describen las distintas versiones desarrolladas de sistemas de personalización de noticias. En cada una de ellas se muestran las técnicas concretas utilizadas, los experimentos realizados y los resultados y conclusiones obtenidos. En el Capítulo 7 se realiza una discusión de los resultados obtenidos, comparando los distintos sistemas de personalización entre sí y con el estado del arte. También se discute la extrapolación del sistema a un ámbito multilingüe. Por último en el Capítulo 8 se resumen las conclusiones principales y se proponen algunas líneas de trabajo futuro. 146