Rosette Name Indexer
Transcripción
Rosette Name Indexer
PRODUCTOS Rosette Name Indexer Búsqueda precisa de nombres en múltiples idiomas y sistemas de escritura Rosette® Name Indexer (RNI) encuentra nombres de personas, lugares, y organizaciones escritos en diferentes idiomas y los compara con un índice universal y único. Por ejemplo, cuando buscamos a “Mao Zedong” encontramos resultados escritos en inglés (como “Mao Ze Dong” o “Mao Tse Tung”), en chino simplificado (毛泽东), en chino tradicional (毛澤東), o incluso en árabe ( و). Esta capacidad puede integrarse en aplicaciones que se dedican a la administración de listas de vigilancia, la detección de fraude, el blanqueo de dinero, el análisis geoespacial, y el triaje de documentos. Al contrario que las aplicaciones existentes que dependen de listas de billones de variaciones ortográficas, RNI analiza la estructura intrínsica de cada componente del nombre y realiza una comparación inteligente mediante algoritmos lingüísticos avanzados. Este enfoque no esta limitado por una lista particular de variantes y así se reduce el número de “positivos falsos” (errores) y “negativos falsos” (omisiones). ∶ ∶ 03228 03229 Nasir Ali Khan ID: 6864 Programa: SDNTK FDN: 1 Oct 1955 Mun Chi Wong 03230 Man Chi Huang 03231 Mohamad Gani 03232 黄满池 03233 Nasser Ali Kan 03234 黄マンチー ∶ ID: 9340 Programa: SDNTK FDN: 18 Mar 1961 Muhammad Nadeem Ghani ID: 10592 Programa: SDNTK FDN: desconocido ∶ Las consultas multilíngües Índice en inglés EJEMPLOS RNI comparara el nombre “Jesus Alfonso LOPEZ DIAZ” contra las siguientes variaciones y le dá una puntuación cada vez mas bajo: Apellido con faltas ortográficas Jesus Alfonso LOBEZ DEAZ Primer apellido omiso Jesus Alfonso DEAZ Segundo nombre representado por una inicial Jesus A. DEAZ CAPACIDADES PARA LA BÚSQUEDA DE NOMBRES Sustitución del primer nombre por el apodo Chuy A. DEAZ RNI se encarga de los siguientes problemas en la búsqueda de nombres: Componentes del nombre en orden diferente DEAZ, Chuy A. El mismo nombre escrito en idiomas diferentes “Mao Zedong”, “Мао Цзэдун”, “毛泽东”, “毛澤東” Variantes fonéticas “Cairns”, “Kearns”, “Kerns” Variantes de transliteración “Abdul Rasheed”, “Abd-al-Rasheed”, “Abdulrashid” Abreviaturas del nombre “William”, “Will”, “Bill”, “Billy” Iniciales “J. E. Smith”, “James Earl Smith” Honoríficos y cargos “D.”, “Sr.”, “Ldo.” Componentes en orden diferente “Diaz, Carlos Alfonzo”, “Carlos Alfonzo Diaz” Componentes omisos “Phillip Charles Carr”, “Phillip Carr” Espacios o guiones omisos “MaryEllen”, “Mary Ellen”, “Mary-Ellen” Componentes incompletos “Royal Bank of Sco”, “Mcdonal”, “Stev” Componentes divididos de manera irregular a través de campos de bases de datos “Dick • Van Dyke”, “Dick Van • Dyke” Los nombres escritos en otros idiomas presentan problemas específicos, como puede ser la estructura compleja de nombres en árabe a menudo conllevan a la desaparición de algunos componentes. Por ejemplo: Cargo Primer Nombre Patronímico Apellido Al-Sheikh Abdullah Bin Hassan Al-Ashqar ﻋﺒﺪ اﷲ اﻟﺸﻴﺦ ٔاﻻﺷﻘﺮ ﺑﻦ ﺣﺴﻦ Este nombre puede aparecer en formas distintas que incluyen: • Al-Sheikh Abdullah Al-Ashqar (sin patronímico) • Abdullah Al-Ashqar (sin cargo, sin patronímico) • Al-Sheikh Abdullah Bin Hassan Bin Mohammed Al-Ashqar (con patronímico del abuelo) VENTAJAS HECHO A MEDIDA • Encuentra nombres de personas, lugares, y organizaciones • Incrementa la precisión de la búsqueda y encuentra lo que otros sistemas no pueden • Ordena los resultados por el porcentaje de similitud • Encuentra resultados parciales cuando los datos son incompletos • Encuentra nombres procendentes de diferentes culturas como el Oriente Medio, Asia del Este, no importa cómo hayan sido escritos RNI puede conformarse a sus requisitos para así mejorar la exhaustividad (la fracción de instancias relevantes que han sido recuperadas) y la precisión (la fracción de instancias recuperadas que son relevantes) para un conjunto de datos o caso de uso particular: COMO FUNCIONA RNI proporciona un repositorio de nombres—el “índice de nombres”—con capacidad de búsqueda aproximada (“fuzzy matching”). RNI puede operar como un índice independiente o puede integrarse con una base de datos. Cuando no todos los componentes de un nombre estan incluidos en los resultados, RNI concorda los nombres de la búsqueda con los del índice y encuentra los resultados parciales. Cuando se efectúa una búsqueda de nombres, los resultados se mandan a la aplicación en el orden del puntuación de similitud que va del 0 al 100. Un umbral mínimo puede ser indicado. A través de la interfaz de programación al RNI, se puede consultar información adicional asociada con cada nombre—como, por ejemplo, relaciones, lugares geográficos, y enlaces a bases de datos externas—para identificar indivíduos y lugares. A menudo, el índice de nombres se crea a base de las entidades identificadas por Rosette Entity Extractor (REX), de esta manera permitiendo el emparejamiento de nombres a través de una gran colección de documentos. Búsqueda: Puntuación 1,000 0,990 0,990 0,945 0,942 0,921 0,910 0,908 0,903 0,903 0,899 0,897 0,893 • Ignora una lista de palabras (“stopwords”) para la búsqueda (p.ej., cargos y hornoríficos) • Se asegura que dos componentes del nombre siempre conformen con un puntuación determinado (p.ej., “Elizabeth” y “Lisbeth” conforman siempre al 90%) • Se asegura que dos nombres siempre conformen con un puntuación determinado (e.j. “John Doe” y “Joe Bloggs” conforman siempre al 95%) • Concorda varios nombres con una sola persona (p.ej., “Marilyn Monroe” y “Norma Jeane Mortensen”) IDIOMAS Y SISTEMAS DE ESCRITURA DISPONIBLES RNI concorda nombres en los siguientes idiomas y entre esos idiomas y el inglés. Otros idiomas pueden hacerse disponible a través de desarrollo personalizado. Idiomas Sistemas de escritura disponibles Ejemplos Árabe Alfabeto árabe داتر أ ا Chino Hanzi simplificado, Hanzi tradicional 刘晓波、 劉曉波 Dari Alfabeto árabe Persa Alfabeto árabe ی را دى Inglés Alfabeto latino Paul Krugman Japonés Hiragana, Katakana, Kanji 鈴木章、すずき あきら、 スズキ アキラ Vincent Kaminski Nombre encontrado Sistema de escritura Coreáno Hangul, Hanja 김대중 Vincent Kaminski Latino Katakana Cirílico Latino Latino Latino Latino Latino Latino Latino Latino Latino Pastún Alfabeto árabe ヴィンセントカミンスキー Винсент Каминский Vincent J. Kaminski Vince Kaminski V. Kaminski Vincent Kaminsik Vince Kamainski Vince Kaminiski Vince Kamnski Vince Kaminsky Vince Kaminki زی Ruso Alfabeto cirílico Миха́ил Серѓеевич Горбачёв Español Alfabeto latino Jorge Mario Pedro Vargas Llosa Urdu Alfabeto árabe م ا 文森特 Hanzi 卡明斯基 PLATAFORMAS DE SISTEMA DISPONIBLES El índice de nombres de RNI facilita la búsqueda de nombres en varios idiomas y sitemas de escritura. VISITE www.basistech.com One Alewife Center Cambridge, MA 02140 ESCRIBA [email protected] 2553 Dulles View Drive Herndon, VA 20171 Se ofrecen los kits de desarrollo de software (SDKs) y servicios web para las siguientes plataformas. Comuníquese con su representante de ventas para consultar sobre plataformas adicionales. Linux CentOS 5.x/6.x, IA32/AMD64 Linux Debian 6.x/7.x, IA32/AMD64 Linux Red Hat 5.x/6.x, IA32/AMD64 Linux Ubuntu 12.x/13.x, IA32/AMD64 MacOS Solaris 10/11, SPARC32/64, IA32/AMD64 Windows XP/Vista/7, IA32/AMD64 Windows Server 2003, 2008 LLAME 617-386-2090 1 Furzeground Way Middlesex UB11 1BD, UK 9-6 Nibancho, Chiyoda-ku Tokyo 102-0084, Japan © 2013 Basis Technology Corporaon. “Basis Technology”, “Geoscope”, “Odyssey Digital Forensics”, “Rosee”, and “We put the World in the World Wide Web” are registered trademarks of Basis Technology Corporaon. All other trademarks, service marks, and logos used in this document are the property of their respecve owners. (2013-08-30)