Rosette Name Indexer

Transcripción

Rosette Name Indexer
PRODUCTOS
Rosette Name Indexer
Búsqueda precisa de nombres en
múltiples idiomas y sistemas de
escritura
Rosette® Name Indexer (RNI) encuentra nombres de
personas, lugares, y organizaciones escritos en diferentes
idiomas y los compara con un índice universal y único. Por
ejemplo, cuando buscamos a “Mao Zedong” encontramos
resultados escritos en inglés (como “Mao Ze Dong” o
“Mao Tse Tung”), en chino simplificado (毛泽东), en chino
tradicional (毛澤東), o incluso en árabe (  ‫و‬). Esta
capacidad puede integrarse en aplicaciones que se dedican
a la administración de listas de vigilancia, la detección de
fraude, el blanqueo de dinero, el análisis geoespacial, y el
triaje de documentos.
Al contrario que las aplicaciones existentes que dependen
de listas de billones de variaciones ortográficas, RNI analiza
la estructura intrínsica de cada componente del nombre y
realiza una comparación inteligente mediante algoritmos
lingüísticos avanzados. Este enfoque no esta limitado por
una lista particular de variantes y así se reduce el número de
“positivos falsos” (errores) y “negativos falsos” (omisiones).
∶
∶
03228
03229
Nasir Ali Khan
ID: 6864
Programa: SDNTK
FDN: 1 Oct 1955
Mun Chi Wong
03230
Man Chi Huang
03231
Mohamad Gani
03232
黄满池
03233
Nasser Ali Kan
03234
黄マンチー
∶
ID: 9340
Programa: SDNTK
FDN: 18 Mar 1961
Muhammad Nadeem Ghani
ID: 10592
Programa: SDNTK
FDN: desconocido
∶
Las consultas multilíngües
Índice en inglés
EJEMPLOS
RNI comparara el nombre “Jesus Alfonso LOPEZ DIAZ”
contra las siguientes variaciones y le dá una puntuación cada
vez mas bajo:
Apellido con faltas ortográficas
Jesus Alfonso LOBEZ DEAZ
Primer apellido omiso
Jesus Alfonso DEAZ
Segundo nombre representado por
una inicial
Jesus A. DEAZ
CAPACIDADES PARA LA BÚSQUEDA DE NOMBRES
Sustitución del primer nombre por el
apodo
Chuy A. DEAZ
RNI se encarga de los siguientes problemas en la búsqueda
de nombres:
Componentes del nombre en orden
diferente
DEAZ, Chuy A.
El mismo nombre escrito
en idiomas diferentes
“Mao Zedong”, “Мао Цзэдун”, “毛泽东”,
“毛澤東”
Variantes fonéticas
“Cairns”, “Kearns”, “Kerns”
Variantes de
transliteración
“Abdul Rasheed”, “Abd-al-Rasheed”,
“Abdulrashid”
Abreviaturas del nombre
“William”, “Will”, “Bill”, “Billy”
Iniciales
“J. E. Smith”, “James Earl Smith”
Honoríficos y cargos
“D.”, “Sr.”, “Ldo.”
Componentes en orden
diferente
“Diaz, Carlos Alfonzo”,
“Carlos Alfonzo Diaz”
Componentes omisos
“Phillip Charles Carr”, “Phillip Carr”
Espacios o guiones
omisos
“MaryEllen”, “Mary Ellen”, “Mary-Ellen”
Componentes
incompletos
“Royal Bank of Sco”, “Mcdonal”, “Stev”
Componentes divididos
de manera irregular a
través de campos de
bases de datos
“Dick • Van Dyke”, “Dick Van • Dyke”
Los nombres escritos en otros idiomas presentan problemas
específicos, como puede ser la estructura compleja de
nombres en árabe a menudo conllevan a la desaparición de
algunos componentes. Por ejemplo:
Cargo
Primer Nombre
Patronímico
Apellido
Al-Sheikh Abdullah
Bin Hassan
Al-Ashqar
‫ﻋﺒﺪ اﷲ اﻟﺸﻴﺦ‬
‫ٔاﻻﺷﻘﺮ ﺑﻦ ﺣﺴﻦ‬
Este nombre puede aparecer en formas distintas que
incluyen:
• Al-Sheikh Abdullah Al-Ashqar (sin patronímico)
• Abdullah Al-Ashqar (sin cargo, sin patronímico)
• Al-Sheikh Abdullah Bin Hassan Bin Mohammed
Al-Ashqar (con patronímico del abuelo)
VENTAJAS
HECHO A MEDIDA
• Encuentra nombres de personas, lugares, y
organizaciones
• Incrementa la precisión de la búsqueda y encuentra lo
que otros sistemas no pueden
• Ordena los resultados por el porcentaje de similitud
• Encuentra resultados parciales cuando los datos son
incompletos
• Encuentra nombres procendentes de diferentes culturas
como el Oriente Medio, Asia del Este, no importa cómo
hayan sido escritos
RNI puede conformarse a sus requisitos para así mejorar la
exhaustividad (la fracción de instancias relevantes que han
sido recuperadas) y la precisión (la fracción de instancias
recuperadas que son relevantes) para un conjunto de datos
o caso de uso particular:
COMO FUNCIONA
RNI proporciona un repositorio de nombres—el “índice
de nombres”—con capacidad de búsqueda aproximada
(“fuzzy matching”). RNI puede operar como un índice
independiente o puede integrarse con una base de datos.
Cuando no todos los componentes de un nombre estan
incluidos en los resultados, RNI concorda los nombres de
la búsqueda con los del índice y encuentra los resultados
parciales.
Cuando se efectúa una búsqueda de nombres, los resultados
se mandan a la aplicación en el orden del puntuación de
similitud que va del 0 al 100. Un umbral mínimo puede
ser indicado. A través de la interfaz de programación al
RNI, se puede consultar información adicional asociada
con cada nombre—como, por ejemplo, relaciones, lugares
geográficos, y enlaces a bases de datos externas—para
identificar indivíduos y lugares.
A menudo, el índice de nombres se crea a base de las
entidades identificadas por Rosette Entity Extractor (REX),
de esta manera permitiendo el emparejamiento de nombres
a través de una gran colección de documentos.
Búsqueda:
Puntuación
1,000
0,990
0,990
0,945
0,942
0,921
0,910
0,908
0,903
0,903
0,899
0,897
0,893
• Ignora una lista de palabras (“stopwords”) para la
búsqueda (p.ej., cargos y hornoríficos)
• Se asegura que dos componentes del nombre siempre
conformen con un puntuación determinado (p.ej.,
“Elizabeth” y “Lisbeth” conforman siempre al 90%)
• Se asegura que dos nombres siempre conformen con un
puntuación determinado (e.j. “John Doe” y “Joe Bloggs”
conforman siempre al 95%)
• Concorda varios nombres con una sola persona (p.ej.,
“Marilyn Monroe” y “Norma Jeane Mortensen”)
IDIOMAS Y SISTEMAS DE ESCRITURA DISPONIBLES
RNI concorda nombres en los siguientes idiomas y entre esos
idiomas y el inglés. Otros idiomas pueden hacerse disponible
a través de desarrollo personalizado.
Idiomas
Sistemas de escritura
disponibles
Ejemplos
Árabe
Alfabeto árabe
‫دات‬‫ر ا‬ٔ‫ ا‬
Chino
Hanzi simplificado,
Hanzi tradicional
刘晓波、 劉曉波
Dari
Alfabeto árabe
Persa
Alfabeto árabe
‫ی‬ ‫را‬
‫دى‬ 
Inglés
Alfabeto latino
Paul Krugman
Japonés
Hiragana, Katakana,
Kanji
鈴木章、すずき あきら、
スズキ アキラ
Vincent Kaminski
Nombre encontrado
Sistema de escritura
Coreáno
Hangul, Hanja
김대중
Vincent Kaminski
Latino
Katakana
Cirílico
Latino
Latino
Latino
Latino
Latino
Latino
Latino
Latino
Latino
Pastún
Alfabeto árabe
ヴィンセントカミンスキー
Винсент Каминский
Vincent J. Kaminski
Vince Kaminski
V. Kaminski
Vincent Kaminsik
Vince Kamainski
Vince Kaminiski
Vince Kamnski
Vince Kaminsky
Vince Kaminki
‫زی‬ 
Ruso
Alfabeto cirílico
Миха́ил Серѓеевич Горбачёв
Español
Alfabeto latino
Jorge Mario Pedro Vargas
Llosa
Urdu
Alfabeto árabe
‫م‬‫ ا‬
文森特
Hanzi
卡明斯基
PLATAFORMAS DE SISTEMA DISPONIBLES
El índice de nombres de RNI facilita la búsqueda de nombres en
varios idiomas y sitemas de escritura.
VISITE www.basistech.com
One Alewife Center
Cambridge, MA 02140
ESCRIBA [email protected]
2553 Dulles View Drive
Herndon, VA 20171
Se ofrecen los kits de desarrollo de software (SDKs) y
servicios web para las siguientes plataformas. Comuníquese
con su representante de ventas para consultar sobre
plataformas adicionales.
Linux CentOS 5.x/6.x, IA32/AMD64
Linux Debian 6.x/7.x, IA32/AMD64
Linux Red Hat 5.x/6.x, IA32/AMD64
Linux Ubuntu 12.x/13.x, IA32/AMD64
MacOS
Solaris 10/11, SPARC32/64, IA32/AMD64
Windows XP/Vista/7, IA32/AMD64
Windows Server 2003, 2008
LLAME 617-386-2090
1 Furzeground Way
Middlesex UB11 1BD, UK
9-6 Nibancho, Chiyoda-ku
Tokyo 102-0084, Japan
© 2013 Basis Technology Corporaon. “Basis Technology”, “Geoscope”, “Odyssey Digital Forensics”, “Rosee”, and “We put the World in the World Wide Web” are registered
trademarks of Basis Technology Corporaon. All other trademarks, service marks, and logos used in this document are the property of their respecve owners. (2013-08-30)

Documentos relacionados