Rastrear URL - INTRANET CAP
Transcripción
Rastrear URL - INTRANET CAP
Rastrear URL Antes de empezar a rastrear contenido web, debe especificar una o varias ubicaciones iniciales. Puede controlar y ajustar mejor la magnitud del rastreo, especificando patrones de URL que deben seguirse y otros que deben evitarse. Para que una URL concreta se rastree, debe concordar al menos con un patrón de URL especificado en el cuadro Seguir y rastrear sólo las URL con los patrones siguientes y con ninguno de los patrones de URL del cuadro No rastrear las URL con los patrones siguientes. Nota: Si una URL coincide con los patrones de Seguir y rastrear sólo las URL con los patrones siguientes y No rastrear las URL con los patrones siguientes, la URL no se rastreará. Las URL distinguen entre mayúsculas y minúsculas; para que las URL no distingan entre mayúsculas y minúsculas, utilice el operador regexpIgnoreCase. El rastreador puede acceder a la información a través de los protocolos HTTP, HTTPS y SMB, así como mediante rutas UNC (Convenio universal de denominación). A continuación encontrará más información sobre el rastreo del sistema de archivos con SMB. Las siguientes opciones permiten controlar y ajustar mejor el rastreo. Iniciar rastreo desde las URL siguientes http://w w w .tigabytes.com/secure/ http://w w w .cap.cl/ http://w w w .invercap.cl/ http://w w w .infoacero.cl/ http://w w w .koomedia.cl/ http://intranet.cap.cl/ Ejemplo: http://www.miorganización.micompañía.com *obligatorio Las URL de inicio, que se introducen en líneas distintas, controlan la ubicación exacta donde se inicia el rastreo. Todo el contenido que desee incluir en los grupos debe poder consultarse siguiendo los vínculos de uno o varios documentos que figuran en las URL de inicio. Dichas URL únicamente son los puntos de inicio del rastreo, es decir, indican al rastreador dónde debe empezar a rastrear. Sin embargo, los vínculos de las URL de inicio sólo se seguirán y rastrearán si concuerdan con uno de los patrones de Seguir y rastrear sólo las URL con los patrones siguientes. Por ejemplo, si especifica la URL de inicio http://miempresa.es/ en esta sección y el patrón www.miempresa.es/ en la sección mencionada, el rastreador detectará los vínculos que haya en la página web http://www.miempresa.es/. Sin embargo, únicamente rastreará e indexará las URL que concuerden con el patrón www.miempresa.es/. Las entradas de esta ventana deben ser URL completas que utilicen el formato: <protocolo>://<host>[:puerto]/[ruta] donde el protocolo puede incluir HTTP, HTTPS (para contenido protegido) o SMB (para archivos compartidos). La información entre corchetes [ ] es opcional. La barra diagonal "/" que aparece tras <host>[:puerto] es obligatoria. Si utiliza nombres de rutas UNC de Windows, no es necesario que especifique el protocolo, pero debe utilizar una barra invertida ("\") en lugar de una barra inclinada. Las entradas UNC presentan este formato: \\<host>[:port]\<path> La información entre corchetes [ ] es opcional. La barra invertida que aparece tras <host>[:puerto] es obligatoria. Ejemplos válidos: https://www.ejemplo.com/protegido/ http://www.ejemplo.com:80/ayuda/ smb://archivocompartido.miempresa.es/ \\archivocompartido.miempresa.es\compartido\ Ejemplos no válidos: http://www/ www.ejemplo.com/ http://www.ejemplo.com Motivo: No es válido, porque el nombre del host está incompleto. Los nombres de host completos incluyen el nombre de host local y el nombre completo del dominio; por ejemplo: correo.corp.compañía.com. No es válido porque falta la información sobre el protocolo. El carácter "/" que aparece tras <host>[:puerto] es obligatorio. Para introducir una nueva URL, escriba una entrada válida en la ventana. Pulse Intro para añadir otras URL (una por línea). Nota: Esta ventana debe contener al menos una URL de inicio. Google Search Appliance tratará de resolver la información de la ruta incompleta utilizando los datos introducidos en la página Administración > Configuración de la red de la sección Sufijo DNS (ruta de búsqueda DNS). Sin embargo, si no lo consigue, se mostrará el siguiente mensaje de error en rojo en la página: Ha introducido una o varias URL de inicio no válidas. Por favor, compruebe sus ediciones. El rastreador intentará varias veces rastrear las URL que no estén disponibles temporalmente. Rastreo del sistema de archivos Los archivos SMB (Bloque de mensajes de servidor) compartidos, también conocidos como "Archivos compartidos de Windows", son un sistema de archivos de red muy utilizado. Para rastrear documentos almacenados en un archivo SMB compartido, especifique una ruta URI mediante el protocolo smb. Por ejemplo, smb://archivo-servidor/carpeta/ No inicie el rastreo en la URL de SMB de nivel superior. Por ejemplo, la siguiente es una URL no válida: smb:// Estos archivos se indexarán y publicarán en resultados de búsqueda públicos. Los vínculos de resultados que corresponden a documentos ubicados en archivos compartidos SMB se publicarán a través de Google Mini y estarán disponibles para todos los usuarios de la búsqueda. Nota: Si su entorno utiliza un servidor WINS para buscar nombres de host, también debe configurar el rastreador para que utilice este servidor en la página Administración > Configuración de la red. Seguir y rastrear sólo las URL con los patrones siguientes http://w w w .tigabytes.com/secure/ cap.cl/ invercap.cl/ infoacero.cl/ koomedia.cl/ netoffice.cl/ ejemplo: miempresa.com/ *obligatorio Todas las entradas del cuadro Iniciar rastreo desde las URL siguientes requieren la entrada correspondiente en el cuadro Seguir y rastrear sólo las URL con los patrones siguientes. De no ser así, se mostrará un mensaje de error. Sólo se seguirán y rastrearán las URL que concuerden con los patrones especificados (uno por línea) en esta ventana. De esta manera podrá controlar los archivos que se rastrearán en su servidor. Ejemplo: https://www.ejemplo.com/protegido/ http://www.ejemplo.com:80/ayuda/ smb://archivocompartido.miempresa.com/ \\archivocompartido.miempresa.es\compartidocompartido\ Estas entradas limitan el rastreo a las URL que contienen las cadenas anteriores. Por ejemplo, todas las que aparecen a continuación se rastrearían, siempre y cuando no aparezcan en la lista de URL que no deben rastrearse: https://www.ejemplo.com/protegido/archivo.txt http://www.ejemplo.com:80/ayuda/proyectoA smb://archivocompartido.miempresa.com/carpeta1 \\archivocompartido.miempresa.es\carpeta1\ Las URL que se encuentren se compararán con estos patrones a fin de determinar su inclusión en el índice. Sólo se rastrearán e indexarán las URL que concuerden con ellos. Para que una URL se rastree e indexe, debe existir una secuencia de vínculos que concuerden con los patrones de seguimiento de una de las URL de inicio. Si no cuenta con una ruta de vínculos válida, deberá añadir la URL a la sección Iniciar rastreo desde las URL siguientes. Los patrones de URL que especifique en esta ventana deben cumplir con las normas para definir patrones de URL válidos. Si desea introducir un patrón de URL, introduzca el patrón válido en la ventana. Pulse Intro para añadir patrones adicionales. Está permitido incluir líneas vacías y comentarios que empiecen por #. Las URL de la página Rastrear URL distinguen entre mayúsculas y minúsculas. Para que los patrones de concordancia de URL no distingan entre mayúsculas y minúsculas, utilice el operador regexpIgnoreCase. Por ejemplo, el patrón regexpIgnoreCase:http://www.miempresa.com/documentos/ también coincidirá con las URL que incluyen http://www.miempresa.com/documentos/ y http://www.miempresa.com/DOCUMENTOS/. Probar estos patrones Introduzca varias URL: http://w w w .tigabytes.com/secure/ http://w w w .cap.cl/ http://w w w .invercap.cl/ http://w w w .infoacero.cl/ http://w w w .koomedia.cl/ http://intranet.cap.cl/ Probar con estos patrones: http://w w w .tigabytes.com/secure/ cap.cl/ invercap.cl/ infoacero.cl/ koomedia.cl/ netoffice.cl/ Probar estos patrones Resultados: URL http://www.tigabytes.com/secure/ http://www.cap.cl/ http://www.invercap.cl/ http://www.infoacero.cl/ http://www.koomedia.cl/ http://intranet.cap.cl/ http://www.netoffice.cl/ http://intranet.cap.cl/google_paths/documen tos_confidenciales/ Concordancia con el patrón http://www.tigabytes.com/secure/ cap.cl/ invercap.cl/ infoacero.cl/ koomedia.cl/ cap.cl/ netoffice.cl/ cap.cl/ Si desea saber qué URL coincidirán con uno de los patrones que ha introducido en este campo, haga clic en cualquiera de los vínculos Probar estos patrones para abrir la “Utilidad de prueba de patrones”. Esta utilidad permite especificar una lista de URL en la parte izquierda y un conjunto de patrones en la derecha, e indica las correspondencias entre las URL y los patrones del grupo. Al abrirse, la “Utilidad de prueba de patrones” se inicia con las entradas guardadas en la página Rastrear e indexar > Rastrear URL. Si desea analizar más exhaustivamente los grupos de patrones, puede introducir más URL y patrones en esta utilidad. Sin embargo, las modificaciones no se guardarán. Para ello, debe introducirlas y guardarlas en la página Rastrear e indexar > Rastrear URL. Tras hacer clic en el botón Probar estos patrones, los resultados aparecerán en la misma página. El fondo verde indica que al menos uno de los patrones concuerda con las URL que desea rastrear. También se muestra el primer patrón coincidente. Si el fondo es rojo, significa que ninguno de los patrones concuerda con esta URL. Haga clic en el vínculo Volver a Rastrear e indexar > Rastrear URL para regresar a la página Rastrear e indexar > Rastrear URL. No rastrear las URL con los patrones siguientes # The follow ing are popular filetype extensions - uncomment th # disable craw ling them # Microsoft Word #.doc$ # Microsoft Excel #.xls$ La búsqueda por tipo de archivos de Google extrae e indexa cualquier texto puro de un documento. Los gráficos, diagramas e información de formato no se indexan. Asimismo, puede excluir un formato de archivo concreto del rastreo y la indexación definiendo excepciones de patrones de URL con el objetivo de evitar el rastreo en esas páginas. Las URL que concuerden con los patrones especificados (uno por línea) en esta ventana no se rastrearán. Esta opción permite evitar el rastreo de determinados tipos de archivos, directorios u otros grupos de páginas. Por ejemplo, si introduce el patrón contains:? en este cuadro, evitará que se rastreen muchos guiones CGI (Common Gateway Interface). Los patrones de URL que incluya aquí deben ajustarse a las normas para definir patrones de URL válidos. Para introducir un nuevo patrón de URL, escriba uno válido en la ventana. Pulse Intro para añadir patrones adicionales en líneas nuevas. Está permitido incluir líneas vacías y comentarios que empiecen por #. Para su comodidad, este cuadro se completa previamente con diversos patrones de URL y tipos de archivos que, generalmente, los usuarios desean que el rastreador ignore. No es recomendable suprimir ninguno de los patrones predeterminados a menos que descubra que partes de su sitio quedan excluidas debido a estas normas. Para excluir un patrón o un tipo de archivo del rastreo, elimine la marca # de la línea que contiene el tipo de archivo. Por ejemplo, para evitar que el rastreador tenga acceso a los archivos Excel de sus servidores, cambie la línea #.xls$ por .xls$ Probar estos patrones Para probar los patrones especificados, haga clic en uno de los vínculos Probar estos patrones. Al abrirse, la “Utilidad de prueba de patrones” se inicia con las entradas guardadas en la página Rastrear e indexar > Rastrear URL. Si desea analizar más exhaustivamente los grupos de patrones, puede introducir más URL y patrones en esta utilidad. Sin embargo, las modificaciones no se guardarán. Para ello, debe introducirlas y guardarlas en la página Rastrear e indexar > Rastrear URL. Tras hacer clic en el botón Probar estos patrones, los resultados aparecerán en la misma página. El fondo verde indica que al menos uno de los patrones concuerda con las URL que desea rastrear. También se muestra el primer patrón coincidente. Si el fondo es rojo, significa que ninguno de los patrones concuerda con esta URL. Haga clic en el vínculo Volver a Rastrear e indexar > Rastrear URL para regresar a la página Rastrear e indexar > Rastrear URL. Nota: Si el rastreo debe limitarse a su intranet, le recomendamos que aplique uno o varios de estos procedimientos. • Configure la red para inhabilitar la conectividad de Google Mini fuera de la intranet. Para asegurarse de que Google Mini no rastree en ningún caso fuera de la intranet, un miembro del grupo de TI/SI deberá bloquear explícitamente las direcciones IP de dicho dispositivo a fin de que no puedan salir de dicha red. El grupo de TI/SI debe configurar una lista de control de acceso en los routers externos o un grupo de normas en el cortafuegos a fin de inhabilitar toda comunicación entre dichas direcciones IP y el mundo exterior. • Compruebe que el nombre de dominio de todos los patrones del campo Seguir y rastrear sólo las URL con los patrones siguientes sea suempresa.es.