La metaetiqueta robots y el archivo robots.txt

0 108 Menos de un minuto

Los robots debe colocarse en todas las páginas y tiene el propósito de brindar información a la araña para indicar qué páginas indexar y cuáles deben omitirse.

Aquí está su sintaxis:

le dice a la araña que archive la página en la base de datos ÍNDICE
NOINDEX le dice a la araña que no almacene la página en la base de datos
SEGUIR dile a la araña que siga los enlaces de la página
NO SEGUIR dile a la araña que no siga los enlaces de la página

Metaetiquetas

La etiqueta robots debe insertarse en el contenido de la cabeza, entre las etiquetas y de la página como en este ejemplo:

<html>
<head>
<title>Il titolo della pagina</title>
<meta name="keywords" content="parola1,parola2,parola3,parola4">
<meta name="description" content="Breve descrizione della pagina.">
<meta name="robots" content="index,follow">
</head>
<body>
Il contenuto della tua pagina web

</body>

Google agrega el contenido de las páginas indexadas a su base de datos mientras navega por las páginas. El contenido guardado se llama versión Cache, y se puede ver haciendo clic en el enlace Contenido Cache. Si no desea que el contenido se guarde en la base de datos de Google, use esta etiqueta:

Esto no impedirá que Google indexe su página, solo evita guardar contenido que puede resultarle inapropiado presentar en versiones desactualizadas. Si no desea indexar la página, deberá utilizar la etiqueta «noindex».

Otra alternativa al procedimiento anterior es comunicarse de manera específica con Google Spider u otro agente. Esto permitirá que los otros motores almacenen los datos, pero no Google.

Robots.txt

El archivo robots.txt Debe insertarse en la raíz del sitio y está compuesto por:

Agente de usuario: Rechazar:

En el campo User-agent tienes que poner el nombre de la araña. Con el símbolo * te refieres a todas las arañas.

En el campo Disallow: dirás lo que no quieres que la araña se retire. Por ejemplo, dígale a Google que no obtenga el archivo informarea.htm.

Usuario-agente: googlebot
No permitir: /informarea.htm

Ejemplo de registro:

Usuario-agente: googlebot

El registro antes mencionado le dice a Google («googlebot» es el nombre de la araña de Google) que no está permitido descargar el archivo text.html o acceder al directorio «poems» y su contenido, incluidos los subdirectorios. Observe cómo el nombre del archivo está precedido por un carácter «/» (que indica el directorio raíz del sitio) y cómo el nombre del directorio también usa un carácter «/» al final.

El campo Agente de usuario puede contener un asterisco «*», Sinónimo de «cualquier araña». Entonces, el siguiente ejemplo le dice a todas las arañas que no busquen el archivo temporal.html:

Agente de usuario: *

El campo Rechazar puede contener un carácter «/» para indicar «cualquier archivo y directorio». El siguiente ejemplo evita que un scooter (la araña de Altavista) recoja algo:

Agente de usuario: scooter

Por último, el campo No permitir se puede dejar en blanco, lo que indica que no hay archivos o directorios que desee evitar que se recojan. El siguiente ejemplo muestra cómo decirle a todos los motores de búsqueda que busquen todos los archivos del sitio:

Agente de usuario: *

Ejemplo de un archivo robots.txt

El archivo robots.txt se compone de uno o más registros, cada uno de los cuales examina diferentes arañas. Así que aquí hay un ejemplo completo de archivo robots.txt, que bloquea completamente Altavista, previene Google acceder a algunos archivos y directorios y dejar libre acceso a todos los demás motores de búsqueda.

Agente de usuario: scooter

Usuario-agente: googlebot

Agente de usuario: *

Aquí está la lista de algunas arañas.

Motor de búsqueda de araña

La metaetiqueta robots y el archivo robots.txt

Ejemplo de un archivo robots.txt

Aquí está la lista de algunas arañas.

Deja una respuesta Cancelar la respuesta

Giorgio Chinaglia, el Long John del fútbol

Cómo ver Netflix gratis para siempre

Estúpidos trucos terminales: el loro de baile de ASCII Party

Yara Gambirasio: las etapas de la amarilla hasta la captura del presunto culpable

Efecto Instagram pelado

Cómo comprobar qué versión de PostgreSQL se está ejecutando desde CLI

Lista de los mejores canales de Telegram 2023

Cómo ver la televisión sin antena

Cómo eliminar Microsoft AutoUpdate de Mac

Cómo eliminar el icono de círculo con + signo en Android

Cómo descargar videos de YouTube con subtítulos

Las soluciones de todos los capítulos de Adventure Escape Mysteries

Cómo otorgar privilegios de root a un usuario en Linux

Problemas para cargar el teléfono: triángulo amarillo con signo de interrogación

Cómo instalar Eclipse IDE en Ubuntu 20.04

Cómo ver IPTV con VLC: guía completa

Ejemplo de un archivo robots.txt

Aquí está la lista de algunas arañas.

Publicaciones relacionadas

¿Cómo se puede proteger una PC de los virus?

Cómo eliminar mensajes no deseados en Facebook

Cómo eliminar archivos duplicados

Las soluciones de Amateur Surgeon 4 del nivel 61 al nivel 78

Deja una respuesta Cancelar la respuesta

Giorgio Chinaglia, el Long John del fútbol