Megapost: Todo sobre el archivo robots.txt y el SEO

978
Robots txt reglas

El archivo robots.txt aunque insignificante nos ayuda a tener una ventaja estratégica en el SEO y daré una explicación detallada acerca de como crear reglas para el archivo robots.txt

Realmente me ha costado hablar sobre este tema, porque desde hace 2 meses estoy peleando con la herramienta para Webmaster de Google Search Console y no habia obtenido decentes en lo que respecta a la correcta indexación de mi contenido, hasta el día de hoy a como lo muestro a continuación:

Indexados 125 de 127 post
Indexados 125 de 127 post

Me creerían ustedes si les dijera, que no había logrado pasar de 36 post indexados en total de los 127.

Pero, gracias a la correcta configuración del archivo robots.txt, las buenas practicas de SEO on page y seguir correctamente las directivas de Google me ayudaron a alcanzar esta meta.

Y voy a compartí el día de hoy con ustedes como logre este importante objetivo que implica tener mayor oportunidad de ser encontrado en los resultados de búsqueda de Google.

Voy a poner de ejemplo este sitio web, voy a tomar de ejemplo el archivo robots.txt de este sitio, ya que este archivo es publico y cualquiera puede ingresar a él, caso contrario algunas paginas web que lo ocultan o usan otras reglas para bloquear la información de los robots.

Paciencia, debes configurar, probar y esperar resultados!

La verdad es que no sabia que carajos era el archivo robots.txt y mucho menos para que servia, específicamente los pasos que hice para darme de alta en Internet fueron los siguiente:

  1. Comprar un dominio
  2. Comprar un hosting
  3. Instalar WordPress
  4. Elegir un tema (los primeros que elegí eran pésimos), el que ven ahora es KooL, jejeje
  5. Me di de alta en la herramienta para Webmaster de Google Search Console
  6. Y pensé que verme en los resultados “como fuera” era la forma correcta, ERROR!

He cometido muchísimos errores, pero del que más me arrepiento es no haber realizado las cosas en el orden sistemático que Internet exige desde el inicio, igualmente o me voy  lamentar y les diré que si han seguido mis pasos de alguna forma u otra que no se preocupen todo tiene solución.

Como lo dije al inicio solo deben: tener paciencia, debes configurar, probar y esperar resultados!

Si comienzas a tocar, sin esperar los resultado, quizá hayas llegado a la solución de tu problema pero los cambios realizados te llevaron nuevamente a un error, entonces lo recomendable es dejar que las herramientas vayan realizando el escrutinio de nuestro siio web poco a poco.

Que entiendo por archivo robots.txt y donde esta ubicado?

El archivo robots.txt se encarga de darle indicaciones a los “robots” acerca de qué contenido quieres que rastreen y qué contenido no.

Estos robots son programas creados para recolectar páginas en la web y a veces se les llama de otras formas, como crawlers, bots o arañas (spiders).

De ubicarse en: http://www.dominio.com/robots.txt , sin importar que tu blog o sitio web este alojado sea un dominio, subdominio o directorio, siempre debe ir en la raíz, cabe señalar que este archivo en algunas instalaciones de WordPress viene por defecto o también hay plugin que los crean por defecto, como “Seo by Yoast” o “All in one SEO Pack”.

Estudiando mi archivo robots.txt que me llevo al éxito

Mi archivo robots.txt esta ubicado en: https://construir.esnicaragua.com///robots.txt, se supone que todos los sitios web deben tenerlo para fijar sus directivas acerca del rastreo de sus paginas, en mi caso, voy a ir explicando linea por linea mi archivo robots txt para que intenten comprender como funciona:

1El sitemap

En la primera linea he ubicado el sitemap o mapa de sitio que contiene  un listado de las paginas que deseo que los robots prioricen en el rastreo del sitio, en mi caso la linea es la siguiente:

Sitemap: https://construir.esnicaragua.com///sitemap_index.xml

2Permiso al Robots de Google Adsense

Resulta que Google tiene un robot para cada objetvo de rastreo en el caso de Google Adsense, como este sitio se encuentra monetizado, necesito que este sea capaz de rastrear un clic en cualquier parte del sitio web, sin importar donde se encuentre el usuario.

Ya sea una dirección web general o genérica, por lo tanto con las siguientes lineas le doy acceso al robots de Google Adsense a todo el sitio web.

User-agent: Mediapartners-Google
Allow: /

3Permiso al Robots de Imágenes de Google

Según las nuevas directivas de Google, todo dominio deberá proveer acceso total a sus imágenes, esto te permitirá tener un mayor PageRank y prioridad en los resultados de búsqueda, si permites el acceso indexar tus resultados sera más complejo, asi que recomiendo permitirlo de la siguiente forma

User-agent: Googlebot-Image
Allow: /

4Indicaciones al especificas a Googlebot

Para indicar específicamente a un Robot que contenido permitir y que rechazar para su debido escrutinio, se realiza de la siguiente forma:

User-agent: Googlebot-Image

O bien para el resto de bots existentes en Internet, se realiza así:

User-agent: *

En nuestro caso vamos a evaluar solo lo que vamos a permitir a Google, quien es no interesa indexe nuestro contenido

5Eliminando las paginas de búsqueda de los resultado de Google

Cuando un usuario genera una búsqueda en mi sitio web se genera una pagina con un resultado y ese resultado hace un ping al robot y el robot indexa la pagina.

En mi caso la pagina que se cre si busco la palabra carro es: https://construir.esnicaragua.com///?s=carro ; para decirle al Robot que no malgaste esfuerzo indexando esa pagina que me perjudica con SPAM, entonces le digo que todo lo que comience con “?s=” no lo indexe o lo rechace.

Disallow: /*?s=

Por precaución he decidido eliminar tambien la pagina /searh/ ylo he realizado de la siguiente forma:

Disallow: /search/

6No indexar archivos PHP o INC

Soy honesto, no soy programador, pero se que estos archivos pueden comprometer la seguridad de un sitio web pueden estar en cualquier ubicación o bien ser creados por un plugin en cualquier carpeta evito su indexado en lo resultados de búsqueda con las siguientes lineas:

Disallow: /*.php$
Disallow: /*.inc$

7No indexar paginación y taxonomías de WordPress

Toda la paginación, categorías, etiquetas y hasta los comentarios pueden ser indexados por los buscadores, por lo que una simple entrada, post o publicación puede causar un caos total y generar contenido duplicado:

Original y que deseamos sea indexada: https://construir.esnicaragua.com///guia-tecnica-calcular-la-cantidad-piedra-cantera-construccion/

Puede Generar las siguientes direcciones:

https://construir.esnicaragua.com///guia-tecnica-calcular-la-cantidad-piedra-cantera-construccion/feed/

https://construir.esnicaragua.com///guia-tecnica-calcular-la-cantidad-piedra-cantera-construccion/comments/

https://construir.esnicaragua.com///guia-tecnica-calcular-la-cantidad-piedra-cantera-construccion/attachment/piedra-cantera

https://construir.esnicaragua.com///guia-tecnica-calcular-la-cantidad-piedra-cantera-construccion/category/construccion/

Entre otras y cada resultado envía al usuario a un sitio diferente del que deseamos transportarlo o diferente del contenido que el usuario desea encontrar, por lo tanto evitamos que Google indexe estas paginas con las siguientes lineas:

Disallow: /category/
Disallow: /page/
Disallow: /tag/
Disallow: /trackback/
Disallow: /comments/
Disallow: /archives/
Disallow: /author/
Disallow: */feed/
Disallow: /feed*/
Disallow: /trackback*/
Disallow: /attachment*/
Disallow: /*/attachment/

8Ahora bloqueamos las carpetas irrelevantes o personales

En mi caso, me parece no provechoso enviar a un visitante a mi política de privacidad o a un experimento que realizo en una pagina de resultados diferentes, entonces bloqueo la indexión de estas de la siguiente forma:

Disallow: /privacy-policy/
Disallow: /resultado-de-busqueda/

9Las directivas de Google y los archivos CSS y JS

Desde el 2014 google solicito a los propietarios de sitios web el acceso a los archivos de estilos *.css y los archivos JavaScript con el objetivo de encontrar codigo mal intencionado en los sitios web y otras mejorar la lectura e indexado del contenido de las paginas web.

Por lo tanto, si tienes deseos de escalar mejorar tu PageRank y visibilidad en el buscador de Google debes permitir el acceso, en mi caso por la forma como se encuentra escrito mi tema de WordPress necesite 4 reglas + 1 regla para un archivo especial que solicitaba google el ajax.php ; En resumen lo resolvi de la siguiente manera.

Allow: /*.css$
Allow: /*.js$
Allow: /*.css?ver=$
Allow: /*.js?ver=$
Allow: /*/admin-ajax.php

Logre crear las mejores reglas de archivos robots.txt

Al final, lo logre, cree el archivo que se ajustaba a mis necesidades, por eso ustedes no deben guiarse por la solución que yo obtuve o la que otra persona obtiene, casa caso es particular y debe estudiarse con paciencia.

No se dejen llevar por las soluciones de otras personas, sino hasta que obtengan sus resultados.

Espero que la información sea de utilidad para ustedes y que la puedan ajustar a sus casos en particular, espero puedan dejar sus comentarios acerca del tema, saludes.

Igualmente no dejen de visitar Mi Bitácora de Adsense donde encontraran más detalles de la evolución de este sitio web.