Guía rápida para eliminar el spam en Google Analytics

Google Analytics

En los últimos tiempos todos aquellos que utilicéis con asiduidad Google Analytics habréis notado que la cantidad de spam ha ido aumentando constantemente hasta llegar a distorsionar notablemente las métricas del sitio web. En este artículo explicaré los dos pasos que sigo para mantener mis cuentas de Google Analytics limpias de spam.

Referrer spam en Google Analytics

Entendemos por referrer spam el generado por aquellas sesiones artificiales cuyo único objetivo es dar visibilidad al sitio desde el cual se origina la visita. Dentro del referrer spam, podemos encontrar dos clases diferentes: ghost spam crawler spam, obligándonos a implementar una solución diferente para cada uno de ellos.

Ghost Spam

El ghost spam, traducido por referencias fantasma en algunos blogs en castellano, consiste en generar tráfico web ficticio a nuestra cuenta de Google Analytics desde dentro de una web que nada tiene que ver con la nuestra. Simplificando, se trata de scripts que se ejecutan dentro de webs de terceros generando de forma automática y masiva eventos a cuentas de Google Analytics que no son de su propiedad. Esto es muy fácil de hacer, ya que basta con modificar el identificador de la cuenta de Google Analytics por el de cualquier otra persona, consiguiendo distorsionar sus métricas si la cuenta no está protegida de este tipo de ataques.

ejemplo-ghost-spam-google-analytics

La imagen anterior la he obtenido de un reporte sin filtrar de una de las cuentas de Google Analytics de los sitios web que poseo. Los valores de la columna de la izquierda se corresponden con el nombre del host desde el cual se han generado las sesiones de Google Analytics. Evidentemente, los valores de apple.comgoogle.com no son reales, ya que esta información es muy fácil de manipular y en ocasiones los spammers utilizan nombres de hosts que inspiran confianza con el objetivo de confundir al usuario y no hacerle desconfiar.

Para evitar recibir este tipo de tráfico, basta con crear un filtro para el nombre del host. En este caso es muy sencillo, ya que dicho filtro lo único que tendrá que hacer es incluir en Google Analytics solo aquellas sesiones que se hayan generado dentro de nuestro (o nuestros) dominio.

Antes de crear un filtro, es importante que creéis una nueva vista si no lo habéis hecho ya. Siempre conviene tener al menos una vista sin ningún tipo de filtro, de modo que siempre podamos acceder a toda la información en caso de necesitarla (por ejemplo si hemos hecho mal un filtro y nos ha eliminado tráfico que debería estar presente). Podéis encontrar más información sobre crear vistas en la documentación de Google Analytics.

Para crear el filtro vamos a Administrador > Todos los filtros > Agregar Filtro, proporcionamos un nombre, establecemos el tipo de filtro en personalizado, escogemos la opción incluir con campo del filtro Nombre del host y en patrón del filtro, un patrón que valide nuestro o nuestros hosts con formato REGEX, en el caso del ejemplo que puse anteriormente, en mi caso no hay más que un dominio, así que el patrón sería simplemente futbolvalladolid\.es. Si tenéis varios dominios o subdominios que hagan uso de la misma cuenta de Google Analytics, o bien habéis incluido el código de seguimiento de Google Analytics en webs de terceros por cualquier razón, en este patrón debéis añadir todas las opciones, separadas por el carácter «|». Por último, seleccionamos la vista o vistas a las que queramos aplicar el filtro y guardamos.

Crawler Spam

El Crawler Spam suele ser indetectable a partir del nombre del host, y la única solución para eliminarlo es recurrir a la fuente de la campaña. Las fuentes nos permiten detectar en nuestros informes desde qué sitios nos llega el tráfico a nuestra web, el problema es que algunos spammers generan tráfico artificial colocando como fuente de campaña el sitio web que les interese. ¿Su objetivo? Centenares de miles de cuentas de Analytics tendrán en sus reportes su dirección web, y muchos de ellos por curiosidad accederan a esas web, proporcionando visitas gratis a estos spammers.

ejemplo-crawler-spam-google-analytics

En la imagen anterior podéis ver un informe de las fuentes de campaña del mismo sitio web anterior. De entre las 10 fuentes de campaña que más tráfico han generado al sitio web, encontramos 6 válidas y 4 correspondientes a spam. Las válidas son t.co (twitter), deportecabezon.com, atleticodelaguna.blogspot.com.es, futsalia.es, m.facebook.com y facebook.com. Las 4 fuentes que se corresponden a crawler spam, que seguro que también han aparecido en vuestros informes, son floating-share-buttons.com, get-free-social-traffic.com, free-share-buttons.com y simple-share-buttons.com.

La solución al crawler spam pasa por filtrar las visitas cuya fuente de campaña se corresponda con uno de estos sitios que generan spam. El problema, a diferencia del filtro anterior, es que no podemos hacer un filtro que sea válido para cualquier caso. Podemos filtrar las fuentes de campaña más comunes de spam, pero debemos estar pendientes de nuestros informes e ir detectando todas las nuevas que vayan apareciendo para añadirlas a dicho filtro.

Para crear el filtro accedemos a Administrador > Todos los filtros > Agregar Filtro, proporcionamos un nombre al filtro (por ejemplo Crawler Spam), seleccionamos el tipo de filtro como personalizado, de tipo excluir, con campo de filtro fuente de la campaña y por último establecemos el patrón de exclusión. El patrón que yo utilizo en el momento de escribir este artículo es el siguiente:

(best|100dollars|success)\-seo|(videos|buttons)\-for|anticrawler|musica\-gratis|semalt|forum69|7makemoney|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|video\-\-|profit\.xyz|rankings\-analytics|traffic2money.com

[Actualización: 8 de octubre de 2016] En las últimas fechas he detectado en mis webs nuevas fuentes de campaña con dominios spam. Añado un nuevo patrón para añadir del mismo modo que el anterior. Es recomendable hacerlo en un filtro separado dado que si el patrón tiene más de 255 caracteres Google Analytics no nos dejará utilizarlo. Como podéis ver, he restringido todo el tráfico de los dominios .ml (Mali), .gq (Guinea Ecuatorial), .ga (Gabón), .cf (República Centro Africana) y .top. Esto no implica necesariamente que estas extensiones de dominio siempre sean spam, pero he detectado bastantes dominios diferentes utilizándolos para crear crawler spam y me es más sencillo protegerme así, dado que no veo ninguna razón para que mis webs reciban enlaces naturales de dominios tan «exóticos».

1-99seo|socialdownloadr|Timer4web.com|.+\.ml|.+\.gq|.*\.ga|.+\.top|.+\.cf

[Actualización: 10 de junio de 2017] Preparando el lanzamiento de un nuevo proyecto personal, www.abbo.es, he detectado otros nuevos dominios que estaban generando crawler spam en mis páginas web. Os dejo nuevos filtros que utilizo:

lifehacĸer.com|blackhatworld.com|buketeg.xyz|free-fb-traffic.com|google-liar.ru|biteg.xyz|bukleteg.xyz|election.interferencer.ru|budilneg.xyz|arendovalka.xyz|bezlimitko.xyz|piulatte.cz|alfabot.xyz|begalka.xyz|advokateg.xyz|secret.ɢoogle.com|top10-way.com

.+\.compliance.+\.xyz|ecommerce\-seo.*\.org

Por último, seleccionamos las vistas sobre las cuales aplicaremos el patrón y guardamos el filtro. Si detectáis fuentes de tráfico sospechosas de ser causantes de spam, y que no sean detectadas por este patrón, basta con que las añadáis a la expresión regular anterior.

Por último, recordar que los filtros de Google Analytics no tienen carácter retroactivo, es decir, solo afectan a los datos recolectados a partir del momento en el que se ha creado el filtro, y no permiten eliminar sesiones anteriores que ya han sido registradas.

Uso de cookies

Este sitio web, como todos, utiliza cookies. Si continúas navegando por la web estás dando tu consentimiento para la aceptación de la política de cookies de este sitio web. ACEPTAR

Aviso de cookies