Las expresiones regulares (también conocidas como REGEX o REGEXP) le ayudan a encontrar URLs o texto que coincidan con un patrón en particular.
💡REGEX está soportado en Site Explorer, Site Audit y ciertos puntos finales en nuestra API:
Aprende más sobre todos los lugares que puedes usarlos.
Cómo funciona REGEX
Pasemos de los ejemplos más sencillos a los más avanzados.
La siguiente configuración incluye todas las URLs que contienen la palabra “blog” y excluyen las URLs que contienen la palabra “producto”.
Esto instruye a nuestro bot a rastrear:
https://ahrefs.com/blog
https://ahrefs.com/blog/seo-techniques/
https://ahrefs.com/academy/blogging-for-busines
Y para ignorar:
https://ahrefs.com/blog/category/product-blog/
https://ahrefs.com/blog/ecommerce-out-of-stock-products/
Ha sido fácil, ¿verdad?
Pero, ¿qué pasa si quieres incluir las URLs de /blog/ subcarpeta específicamente, pero no https://ahrefs.com/academy/blogging-for-business
?
Puedes usar un patrón un poco más avanzado:
Probablemente te preguntes cuáles son esos símbolos antes y después del “blog”.
En la regex, tienes que “escapar” algunos símbolos para que no sean reconocidos como caracteres especiales. Para hacer eso, usa la barra inversa \
antes del personaje.
Un punto simple .
en la regex, por ejemplo, significa cualquier carácter. Pero \.
funciona como un símbolo de parada completa. Por eso escapé el carácter de barra en el ejemplo anterior así: \/
Cómo Ahrefs maneja múltiples expresiones REGEX
Por favor, ten en cuenta que puedes aplicar múltiples patrones para incluir o excluir URLs en la configuración de rasguños en el Sitio Web. Si no se encuentran coincidencias para una de las reglas, la regla se omitirá.
Las reglas anteriores instruirán a nuestro rastreador a rastrear las URLs que contienen las palabras:
“blog” o “producto”
AND no contiene las palabras:
“bloging” o “productivo”.
Para múltiples reglas de reescritura de URL, cada nueva regla se ejecuta secuencialmente al resultado de la reescritura anterior.
Algunos útiles tokens de Regex
^
- este símbolo indica el inicio de la URL
$
- este símbolo indica el final de la URL
.
- el punto decimal coincide con cualquier carácter individual
*
- coincide con la expresión anterior 0 o más veces
+
- coincide con 1 o más de la anterior
?
- Partidas 0 o 1 del anterior
|
- es equivalente a OR.
[__]
- es similar a |, pero puede utilizarse para definir rangos
(__)
- paréntesis agrupan la expresión regular entre ellos
\d
- coincide con un dígito
\D
- coincide con un no-dígito
\w
- coincide con un carácter de palabra
\W
- coincide con un carácter que no sea palabra
Diferentes herramientas y plataformas pueden estar usando diferentes librerías regex. Nuestra auditoría de sitio está usando RE2. Puedes encontrar su sintaxis completa aquí.
Algunos ejemplos prácticos
1. Https URLs en /wp-content/ subcarpeta
^https:.*\/wp-content\/
^
indica el inicio de la URL. Esta regla coincidirá con todas las URLs que comienzan con "https:" seguidas por 0 a cualquier número de caracteres .*
antes de "/wp-content/".
URLs que coinciden con el patrón:
-https://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png
Las URLs no coinciden con el patrón:
-http://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png
2. URLs en una subcarpeta, incluyendo la propia URL del directorio.
\/blog(\/.*)?$
Esta regla coincidirá con todas las URLs que terminen $
con "/blog", opcionalmente seguido por la barra y 0 a cualquier número de caracteres (\/. )?
. El signo de interrogación en este patrón coincide con la expresión entre corchetes entre cero y una vez, haciéndolo opcional.
URLs que coinciden con el patrón:
-https://ahrefs.com/blog
https://ahrefs.com/blog/301-redirects/
Las URLs no coinciden con el patrón:
-https://ahrefs.com/blogging
https://ahrefs.com/academy/bloging-for-business
3. URLs que contienen símbolos @ o %
@|%
o [@%]
|
y [__]
trabajan como O
URLs coincidencia con el patrón:
https://ahrefs.com/@timsoulo
https://ahrefs.com/%D1%81%D0%B5%D0%BE
Las URLs no coinciden con el patrón:
-https://ahrefs.com/blog/nofollow-links
4. URL de “Añadir al carrito” en Woocommerce
\?añadir-carrito=
Ten en cuenta que ?
es un símbolo especial en la regex. Para usarlo como un simple signo de interrogación, no olvides escaparlo así: \?
URLs que coinciden con el patrón:
https://yourdomain.com/?add-to-cart=25
Las URLs no coinciden con el patrón:
https://yourdomain.com/smartphones
5. URLs que contienen un año (4 dígitos)
[0-9]{4}
o \d{4}
[0-9]{4}
coincidirá con todas las URLs que contienen cuatro {4}
dígitos [0-9]
seguidos
\d{4}
hace lo mismo que \d
significa un dígito
URLs que coinciden con el patrón:
https://yourdomain.com/best-smartphones-2019
Las URLs no coinciden con el patrón:
https://yourdomain.com/smartphones
6. Todas las URLs del subdominio (tanto http como https)
^https?:\/\/help.ahrefs.com
Esta regla coincidirá con todas las URL que comienzan con "http://help.ahrefs.com" o "https://help.ahrefs.com".
¿El signo de interrogación aquí ?
indica que “s” es opcional, así que tanto http como https coincidirán con esta regla.
URLs que coinciden con el patrón:
https://help.ahrefs.com
http://help.ahrefs.com/
http://help.ahrefs.com/site-audit
Las URLs no coinciden con el patrón:
-https://ahrefs.com/site-audit
ftp://help.ahrefs.com
7. Varias URLs de archivos
\.(jpg|gif|bmp|png|css|pdf)$
Esta regla coincidirá con todas las URL que terminen $
con . pg O .gif O . mp O .png O .css O .pdf.
Puede reducir esta expresión para apuntar a un número menor de extensiones. Por ejemplo, solo para URLs que terminan $
con .jpg O .png solamente:
.*\.(jpg|png)$
Paréntesis (__)
agrupar la expresión regular entre ellos y |
significa OR
URLs que coinciden con el patrón:
-https://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png
http://ahrefs.com/blog/wp-content/uploads/2019/03/fb-ranking-1-image-1.png
Las URLs no coinciden con el patrón:
-https://ahrefs.com/site-audit
8. Utilizando reglas de reescritura de URL para rascar un sitio web en la auditoría de sitio
Puede utilizar las reglas de reescritura de URL en la configuración de Auditoría del Sitio para reemplazar algunas partes de las URLs con otro valor.
Ejemplo. Cuando su sitio web de Staging está basado en un subdominio, por ejemplo, staging.ahrefs.com
Esta regla reemplazará "ahrefs.com" en cada URL con "staging.ahrefs.com"
9. Usando reglas de reescritura de URL con grupos de captura numerados
Con la captura de grupos, puede reemplazar varias partes de la URL por una regla.
Patrón a coincidir:
www\.ahrefs\.com([^\?|#]*)?([#]?[^\?]*)\?(.*)
Reemplazar con:
www.ahrefs.com\1?parameter1=5273&\2?parameter2=7465&\3
([^\?|#]*)
es el primer grupo de captura
([#]?[^\?]*)
es el segundo grupo de captura
(.*)
es el tercer grupo de captura
\1?parameter1=5273&\2\3
reemplaza el valor del primer grupo de captura con "?parameter1=5273
"
\2?parameter2=7465&
reemplaza el valor para el segundo grupo de captura con "?parameter2=7465&
"
\3
inserta el valor que coincide con el tercer grupo de captura
6. Filtro para texto de más de 50 caracteres
^[\s\S]{50,}$
Recursos adicionales
Espero que este artículo le ayudó a aprender algunos trucos frescos que puede hacer con Expresiones Regulares.
Puede probar su Regex en este sitio web: https://regex101.com/. Ten en cuenta que debes seleccionar “Golang” del menú de la izquierda.