Qué es el scraping malicioso y qué medidas tomar para minimizar los riesgos

La información es poder y con ella viene una gran responsabilidad y disponer de información actualizada permite a las empresas contar con una mejor oferta de valor para todos sus consumidores.

El scraping es una técnica de OSINT (Open Source Intelligence) que automatiza la extracción y el análisis de grandes volúmenes de información. Este proceso permite a la empresas recopilar datos de sitios web o redes sociales —mediante herramientas, extensiones y librerías— para realizar investigaciones de mercado, identificar tendencias y analizar el posicionamiento de la marca y la competencia.

Sin embargo, los cibercriminales también se valen de estas técnicas para obtener datos sensibles y vulnerar la seguridad de las organizaciones, por lo que es necesario tomar medidas orientadas a reducir los riesgos.

Legalidad y ética del scraping

En teoría, el uso de herramientas, extensiones o librerías para scraping no es ilegal. Sin embargo, esto depende de la finalidad y el uso que se le dé a esta información. Por ejemplo, si una empresa que publica los precios de sus productos en su marketplace, es legal obtener esos datos mediante herramientas y extensiones del navegador. Pero, cuando se usa el scraping para recolectar datos personales y de propiedad intelectual, puede convertirse en una práctica maliciosa y violar leyes de privacidad.

Si la empresa accidentalmente publica esta información personal sensible, aunque sería legal obtener esos datos, al amparo de las leyes de protección de datos personales, realizar esta acción sería ilegal. Es importante tener en consideración que el hecho de que los datos o información estén disponibles al público no significa que sea legal o ético usar el scraping.

Cómo puede afectar el scraping malicioso a una empresa

El scraping malicioso puede impactar en la organización que ha publicado los datos, tanto por implicancias legales, como por los riesgos de seguridad asociados.

Las principales formas en el scraping malicioso que puede afectar a una empresa son:

Vulneración a la privacidad: Un ciberdelincuente puede recopilar datos personales sin el consentimiento del titular, sin importar que estos se encuentren públicos debido a un descuido por parte del editor.

Fraudes y estafas: La información obtenida puede ser utilizada para crear perfiles falsos, realizar fraudes financieros más efectivos haciéndolos personalizados (spear phishing) y para realizar ataques de ingeniería social.

Desempeño en los sitios donde se realiza el scraping: Al estar ingresando y consumiendo recursos del portal o red social, la generación de tráfico puede tener un impacto negativo en el desempeño, haciendo que se ralenticen o dejen de estar disponibles temporalmente.

Daño a la reputación: La obtención de datos personales puede usarse para fines malintencionados como el de perjudicar la reputación de una empresa y generar una pérdida de clientes por la desconfianza en cómo fue expuesta y recolectada esa información. Impactando en temas legales y financieros.

¿Qué pueden hacer los organismos para minimizar el scraping en sus sitios web?

Es importante contar con técnicas y mejores prácticas para minimizar el impacto de esta práctica con fines maliciosos y reducir su impacto.Para ello, existen técnicas y mejores prácticas que deben tenerse en cuenta. Entre ellas las principales son:

Bloqueo de direcciones IP: La mayoría de los proveedores de la nube permiten a sus clientes realizar un monitoreo de las direcciones IP que visitan sus sitios, con la finalidad de identificar si en un periodo de tiempo se genera una cantidad de tráfico inusual proveniente de una dirección IP en particular (tráfico generado por algunos scrapers o bots), bloqueándola completamente. Sin embargo, esto control puede superarse si los bots o scrapers tiene la posibilidad de cambiar su dirección IP a través de un proxy o VPN, aunque esto requeriría un mayor esfuerzo en su programación y es algo que en muchas ocasiones lo ciberdelincuentes no hacen.
Configuración correcta del archivo “robots.txt”: La mayoría de las páginas en Internet en su estructura contienen un archivo llamado “robots.txt” el cual les indica a los buscadores como Google o Bing a qué recursos pueden acceder de la página web, por ejemplo, controlar el acceso a los archivos de imágenes o bloquear acceso a los recursos o directorios que pueden ser de carácter privado, dando un mejor control. Para el caso de los scrapers estos pueden ser restringidos dentro de este archivo.
Filtrado de solicitudes por medio de agentes: Cuando se visita un sitio, se está solicitando ingresar una página HTML del servidor, esta solicitud o petición viene acompañada de factores de identificación como la dirección IP y el agente del usuario (user agent) el cual contiene información sobre el dispositivo y el software que se está utilizando para acceder a la página web, como el nombre de la aplicación, la versión, el sistema operativo y el idioma. De igual manera la mayoría de los proveedores de la nube, permiten filtrar a través del agente del usuario, el acceso a la información de una página web; para el caso de los scrapers estos pueden verse limitados si son identificados desde cierta IP, versión del navegador o sistema operativo.
Uso del Captcha: El CAPTCHA es un acrónimo que significa "Completely Automated Public Turing test to tell Computers and Humans Apart". Esta prueba de seguridad se utiliza para verificar que un usuario es humano y no un bot o programa automático, lo cual le impediría a un scraper obtener grandes volúmenes de información tan rápida y fácilmente.
Uso de honeypots: En el mundo de la informática una práctica comun es crear servicios falsos, como un servidor web o una base de datos, que son propensos a ser atacados. Cuando los ciberdelincuentes caen en la trampa y atacan, los honeypots recogen y analizan los datos del ataque. Los datos se utilizan para obtener información sobre los ataques y su procedencia. Esta información se utiliza para preparar a los sistemas reales ante posibles amenazas como lo son los scrapers.
Higiene digital y concientización: Al igual que existen buenos hábitos y prácticas en el mundo real, también las hay en el digital, estas permiten proteger la información personal ante las ciberamenazas, entre las que se encuentran publicar lo mínimo necesario en las páginas oficiales para que el negocio continue. Si se está consciente y se tomaron las medidas adecuadas para proteger el acceso o divulgación de información personal en los sitios web expuestos para cualquier usuario (nombres y teléfonos de empleados, así como correos o extensiones por mencionar algunos ejemplos) puede minimizarse el impacto de que un ciberdelincuente use scrapers para hacerse de esta. Por último, el concientizar a los usuarios sin importar su nivel en el organigrama, es fundamental para identificar los riesgos que existen al momento de subir y consultar información en los distintos sitios de Internet.

Conclusión

El scraping puede ser una herramienta fundamental para que las empresas mejoren su oferta de valor y beneficien a sus consumidores. Dependiendo del enfoque y la finalidad con la que se utilice, esta práctica puede clasificarse como legal o ilegal.

>Sin embargo, cuando las organizaciones no adoptan medidas de seguridad adecuadas ni aplican buenas prácticas para protegerse de agentes malintencionados, la publicación de contenido estratégico y sensible puede conducir a fraudes y estafas más sofisticadas. Esto, a su vez, genera desconfianza en los usuarios y puede resultar en pérdidas económicas significativas.