l'avvocato dell'ecommerce parla di web scraping e intelligenza artificiale legale web scraping norme garante privacy su ecommercelegale

Web scraping e intelligenza artificiale: le linee guida del Garante

L’estrazione di dati da altri siti web – il web scraping – è uno dei sistemi più utilizzati per l’addestramento dell’intelligenza artificiale generativa. Tuttavia, con questo sistema si raccolgono informazioni in maniera indiscriminata, compresi i dati personali degli utenti, spesso violando il Regolamento generale sulla protezione dei dati (GDPR) e la normativa privacy più in generale. Il fenomeno ha una portata enorme e mette potenzialmente a rischio i dati personali di milioni di utenti, tanto da rendere necessario un provvedimento del Garante su web scraping intelligenza artificiale.

L’intervento del Garante non ha carattere impositivo ma è solamente un provvedimento destinato ai titolari dei siti con le indicazioni operative per mettere al riparo i dati personali su internet. Nel provvedimento n. 329 del 20 maggio 2024, i titolari del trattamento di web scraping trovano le procedure per mitigare o contenere gli effetti del web scraping. Redatto in seguito all’indagine conoscitiva avviata a dicembre 2023, il documento consiglia di:

  • creazione di aree riservate, a cui accedere solo in seguito alla registrazione;
  • predisposizione di clausole anti-scraping nei Termini di servizio dei siti; 
  • monitoraggio del traffico in entrata e in uscita;
  • utilizzo di soluzioni tecnologiche di vario tipo per controllare la raccolta dati da parte di bot.

Le misure non sono obbligatorie ma vanno applicate tenendo conto dei costi di attuazione e dell’evoluzione tecnologica, secondo il principio di accountability.

In questo articolo vediamo da vicino il provvedimento del Garante e capiamo se il web scraping è legale o meno.

Cos’è il web scraping?

Sebbene il significato di web scraping non sia particolarmente conosciuto, siamo di fronte a un meccanismo in cui ci imbattiamo continuamente nelle nostre ricerche su internet: con il termine web scraping si intende l’estrazione e la raccolta di informazioni dai siti web. I siti come segugio.it e camelcamelcamel.com, le piattaforme di comparazione dei costi relative a voli e hotel e lo stesso Google sono esempi di web scraping.

Scraping è una parola inglese che vuol dire “raschiare/scalfire” con la quale si fa riferimento alla pesca a strascico. In pratica, esistono dei software che, attraverso il crawling, raccolgono informazioni di contatto, come indirizzi di posta elettronica o numeri di telefono, termini di ricerca o URL che il sito tenderebbe a non offrire naturalmente. Le informazioni estratte vengono raccolte e conservate in database o tabelle, per poi essere rielaborate. 

Come funziona il web scraping?

Il software di web scraping – in genere uno script più o meno articolato – naviga online e, proprio come un utente, accede ai dati pubblicati sui siti internet. I dati vengono filtrati, archiviati in modo sistematico e rielaborati in maniera automatizzata. Lo scraping può riguardare anche le immagini, caso in cui si parla di image scraping.

Oltre allo scraping automatizzato esiste anche lo scraping manuale, in cui i dati vengono cercati, raccolti e archiviati manualmente attraverso il copia incolla. Si tratta di un procedimento decisamente impegnativo che non viene applicato per trattare quantità di dati importanti.

A cosa serve l’estrazione di dati?

Definito anche data scraping o content scraping, il web scraping è un processo molto funzionale per le strategie di marketing e può essere applicato in ogni settore. In particolare, viene utilizzato dalle aziende e dai negozi e-commerce per le analisi di mercato e le valutazioni sul comportamento dei competitor. 

Le applicazioni più comuni sono:

  • analisi di mercato: con il web scraping si analizzano le strategie dei competitor relative a posizionamento, pricing, comunicazione. Consente di ottenere informazioni utili su clienti e contatti per attivare campagne Ads o strategie di contenuti finalizzate al posizionamento;
  • automazione aziendale: grazie agli strumenti di scraping sul web si accelerano i processi di automazione aziendale che, anziché essere fatti in maniera manuale dal personale, possono essere condotti con dei crawler o degli scraper;
  • creare liste di contatti: con lo scraping sul internet si possono generare liste di utenti da utilizzare come base per la lead generation;
  • fare price scraping: l’applicazione più nota del web scraping è il price scraping, ossia l’estrazione dei prezzi dai siti web. Si tratta di dati utilissimi nell’e-commerce poiché permettono di avere una panoramica precisa dei prezzi di mercato per settore, prodotto o brand, e attuare una propria politica dei prezzi adeguata;
  • avere informazioni aggiornate: con un tool di scraping si ottengono informazioni aggiornate in maniera costante. Questa funzione è importante per i siti di informazione e notizie, ma può essere funzionale per monitorare le novità relative al settore di appartenenza;
  • monitoraggio del marchio: estraendo i dati relativi a un determinato brand è possibile monitorare la brand reputation delle aziende o le informazioni relative al tuo marchio. Dunque, il web scraping ti aiuta a proteggere il marchio dalla contraffazione o da un uso improprio del marchio registrato.

Lo scraping è una metodologia che si muove nel delicato ambito del trattamento dei dati, per cui è fondamentale fare web scraping a norma.

Il web scraping è legale?

Come avrai capito, l’estrazione di dati può essere una soluzione estremamente vantaggiosa per le aziende ma è importante capire se il web scraping è legale o meno.

La risposta più corretta a questa domanda è “dipende” poiché, in alcuni casi, il web scraping è legale mentre in altre situazioni si parla di web scraping malevolo. A tal proposito, il Garante afferma:

Il giudizio di liceità del web scraping deve, dunque, essere effettuato caso per caso sulla base dei diversi e contrapposti diritti in gioco: in tal senso, per le finalità di questo documento, tale liceità non è e non può che essere oggetto di valutazione in termini meramente teorici”.

In linea generale, i dati pubblicati sul web, in quanto pubblici, possono essere sottoposti a scraping. Dunque, ad esempio, è consentita l’estrazione dei dati da parte degli aggregatori che confrontano prezzi e disponibilità dei prodotti.

Anche l’estrazione di dati per fini statistici è legale, soprattutto quando vengono utilizzati in forma aggregata.

Ma cos’è lo scraping malevolo?

Si parla di web scraping malevolo, invece, quando si viola il GDPR e si estraggono dati non destinati al pubblico, ossia i dati personali, o i dati coperti dal diritto d’autore e che rientrano nella proprietà intellettuale. Esempi di web scraping malevolo sono l’estrazione di dati per la duplicazione dei contenuti, per il lucro o lo spionaggio industriale.

Altro esempio di web scraping illegale riguardo l’estrazione di dati che sono pubblici perché inseriti in pubblici registri per scopi precisi: pensiamo per esempio agli indirizzi email di noi avvocati che sono resi pubblici da parte nei nostri albi di riferimento per il ruolo che svolgiamo e per le finalità a questo annesse. Questo non significa che, in quanto pubblici, possano essere utilizzati anche per finalità di marketing senza consenso.

Tra le altre pratiche illegali rientra anche l’estrazione di dati da siti web che vietano espressamente il web scraping con una clausola nei Termini d’uso e condizioni generali di vendita

Il provvedimento del Garante su web scraping e intelligenza artificiale

L’enorme diffusione dell’AI ha sollevato la questione relativa a web scraping e intelligenza artificiale. In pratica, i sistemi di intelligenza artificiale devono essere allenati per svolgere le attività a cui sono destinati e il web scraping è lo strumento utilizzato per fornire il dataset per il training delle IA. Questo sistema, tuttavia, mette a rischio i dati personali degli utenti e non tiene conto della normativa sul Diritto d’Autore. 

Per evitare che l’uso del web scraping per l’AI violi la normativa sulla privacy e il GDPR, il 30 maggio è intervenuto il Garante italiano della protezione dei dati personali con una nota informativa sull’uso del web scraping per il training dei sistemi di intelligenza artificiale generativa. 

Le linee guida del Garante sono state redatte in seguito a un’indagine conoscitiva avviata a dicembre, con la quale sono state raccolte le osservazioni degli stakeholder sulla situazione.

Il documento è indirizzato ai proprietari dei siti internet e contiene indicazioni per la tutela dei siti web dalle attività di estrazione di dati. Spetta proprio i gestori dei siti, infatti, l’obbligo di rispettare e far rispettare il Regolamento europeo sulla protezione dei dati personali:

“Grava sui gestori, pubblici e privati, di siti web e piattaforme online, stabiliti in Italia, l’onere di rispettare i principi fondamentali previsti dal Regolamento e, in particolare, di quelli di limitazione della finalità, di minimizzazione dei dati e di integrità e riservatezza”.

Nell’applicazione delle linee guida del Garante, è importante avere a mente la differenza tra web crawling e web scraping. Mentre lo scraping prevede la conservazione dei dati, nel crawling si fa solamente attività di analisi:

si parla di web scraping laddove l’attività di raccolta massiva ed indiscriminata di dati (anche personali) condotta attraverso tecniche di web crawling è combinata con un’attività consistente nella memorizzazione e conservazione dei dati”. 

Le indicazioni del Garante per tutelare i siti dal web scraping per l’intelligenza artificiale

Sostanzialmente le proposte del Garante per mettere al riparo i siti internet e i siti ecommerce dallo scraping per l’addestramento delle intelligenze artificiali sono:

  • creazione di aree riservate;
  • adeguamento dei Termini d’uso;
  • monitoraggio attivo delle richieste al sito;
  • uso del file robots.txt e dei CAPTCHA per limitare l’accesso dei bot. 

Prima di vedere nel dettaglio queste soluzioni, ti ricordiamo che le proposte del Garante non sono vincolanti, ma si tratta solo di indicazioni per i proprietari dei siti.

Creazione di aree riservate per evitare lo scraping per AI

Per evitare il web scraping, il Garante suggerisce di creare aree riservate a cui consentire l’accesso solo agli utenti registrati. In questo modo i dati non risultano pubblici e non sono esposti al web scraping per l’intelligenza artificiale.

Tuttavia, questo sistema, se da un lato riduce i rischi legati all’estrazione di dati non consentita, dall’altra limita gli accessi e potrebbe portare a richieste di dati superflui in fase di registrazione.

“Tale misura non può dar luogo ad un trattamento di dati eccessivo da parte del titolare, in violazione del principio di minimizzazione di cui all’articolo 5 del RGPD”.

Inserimento di Clausole nei Termini di Servizio con il divieto di web scraping per intelligenza artificiale

A livello legale, è possibile inserire delle clausole specifiche nei Termini e condizioni d’uso dei siti internet. In particolare, nei documenti legali va previsto il divieto di utilizzare tecniche di web scraping. 

Monitoraggio del traffico di rete

A livello tecnico si possono monitorare le richieste in entrata, limitando le tecniche di web scraping per AI. Ad esempio, quando arrivano richieste frequenti da indirizzi IP riconosciuti è possibile porre un freno agli accessi evitando lo scraping.

Intervento sui robots.txt 

Il web scraping per l’intelligenza artificiale viene portato avanti essenzialmente da bot. Ciò significa che, bloccando i bot in entrata, si può ridurre l’estrazione dei dati. Dei sistemi utili per intervenire sui bot sono la verifica dei Captcha, la modifica frequente del markup HTML, l’utilizzo di file multimediali per inserire contenuti. 

Come tutelare un sito internet dal web scraping per l’AI

Sebbene le indicazioni del Garante non siano vincolanti, bisogna comunque tenere il proprio sito internet al riparo dall’estrazione indiscriminata di dati. Il web scraping per l’addestramento dell’intelligenza artificiale, infatti, potrebbe coinvolgere i dati personali e, di conseguenza, portare a violazioni del GDPR e delle norme sulla privacy. 

E sai chi è il responsabile della tutela dei dati personali di un sito internet? 

Secondo la normativa privacy, spetta ai proprietari dei siti internet adottare tutte le misure di sicurezza previste dal GDPR:

“I gestori di siti web e di piattaforme online che rivestano al tempo stesso il ruolo di titolari del trattamento, fermi restando gli obblighi di pubblicità, accesso, riuso e di adozione delle misure di sicurezza previste dal RGPD, dovrebbero valutare, caso per caso, quando risulti necessario, in conformità alla vigente disciplina, sottrarre i dati personali che trattano ai bot di terze parti mediante l’adozione di azioni di contrasto come quelle indicate che, sebbene non esaustive né per metodo, né per risultato, possono contenere gli effetti dello scraping finalizzato all’addestramento degli algoritmi di intelligenza artificiale generativa”.

Chiaramente nessuno sminuisce i benefici che l’intelligenza artificiale apporterà alla comunità, soprattutto se ben allenata. Ma è necessario contenere gli effetti negativi di una raccolta di dati massiva e indiscriminata. Onere che compete ai titolari del sito, attraverso l’adozione di misure come le clausole nei Termini di Servizio, i captcha, l’obbligo di registrazione per l’accesso al sito, il monitoraggio degli accessi.

Per avere un sito internet a prova di web scraping, contatta Ecommerce Legale. I nostri avvocati specializzati in diritto del web si occuperanno dei Termini e condizioni del tuo sito seguendo perfettamente le indicazioni del Garante.

Contattaci ora e fissa la tua call conoscitiva gratuita! Ti spiegheremo come tutelare i tuoi interessi e avere un sito internet a norma.

Floriana Capone

L’Avvocato dell’Ecommerce

POTREBBE INTERESSARTI LEGGERE ANCHE

Menu
error: Content is protected !!