I contenuti online, pur restando nostri, rischiano di trasformarsi in una traccia permanente dentro un archivio digitale universale, accessibile a chiunque - inclusi gli algoritmi di intelligenza artificiale. Non è un’ipotesi futuristica: da pochi giorni si è diffusa la notizia che Reddit avrebbe intrapreso un’azione legale contro Perplexity AI, accusandola di aver sfruttato impropriamente il materiale pubblicato dagli utenti.
E qui emergono le prime domande spontanee, quelle che fanno tremare la tastiera: “Perché Reddit ha deciso di fare causa a Perplexity?” e “I miei commenti, le mie parole, possono davvero finire dentro un modello di intelligenza artificiale?”.
Secondo Reddit, la startup avrebbe utilizzato miliardi di contenuti generati dagli utenti per alimentare i propri sistemi di IA. Una delle più grandi community digitali al mondo pone così l’accento su un tema cruciale: la tutela della creazione umana di fronte all’estrazione massiva e non autorizzata dei contenuti.
Ma cos’è davvero il data scraping? E quando - se mai - può dirsi legittimo? Chi difende, oggi, le comunità che generano liberamente contenuti in rete?
Reddit avrebbe messo all’angolo Perplexity per l’uso dei contenuti creati dagli utenti e impiegati - secondo l’accusa - per addestrare l’intelligenza artificiale. Mentre i due colossi si affrontano nel tribunale federale di New York, cresce tra gli utenti la percezione che gran parte delle piattaforme online non garantisca più una reale protezione dei dati condivisi. Stando ai documenti presentati, ci sarebbero anche riferimenti a fughe di dati non autorizzate.
Come ricostruito da ItaliaOggi e da Reuters, la denuncia depositata da Reddit riguarderebbe un presunto accesso non autorizzato a miliardi di discussioni. Secondo la piattaforma, Perplexity avrebbe reperito enormi quantità di dati aggirando i sistemi di protezione - come i file robots.txt e i blocchi anti-scraping - con l’obiettivo di raccogliere materiale utile ai propri modelli di IA.
L’azione legale, avviata presso il tribunale federale di New York, coinvolgerebbe anche tre società specializzate nella raccolta automatica di dati: Oxylabs, AWM Proxy e SerpApi, che secondo Reddit avrebbero operato per conto di Perplexity.
Reuters riporta che Reddit accusa la startup di aver implementato un sistema di “industrial-scale scraping”, ovvero un’estrazione massiva dei contenuti - in parte ottenuti anche tramite ricerche su Google - per alimentare un motore di risposta basato su IA.
Se quanto sostenuto da Reddit fosse confermato, la condotta violerebbe i termini di servizio della piattaforma e potrebbe costituire una violazione del Copyright Act statunitense.
Il nodo centrale della controversia è complesso e affascinante: capire se i contenuti generati dagli utenti - i cosiddetti user-generated content (UGC) - possano essere trattati come “dati liberi” da usare per l’addestramento dei modelli di intelligenza artificiale.
Il Copyright Act tutela le opere dell’ingegno, ma la normativa americana non ha ancora delineato i limiti dell’uso “trasformativo” dei contenuti da parte delle AI. Una zona grigia che oggi inquieta milioni di utenti.
C’è chi teme che le proprie parole, i propri post, possano essere stati “utilizzati” come materiale grezzo per sistemi che generano risposte automatiche e prodotti commerciali.
Nel proprio atto legale, Reddit sostiene che lo scraping di Perplexity rappresenti un uso commerciale non autorizzato e dunque illecito.
Un’inchiesta di Business Insider ha evidenziato come Reddit abbia già stipulato accordi di licenza con Google e OpenAI, che pagano per accedere ai suoi dati. È questo il punto strategico della causa: se alcune società acquistano regolarmente licenze, chi estrae dati senza consenso potrebbe incorrere in concorrenza sleale o ingiusto arricchimento.
Eppure, ciò che sembra un colpo ben assestato potrebbe non sortire l’effetto sperato. Come riportato da StartupItalia, Perplexity ha respinto ogni accusa, sostenendo di non addestrare veri e propri foundation models, ma di limitarsi a riassumere informazioni pubbliche per offrire risposte sintetiche e immediate agli utenti.
Nel mercato unico digitale europeo, il diritto d’autore è regolato dalla Direttiva UE 2019/790, che disciplina anche le pratiche di text and data mining.
Se la linea americana dovesse consolidarsi, è plausibile che anche l’Unione Europea rafforzi ulteriormente le proprie norme sull’uso dei contenuti online per l’addestramento delle AI, imponendo maggiore trasparenza e limiti chiari.
La causa Reddit-Perplexity è più di uno scontro legale: è una cartina di tornasole per capire chi, nel mondo iperconnesso di oggi, controlla davvero la conoscenza digitale.
E forse, dietro le righe di codice e i dataset, riaffiora una domanda semplice ma fondamentale: chi possiede le parole che scriviamo?