Nell’ambito del progetto Mappa dell’Intolleranza, questa edizione si concentra sulla diffusione degli stereotipi online e sul loro possibile ruolo nel rafforzare un clima di intolleranza, anche in assenza di un hate speech esplicito. L’obiettivo è quello di verificare se e come le rappresentazioni semplificate – che possono apparire come scorciatoie cognitive – contribuiscano indirettamente a consolidare pregiudizi e discriminazioni.
Fasi della Metodologia
1. Raccolta e pre-elaborazione dei Dati
Fonti e periodo di analisi
I dati testuali sono stati estratti da Twitter, coprendo il periodo dal 1 gennaio al 30 novembre 2024.
Categorie di interesse
Sono state analizzate sei categorie di pregiudizio: misoginia, antisemitismo, disabilità, omofobia/transfobia, islamofobia e xenofobia.
Pre-elaborazione
L’intero corpus, composto da 195.194 stringhe (corrispondenti a commenti e post) per un totale di circa 13 milioni di lemmi, è stato processato automaticamente per isolare le espressioni stereotipate. Un sotto-corpus di circa 1 milione di lemmi, relativo ai soli “stereotipi”, è stato successivamente utilizzato per l’analisi quantitativa.
2. Analisi Computazionale e Linguistica
Strumenti e tecniche
L’analisi è stata condotta utilizzando avanzate tecniche di Natural Language Processing (NLP) e la piattaforma Sketch Engine, che ha permesso di esaminare le collocazioni – ovvero le combinazioni di parole che si verificano frequentemente insieme.
Identificazione dei lemmi chiave
Per ciascuna categoria sono stati selezionati termini rappresentativi.
Ad esempio:
- Donna: 7.744 occorrenze
- Sionista: 5.027 occorrenze
- Musulmano: 842 occorrenze
- Negro: 418 occorrenze
- Gay: 103 occorrenze
- Disabile: 103 occorrenze
Obiettivo dell’analisi
La ricerca mirava a determinare come questi termini, attraverso espressioni idiomatiche e collocazioni, contribuiscano alla formazione e al consolidamento di stereotipi, distinguendo tra usi diretti e impliciti.
3. Analisi Qualitativa e Intersezionalità
Annotazione manuale
Un campione di 15.762 commenti è stato analizzato manualmente per differenziare il linguaggio d’odio diretto da quello stereotipato. Particolare attenzione è stata riservata ai casi in cui si intersecano più forme di discriminazione, ad esempio l’associazione tra misoginia e altre categorie pregiudizievoli.
Sfide metodologiche
La decontestualizzazione dei singoli messaggi (priva del thread originale) e l’uso frequente di sarcasmo e ironia hanno complicato la classificazione, rendendo necessaria una metodologia “human-in-the-loop” che integri il giudizio umano nell’analisi automatica.
4. Classificazione e Visualizzazione dei Risultati
Processo di classificazione
I dati sono stati etichettati automaticamente in tre categorie principali: “hate speech”, “stereotipi” e una categoria mista.
Utilizzando in-context learning e il prompt tuning con l’assistenza di Large Language Models (GPT-4o mini), i dati sono stati classificati in quattro categorie principali: “hate speech”, “stereotipi” e una categoria mista (hate speech e stereotipo) e normale. Inoltre, abbiamo chiesto al LLM di fornire la categoria target, le parole chiave nelle menzioni e una spiegazione che descriva il contesto di ciascun tweet e il motivo dell’assegnazione di una specifica etichetta.
Visualizzazione grafica
I risultati sono stati rappresentati mediante grafici e word cloud, che illustrano sia la frequenza delle occorrenze che la distribuzione temporale degli stereotipi, evidenziando cluster tematici e picchi legati a eventi specifici.
Utilizzando lo strumento Power BI, abbiamo sviluppato un dashboard interattivo per analizzare diversi aspetti dei tweet, come gli hashtag di tendenza, la distribuzione delle geolocalizzazioni basate su discorso d’odio e stereotipi, la significatività statistica delle associazioni rilevate, le specifiche degli autori e le tendenze nel tempo. Inoltre, abbiamo incluso l’analisi basata su LLM, tra cui una nuvola di parole delle parole chiave rilevate dall’LLM, il conteggio dei tweet per etichetta e categoria.
Risultati
L’analisi delle collocazioni ha evidenziato che i termini chiave appaiono in espressioni idiomatiche che, pur non essendo sempre espliciti, contribuiscono a rafforzare stereotipi di genere, etnici e culturali.
Ad esempio, il termine “sionista” è risultato particolarmente frequente, suggerendo una sua trasformazione in etichetta con potenzialità discriminatoria, in particolare in seguito a discussioni legate al conflitto israelo-palestinese.
Analogamente, termini come “donna” e “musulmano” si presentano in contesti che richiamano stereotipi tradizionali, mentre “gay” e “disabile” appaiono in associazioni che, pur non incitando direttamente alla violenza, perpetuano pregiudizi e visioni riduttive.
L’analisi qualitativa ha ulteriormente sottolineato come la ripetizione e l’uso ironico di determinati stereotipi possano, involontariamente, rafforzare le discriminazioni.
Conclusioni e Implicazioni Sociali
I risultati confermano che i social media costituiscono un terreno fertile per la diffusione di stereotipi, i quali, pur non manifestandosi sempre con un linguaggio apertamente violento, contribuiscono alla formazione di visioni distorte e pregiudizievoli.
L’approccio interdisciplinare, che integra diritto, linguistica e informatica, ha permesso di ottenere risultati promettenti ma ha anche evidenziato alcune limitazioni, in particolare la difficoltà di contestualizzare i messaggi decontestualizzati e la complessità derivante dall’uso di ironia e sarcasmo.
Le prospettive future indicano la necessità di perfezionare il metodo integrando ulteriormente l’analisi automatica con annotazioni manuali, anche attraverso il recupero dei thread originali per una comprensione più completa del contesto conversazionale.
Questi spunti rappresentano fondamentali indicazioni per progettare interventi mirati nella lotta contro l’intolleranza, contribuendo alla definizione di strategie di contrasto basate su evidenze quantitative e qualitative.
Marta Annamaria Tamborini
Fatemeh Mohammadi
Paolo Ceravolo
Dipartimento di Informatica Giovanni degli Antoni – Università degli Studi di Milano