L’identificazione di razzismo e xenofobia in contenuti testuali online costituisce oggi una delle sfide socio-computazionali più complesse, data la crescente sofisticazione delle strategie linguistiche attraverso cui tali atteggiamenti ostili si articolano. A differenza dei discorsi di odio espliciti e immediatamente riconoscibili, le forme contemporanee di ostilità si diffondono attraverso un linguaggio ibrido, allusivo e strategicamente mimetizzato, che sfrutta narrazioni implicite e un lessico in continua trasformazione (Agudelo e Olbrych, 2022; Rubio-Carbonero, 2020). In questo scenario, gli approcci puramente lessicali basati su liste statiche di termini, sebbene rappresentino un punto di partenza essenziale, mostrano i propri limiti. Risorse consolidate come HurtLex (Basile, 2019) e la sua revisione recente (Tontodimamma et al., 2023) necessitano di aggiornamenti ed integrazioni per adeguarsi alla polisemia, all’evoluzione diacronica dei lemmi e, soprattutto, alle complesse relazioni semantiche che strutturano le narrative ostili, spesso riconducibili al cosiddetto ambient racism (razzismo diffuso), inteso come forma di ostilità pervasiva e normalizzata nel discorso quotidiano (Sharma, 2018). Alla luce di tali criticità, Cucco et al. (2025) propongono un percorso metodologico che integra risorse complementari, quali un dizionario tematico e un’ontologia di dominio, trasformandole in un ecosistema analitico coerente, capace di ampliare il repertorio lessicale, contestualizzarlo empiricamente e formalizzarlo entro una struttura concettuale esplicita. L’ articolazione del presente contributo segue una progressione metodologica che muove dal livello strettamente lessicale fino alla formalizzazione concettuale e all’applicazione computazionale. Il punto di partenza è rappresentato dalle metodologie per la costruzione di risorse lessicali finalizzate all ’identificazione del discorso d’odio, con particolare attenzione alle risorse disponibili per la lingua italiana. Si procede quindi con la revisione sistematica di HurtLex, una risorsa lessicale italiana, evidenziandone i criteri di espansione, categorizzazione e graduazione dell’offensività, per poi presentare un’estensione data-driven del lessico, orientata all’individuazione di contenuti razzisti e xenofobi attraverso un approccio probabilistico basato su topic models. Il percorso prosegue introducendo l’ontologia di dominio come strumento per strutturare le relazioni semantiche e narrative che organizzano il discorso ostile, mostrando il passaggio dalla semplice lista di termini a un modello concettuale esplicito. Infine, vengono illustrate le potenzialità applicative di tali risorse nell’identificazione computazionale del linguaggio razzista tramite NooJ, evidenziando come l’integrazione tra dizionario e ontologia possa supportare strategie di riconoscimento più robuste e interpretabili.
Strumenti lessicali per la decostruzione dell’odio. Dizionari tematici e ontologie di dominio nell’analisi del razzismo e della xenofobia online
Lara Fontanella
;Mario Monteleone
2026
Abstract
L’identificazione di razzismo e xenofobia in contenuti testuali online costituisce oggi una delle sfide socio-computazionali più complesse, data la crescente sofisticazione delle strategie linguistiche attraverso cui tali atteggiamenti ostili si articolano. A differenza dei discorsi di odio espliciti e immediatamente riconoscibili, le forme contemporanee di ostilità si diffondono attraverso un linguaggio ibrido, allusivo e strategicamente mimetizzato, che sfrutta narrazioni implicite e un lessico in continua trasformazione (Agudelo e Olbrych, 2022; Rubio-Carbonero, 2020). In questo scenario, gli approcci puramente lessicali basati su liste statiche di termini, sebbene rappresentino un punto di partenza essenziale, mostrano i propri limiti. Risorse consolidate come HurtLex (Basile, 2019) e la sua revisione recente (Tontodimamma et al., 2023) necessitano di aggiornamenti ed integrazioni per adeguarsi alla polisemia, all’evoluzione diacronica dei lemmi e, soprattutto, alle complesse relazioni semantiche che strutturano le narrative ostili, spesso riconducibili al cosiddetto ambient racism (razzismo diffuso), inteso come forma di ostilità pervasiva e normalizzata nel discorso quotidiano (Sharma, 2018). Alla luce di tali criticità, Cucco et al. (2025) propongono un percorso metodologico che integra risorse complementari, quali un dizionario tematico e un’ontologia di dominio, trasformandole in un ecosistema analitico coerente, capace di ampliare il repertorio lessicale, contestualizzarlo empiricamente e formalizzarlo entro una struttura concettuale esplicita. L’ articolazione del presente contributo segue una progressione metodologica che muove dal livello strettamente lessicale fino alla formalizzazione concettuale e all’applicazione computazionale. Il punto di partenza è rappresentato dalle metodologie per la costruzione di risorse lessicali finalizzate all ’identificazione del discorso d’odio, con particolare attenzione alle risorse disponibili per la lingua italiana. Si procede quindi con la revisione sistematica di HurtLex, una risorsa lessicale italiana, evidenziandone i criteri di espansione, categorizzazione e graduazione dell’offensività, per poi presentare un’estensione data-driven del lessico, orientata all’individuazione di contenuti razzisti e xenofobi attraverso un approccio probabilistico basato su topic models. Il percorso prosegue introducendo l’ontologia di dominio come strumento per strutturare le relazioni semantiche e narrative che organizzano il discorso ostile, mostrando il passaggio dalla semplice lista di termini a un modello concettuale esplicito. Infine, vengono illustrate le potenzialità applicative di tali risorse nell’identificazione computazionale del linguaggio razzista tramite NooJ, evidenziando come l’integrazione tra dizionario e ontologia possa supportare strategie di riconoscimento più robuste e interpretabili.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


