Il corpus “ItaIst” è un corpus parallelo che si sta sviluppando nell’ambito del progetto PRIN 2020 “VerbACxSS: su verbi analitici, complessità, verbi sintetici, e semplificazione. Per l’accessibilità” con l’obiettivo di creare una risorsa linguistica, costituita da testi istituzionali scritti in lingua italiana, che servirà a generare altre risorse linguistiche come, ad esempio, repertori di lessici istituzionali e terminologie specialistiche da sviluppare manualmente, semi-automaticamente e automaticamente secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable). Nel contributo si presentano le prime note per lo sviluppo di una risorsa linguistica, collegata al corpus “ItaIst”, costituita da documenti originali scritti in lingua italiana dello specifico dominio terminologico per la “gestione del servizio pubblico dei rifiuti urbani” relativo alle attività d’informazione e comunicazione delle amministrazioni pubbliche. I documenti sono stati raccolti secondo il modello di classificazione dei testi istituzionali “CPI” (Vellutino 2012, 2014, 2018) che distingue i testi dei linguaggi istituzionali speciali per la pubblicità legale e la trasparenza amministrativa dai testi istituzionali mediali per la comunicazione pubblica per il diritto di accesso civico, per l’informazione di pubblica utilità, per la stampa e i canali social. In questa prima fase di studio è stato elaborato e realizzato uno schema di metadatazione con dati amministrativi e strutturali sui tipi di testo istituzionali. Questo schema rappresenta un primo livello di annotazione utile per repertoriare i testi istituzionali per monitorare le specifiche caratteristiche linguistiche e comunicative caratterizzanti le differenti testualità dei linguaggi istituzionali speciali e mediali. Pertanto, la risorsa linguistica creata, corpus “ItaIst-GRU -DdAC”, sarà utilizzata per rilevare informazioni linguistiche per le seguenti finalità: estrarre la terminologia di dominio per creare risorse linguistiche quali lessici istituzionali e schede terminologiche; rilevare la distribuzione dei termini nei diversi tipi di testi istituzionali speciali e mediali; rilevare ed estrarre le frasi complesse da semplificare per creare una risorsa linguistica costituita da coppie di frasi complesse-semplici utile per addestrare e testare un modello di machine learning; rilevare le modalità di sintetizzazione dipendenti dai processi di semplificazione.
CORPUS «ITAIST»: NOTE PER LO SVILUPPO DI UNA RISORSA LINGUISTICA PER LO STUDIO DELL’ITALIANO ISTITUZIONALE PER IL DIRITTO DI ACCESSO CIVICO
Vellutino, Daniela;Cirillo, Nicola
2024-01-01
Abstract
Il corpus “ItaIst” è un corpus parallelo che si sta sviluppando nell’ambito del progetto PRIN 2020 “VerbACxSS: su verbi analitici, complessità, verbi sintetici, e semplificazione. Per l’accessibilità” con l’obiettivo di creare una risorsa linguistica, costituita da testi istituzionali scritti in lingua italiana, che servirà a generare altre risorse linguistiche come, ad esempio, repertori di lessici istituzionali e terminologie specialistiche da sviluppare manualmente, semi-automaticamente e automaticamente secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable). Nel contributo si presentano le prime note per lo sviluppo di una risorsa linguistica, collegata al corpus “ItaIst”, costituita da documenti originali scritti in lingua italiana dello specifico dominio terminologico per la “gestione del servizio pubblico dei rifiuti urbani” relativo alle attività d’informazione e comunicazione delle amministrazioni pubbliche. I documenti sono stati raccolti secondo il modello di classificazione dei testi istituzionali “CPI” (Vellutino 2012, 2014, 2018) che distingue i testi dei linguaggi istituzionali speciali per la pubblicità legale e la trasparenza amministrativa dai testi istituzionali mediali per la comunicazione pubblica per il diritto di accesso civico, per l’informazione di pubblica utilità, per la stampa e i canali social. In questa prima fase di studio è stato elaborato e realizzato uno schema di metadatazione con dati amministrativi e strutturali sui tipi di testo istituzionali. Questo schema rappresenta un primo livello di annotazione utile per repertoriare i testi istituzionali per monitorare le specifiche caratteristiche linguistiche e comunicative caratterizzanti le differenti testualità dei linguaggi istituzionali speciali e mediali. Pertanto, la risorsa linguistica creata, corpus “ItaIst-GRU -DdAC”, sarà utilizzata per rilevare informazioni linguistiche per le seguenti finalità: estrarre la terminologia di dominio per creare risorse linguistiche quali lessici istituzionali e schede terminologiche; rilevare la distribuzione dei termini nei diversi tipi di testi istituzionali speciali e mediali; rilevare ed estrarre le frasi complesse da semplificare per creare una risorsa linguistica costituita da coppie di frasi complesse-semplici utile per addestrare e testare un modello di machine learning; rilevare le modalità di sintetizzazione dipendenti dai processi di semplificazione.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.