MIDIA è un corpus di testi scritti in lingua italiana, completamente annotato con indicazione del lemma e della parte del discorso cui è ricondotta ciascuna occorrenza nei testi. Il corpus, che si estende dall’inizio del XIII alla prima metà del XX secolo, ripartito in cinque periodi temporali e sette tipologie testuali, comprende circa 7,5 milioni di occorrenze tratte da circa 800 testi. La selezione del corpus e gli strumenti di ricerca permettono una facile estrazione di dati, utili in particolare per lo studio della formazione delle parole in italiano dal punto di vista diacronico, ma fruibili anche per diverse altre tipologie di indagine linguistica. MIDIA è stato realizzato grazie al progetto PRIN 2009 La storia della formazione delle parole in italiano finanziato dal MIUR nel 2011. La consultazione a fini di ricerca è libera e gratuita. La realizzazione del portale MIDIA ha richiesto l’elaborazione di procedure di lemmatizzazione e di categorizzazione morfosintattica (PoS-tagging) che fossero applicabili e adeguate a testi scritti che differiscono notevolmente fra loro sia per l’appartenenza a diverse tipologie testuali sia perché risalgono a epoche diverse. Le dimensioni del corpus hanno reso inevitabile il ricorso all’analisi automatica, ma, come è noto, i programmi disponibili per l’italiano sono stati elaborati e addestrati principalmente allo scopo di annotare testi divulgativi di prosa contemporanea. La variazione sulle dimensioni dell’asse temporale e dell’asse tipologico del corpus MIDIA si riflette in differenze notevoli nella resa grafica delle forme e nell’ordine delle sequenze di parole rispetto a quanto atteso in testi di prosa giornalistica contemporanei, oltre che nella presenza di lessemi o di varianti non di uso corrente, caduti in desuetudine o appartenenti a terminologie specialistiche. Ciò ha determinato la necessità di intervenire sul programma di PoS-tagging utilizzato, per renderlo adatto all’analisi delle varietà diacroniche e tipologiche rappresentate nel corpus, e anche di approntare strategie di controllo e di revisione dei risultati dell’etichettatura automatica in modo da limitarne la percentuale di errore. In questo contributo intendiamo innanzitutto illustrare le scelte metodologiche e gli aspetti principali del lavoro di analisi e di lemmatizzazione dei testi che fanno parte del corpus MIDIA (§ 2) e dare conto di altri interventi precedenti e posteriori all’annotazione automatica volti a migliorare l’etichettatura del corpus (§ 3).

Criteri e strategie di classificazione morfo-sintattica dei testi del corpus MIDIA

IACOBINI, CLAUDIO;SCHIRATO, GIOVANNA
2017

Abstract

MIDIA è un corpus di testi scritti in lingua italiana, completamente annotato con indicazione del lemma e della parte del discorso cui è ricondotta ciascuna occorrenza nei testi. Il corpus, che si estende dall’inizio del XIII alla prima metà del XX secolo, ripartito in cinque periodi temporali e sette tipologie testuali, comprende circa 7,5 milioni di occorrenze tratte da circa 800 testi. La selezione del corpus e gli strumenti di ricerca permettono una facile estrazione di dati, utili in particolare per lo studio della formazione delle parole in italiano dal punto di vista diacronico, ma fruibili anche per diverse altre tipologie di indagine linguistica. MIDIA è stato realizzato grazie al progetto PRIN 2009 La storia della formazione delle parole in italiano finanziato dal MIUR nel 2011. La consultazione a fini di ricerca è libera e gratuita. La realizzazione del portale MIDIA ha richiesto l’elaborazione di procedure di lemmatizzazione e di categorizzazione morfosintattica (PoS-tagging) che fossero applicabili e adeguate a testi scritti che differiscono notevolmente fra loro sia per l’appartenenza a diverse tipologie testuali sia perché risalgono a epoche diverse. Le dimensioni del corpus hanno reso inevitabile il ricorso all’analisi automatica, ma, come è noto, i programmi disponibili per l’italiano sono stati elaborati e addestrati principalmente allo scopo di annotare testi divulgativi di prosa contemporanea. La variazione sulle dimensioni dell’asse temporale e dell’asse tipologico del corpus MIDIA si riflette in differenze notevoli nella resa grafica delle forme e nell’ordine delle sequenze di parole rispetto a quanto atteso in testi di prosa giornalistica contemporanei, oltre che nella presenza di lessemi o di varianti non di uso corrente, caduti in desuetudine o appartenenti a terminologie specialistiche. Ciò ha determinato la necessità di intervenire sul programma di PoS-tagging utilizzato, per renderlo adatto all’analisi delle varietà diacroniche e tipologiche rappresentate nel corpus, e anche di approntare strategie di controllo e di revisione dei risultati dell’etichettatura automatica in modo da limitarne la percentuale di errore. In questo contributo intendiamo innanzitutto illustrare le scelte metodologiche e gli aspetti principali del lavoro di analisi e di lemmatizzazione dei testi che fanno parte del corpus MIDIA (§ 2) e dare conto di altri interventi precedenti e posteriori all’annotazione automatica volti a migliorare l’etichettatura del corpus (§ 3).
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: http://hdl.handle.net/11386/4682306
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact