L’impiego di corpora elettronici nella ricerca linguistica si rivela particolarmente efficace quando ai dati raccolti (raw data) vengono aggiunte informazioni di carattere linguistico e funzionale che facilitano la loro interpretazione da un punto di vista morfosintattico. Il risultato di tali procedure di analisi è rappresentato da Treebanks ovvero corpora annotati sintatticamente attraverso rappresentazioni ad albero. Solitamente distinta dalla procedura di mark-up, l’annotazione di un corpus realizzata con l’applicazione di sistemi computerizzati (parser) che eseguono un’etichettatura delle parti del discorso (POS tagging) costituisce una procedura particolarmente efficace nel chiarire, ad esempio, casi di ambiguità grammaticale in cui un lessema, se privo di annotazione, può essere interpretato sia come verbo (V) che come nome (N) (ad esempio work). I parser generalmente propongono descrizioni delle produzioni linguistiche di una comunità di parlanti basate su regole grammaticali estratte da un campione di dati e tale caratteristica talvolta non permette di eseguire l’analisi automatica anche di frasi non grammaticali. Si tratta, dunque, di sistemi di analisi basati su grammatiche di precisione che distinguono principalmente ciò che è grammaticale da ciò che non lo è basandosi su un corpus necessariamente limitato di dati, in quanto la descrizione fa esclusivamente riferimento a campioni di frasi grammaticalmente corrette di una lingua inseriti nel sistema. Tuttavia, la propensione dei parlanti a produrre costruzioni che presentano “deviazioni” dalla norma e il fatto che molti di essi usino una lingua straniera come strumento di comunicazione comporta in sé «that naturalistic ungrammatical sentences are of interest to linguists studying language production, language loss and language learning, and that the grammatical/ungrammatical distinction cannot therefore be completely dismissed». Partendo dunque dal presupposto che descrizioni “realistiche” della lingua d’uso devono tener conto anche dei fenomeni di deviazione e dalla considerazione che tale necessità possa estendersi anche all’analisi dell’interlingua, il presente contributo nasce nell’ambito di uno studio preliminare condotto su un campione di dati inclusi in un corpus (University of Salerno Learner Corpus) di produzioni scritte da studenti di inglese come lingua straniera provenienti da alcuni atenei del centro-sud d’Italia con l’obiettivo di illustrare le caratteristiche tecniche e le capacità descrittive di alcuni dei più diffusi sistemi di annotazione. In particolare, sono stati presi in esame il sistema di annotazione semi- automatica dell’Université Catholique de Louvain Error Editor (UCLEE) e il Visual Interactive Syntax Learning (VISL). L’ambito di indagine a cui fa riferimento lo studio comprende quindi l’etichettatura degli errori (error tagging), delle parti del discorso (POS tagging) e delle loro funzioni sintattiche (parsing) nell’interlingua. In particolare, l’indagine condotta sul campione di dati è incentrata sull’interpretazione e conseguente annotazione dei sintagmi preposizionali che costituisce una delle aree della grammatica della lingua in cui risultano più evidenti le diverse strategie messe in atto dagli apprendenti a livello semantico-sintattico e la loro difficoltà ad integrare automaticamente struttura sintagmatica ed informazione lessico-semantica. Inoltre, poiché la nozione di argomento opera a livello sintattico e semantico nel determinare la valenza di un verbo e le sue strutture di sottocategorizzazione (subcategorization frames), lo studio tenderà a verificare come i sistemi di annotazione automatica interpretano tali casi e se possono aiutarci a capire gli usi devianti dalla norma dei sintagmi preposizionali e della complementazione verbale da parte degli apprendenti di inglese L2.
Analisi dell'interlingua e sistemi di annotazione: implicazioni teoriche ed indagini empiriche
CALABRESE, RITA
2010-01-01
Abstract
L’impiego di corpora elettronici nella ricerca linguistica si rivela particolarmente efficace quando ai dati raccolti (raw data) vengono aggiunte informazioni di carattere linguistico e funzionale che facilitano la loro interpretazione da un punto di vista morfosintattico. Il risultato di tali procedure di analisi è rappresentato da Treebanks ovvero corpora annotati sintatticamente attraverso rappresentazioni ad albero. Solitamente distinta dalla procedura di mark-up, l’annotazione di un corpus realizzata con l’applicazione di sistemi computerizzati (parser) che eseguono un’etichettatura delle parti del discorso (POS tagging) costituisce una procedura particolarmente efficace nel chiarire, ad esempio, casi di ambiguità grammaticale in cui un lessema, se privo di annotazione, può essere interpretato sia come verbo (V) che come nome (N) (ad esempio work). I parser generalmente propongono descrizioni delle produzioni linguistiche di una comunità di parlanti basate su regole grammaticali estratte da un campione di dati e tale caratteristica talvolta non permette di eseguire l’analisi automatica anche di frasi non grammaticali. Si tratta, dunque, di sistemi di analisi basati su grammatiche di precisione che distinguono principalmente ciò che è grammaticale da ciò che non lo è basandosi su un corpus necessariamente limitato di dati, in quanto la descrizione fa esclusivamente riferimento a campioni di frasi grammaticalmente corrette di una lingua inseriti nel sistema. Tuttavia, la propensione dei parlanti a produrre costruzioni che presentano “deviazioni” dalla norma e il fatto che molti di essi usino una lingua straniera come strumento di comunicazione comporta in sé «that naturalistic ungrammatical sentences are of interest to linguists studying language production, language loss and language learning, and that the grammatical/ungrammatical distinction cannot therefore be completely dismissed». Partendo dunque dal presupposto che descrizioni “realistiche” della lingua d’uso devono tener conto anche dei fenomeni di deviazione e dalla considerazione che tale necessità possa estendersi anche all’analisi dell’interlingua, il presente contributo nasce nell’ambito di uno studio preliminare condotto su un campione di dati inclusi in un corpus (University of Salerno Learner Corpus) di produzioni scritte da studenti di inglese come lingua straniera provenienti da alcuni atenei del centro-sud d’Italia con l’obiettivo di illustrare le caratteristiche tecniche e le capacità descrittive di alcuni dei più diffusi sistemi di annotazione. In particolare, sono stati presi in esame il sistema di annotazione semi- automatica dell’Université Catholique de Louvain Error Editor (UCLEE) e il Visual Interactive Syntax Learning (VISL). L’ambito di indagine a cui fa riferimento lo studio comprende quindi l’etichettatura degli errori (error tagging), delle parti del discorso (POS tagging) e delle loro funzioni sintattiche (parsing) nell’interlingua. In particolare, l’indagine condotta sul campione di dati è incentrata sull’interpretazione e conseguente annotazione dei sintagmi preposizionali che costituisce una delle aree della grammatica della lingua in cui risultano più evidenti le diverse strategie messe in atto dagli apprendenti a livello semantico-sintattico e la loro difficoltà ad integrare automaticamente struttura sintagmatica ed informazione lessico-semantica. Inoltre, poiché la nozione di argomento opera a livello sintattico e semantico nel determinare la valenza di un verbo e le sue strutture di sottocategorizzazione (subcategorization frames), lo studio tenderà a verificare come i sistemi di annotazione automatica interpretano tali casi e se possono aiutarci a capire gli usi devianti dalla norma dei sintagmi preposizionali e della complementazione verbale da parte degli apprendenti di inglese L2.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.