Vai ai contenuti.

LABLITA

Sezioni
Strumenti personali
Sei qui: Portale » Corpora e Risorse » Corpus Stammerjohann e Corpus per il Confronto Diacronico LABLITA

Corpus Stammerjohann e Corpus per il Confronto Diacronico LABLITA


Corpus Stammerjohann - Il primo corpus di italiano parlato

Realizzato nell’ambito del progetto FIRB 2001 - L'italiano orale in diacronia
Distribuito in rete nel corpus LABLITA

A cura di Emanuela Cresti e Massimo Moneglia

Trascrizione e allineamento di Sabrina Signorini, Ida Tucci, Antonietta Scarano
Elaborazione dati a cura di Alessandro Panunzi e Marco Fabbri.


Harro Stammerjohann venne a Firenze nel 1965 per acquisire dati per uno studio sull’italiano parlato a Firenze. Borsista della Crusca, fu indirizzato da Giovanni Nencioni, allora Presidente dell’ Accademia della Crusca, agli artigiani del popolare quartiere di S. Spirito, e a varie famiglie e realtà professionali e poté in questo modo raccogliere conversazioni spontanee in ambienti di lavoro e in famiglia, fece interviste e registrazioni di ambiente in situazioni socio-culturali tipiche della Firenze del tempo, testimoniò il parlato dei fiorentini di allora, adulti e bambini.

Costituì così una raccolta di dati linguistici con criteri nuovi, che si allontanavano dalla tradizione delle inchieste dialettologiche, e usò strumenti, da poco disponibili, per documentare la lingua viva, così come era nel suo farsi, cercando di coglierne le variazioni d’uso più significative.

La tecnologia tedesca per la registrazione analogica era molto buona, solo un po’ più pesante di quella di adesso. Lo studio, che doveva diventare la sua tesi di dottorato in romanistica, si tradusse fra l’altro in una pubblicazione dal titolo Strukturen den Rede. Beobachtungen an den Umgangssprache von Florenz, che apparve nel numero 28 della rivista "Studi di filologia italiana". In essa erano raccolte anche le trascrizioni di alcuni stralci di parlato, presi come esempio dal vastissimo corpus di registrazioni (più di 40 ore).

Quelle registrazioni sono il primo Corpus di italiano parlato spontaneo mai realizzato, e quel lavoro ha costituito lo stimolo per lo sviluppo di una tradizione di studi che è continuata a Firenze per opera di G. Nencioni e dei suoi allievi, ma che ha permeato più in generale la linguistica italiana, una delle più feconde nel quadro contemporaneo degli studi sul parlato. Gliene siamo riconoscenti.

Il Corpus però era rimasto in gran parte inesplorato, forse perché i molteplici interessi sviluppati dall’Autore nella sua carriera lo avevano da esso allontanato; ma evidentemente non era stato dimenticato.

Harro ci ha fatto dono dei preziosi nastri originali, perché fossero salvati da quella polverizzazione che affligge le vecchie bobine, e perché tramite un’archiviazione digitale potessero essere reinseriti nel circuito scientifico. Il risultato di questo lavoro di recupero, finanziato dal Fondo per la Ricerca di Base (FIRB) all’interno del progetto "L’italiano orale in diacronia" è distribuito attraverso questo sito internet.

Corpus per il Confronto Diacronico LABLITA

Realizzato nell’ambito del progetto PRIN 2004 - Parlaritaliano
Distribuito in rete nel corpus LABLITA

A cura di Antonietta Scarano

Trascrizione e allineamento di Valentina Firenzuoli, Daniela Giani, Paola Gramigni, Elena Gronchi, Alessandro Panunzi, Angela Provenzali, Antonietta Scarano, Sabrina Signorini, Giacomo Tizzanini, Ida Tucci.
PoS tagging di Alessandro Panunzi.
Elaborazione dati di Marco Fabbri.


Il corpus Stammerjohann, orientato alla raccolta di dati di parlato spontaneo di tipo informale, costituisce una base di confronto della variazione diacronica se comparato con corpora di parlato spontaneo attuali, dello stesso tipo diafasico e raccolti nella stessa zona geografica.

Per documentare fenomeni della variazione diacronica in rapporto al parlato attestato dal corpus Stammerjohann è stato realizzato nel 2005 il "corpus per il confronto diacronico LABLITA". Esso è stato ricavato dal corpus LABLITA (http://lablita.dit.unifi.it/corpora/descriptions/lablita/) che per la sua dimensione e la sua forte variazione sociolinguistica si presta a fornire sottocorpora bilanciati, rappresentativi di situazioni d’uso della lingua parlata attuale, comparabili con le situazioni esemplificate nel corpus Stammerjohann.

Il Corpus per il Confronto Diacronico LABLITA, costituito nell’ambito del progetto PRIN 2004, è un campionamento di registrazioni recenti, raccolte a Firenze e nel suo immediato hinterland. Il bilanciamento operato per rendere confrontabile la risorsa non ha avuto come fine la selezione di situazioni d’uso che potessero contenere lessico parallelo (il che non sarebbe possibile nell’ambito del parlato spontaneo) bensì l’individuazione di situazioni che per le loro caratteristiche diafasiche, diastratiche e di contenuto, contenessero la stessa probabilità di uso della varietà regionale delle registrazioni del corpus Stammerjohann. A tal fine sono state selezionate dal corpus LABLITA le situazioni d’uso che, per le caratteristiche diastratiche dei parlanti e per i generi di interazione rappresentati, si avvicinassero il più possibile alle situazioni dei campioni del corpus Stammerjohann. Ne è così risultato un campionamento comparabile oltre che quantitativamente anche qualitativamente.

Il Corpus per il Confronto Diacronico LABLITA, circa 100.000 parole, come il campionamento del corpus Stammerjohann, è dimensionato secondo gli standard dei campionamenti di informale documentati nelle principali raccolte di parlato italiano esistenti (LIP e C-ORAL-ROM).

Riferimenti

  • Cresti, E. – Moneglia, M. (eds) (2005), C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam and Philadelphia: John Benjamins
  • Cresti E., Moneglia M., Bacelar F., Sandoval A.M., Veronis J., Martin PH., Choukri, K., Mapelli V., Falavigna D., Cid, A. in C. Rodriguez e C. Suarez Araujo (acd) (2002) The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus Proceedings of the III LREC Conference ,vol. 1 ELRA,PARIS. -- Pagg: 2-10
  • De Dominicis A., Mori L., Stefani M. (a cura di) (2005) Costituzione, Gestione e restauro di corpora vocali, Atti delle XIV Giornate del GFS, Collana degli atti dell’associazione italiana di acustica. Viterbo, 4-6 dicembre 2003. Roma: Esagrafica
  • Moneglia, M. – Scarano, A. (2008), Il Corpus Stammerjohann. Il primo corpus di italiano parlato, in rete nella base dati di LABLITA. In M. Pettorino (a c. di) Atti del convegno internazionale "La comunicazione parlata", Tomo III. Napoli, Liguori, pp. 1650-1685.
  • Moneglia M., Binazzi N. , Cella R., Scarano A., Panunzi A., Fabbri M. (2008), L’incidenza del lessico fiorentino nella lingua d’uso a Firenze. Un confronto tra il corpus Stammerjohann del 1965 e un corpus di parlato contemporaneo. In E. Cresti (a c. di) Prospettive nello studio del lessico Italiano, Atti del IX Congresso internazionale della Società di Linguistica e Filologia Italiana. Firenze, Firenze University Press, pp. 99-106.
  • Scarano, A. – Signorini, S. (2005), Corpus linguistics and diachronic variability. A study on Italian spoken language corpora from the 1960s until nowadays. In J. Kabatek, C. D. Pusch , W. Raible (eds) Korpora und diachrone Sprachwissenschaft / Romance Corpus Linguistics II: Corpora and Diachronic Linguistics. Tübingen: Narr, pp. 191-202.
  • Schmid, H. (1994), Probabilistic Part-of-Speech Tagging Using Decision Trees Proceedings of International Conference on New Methods in Language Processing. September 1994.
  • Signorini, S. – Tucci, I. (2004), Il restauro e l' archiviazione elettronica del primo corpus di italiano parlato: il corpus Stammerjohann. De Dominicis, L. Mori, M. Stefani (a cura di) (2005) Costituzione, Gestione e restauro di corpora vocali, Atti delle XIV Giornate del GFS, Collana degli atti dell’associazione italiana di acustica. Viterbo, 4-6 dicembre 2003. Roma: Esagrafica, pp. 119-126.
  • Stammerjohann, H. (1970), Strukturen der Rede. Beobachtungen an der Umgangssprache von Florenz Studi di Filologia Italiana, XXVIII, 295-397.
  • Zimmermann, H. (1965), Zu einer Typologie des spontanen Gesprächs. Syntaktische Studien zur baseldeutschen Umgangssprache, Bern (Basler Studien zue deutschen Sprache und Literatur 30)

Creato da admin
Ultima modifica 14 November 2013, 12:45
 
 


Sviluppato con Plone

Questo sito è conforme ai seguenti standard: