Vai ai contenuti.

LABLITA

Sezioni
Strumenti personali
Sei qui: Portale » Progetti » PRIN 2004 » PRIN 2004 - PARLARE ITALIANO » PRIN 2004 - PARLARE ITALIANO » PRIN 2004 - PARLARE ITALIANO

PRIN 2004 - PARLARE ITALIANO

MINISTERO DELL'ISTRUZIONE, DELL'UNIVERSITÀ E DELLA RICERCA
DIPARTIMENTO PER L'UNIVERSITÀ, L'ALTA FORMAZIONE ARTISTICA, MUSICALE E COREUTICA E PER LA RICERCA SCIENTIFICA E TECNOLOGICA PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIONALE RICHIESTA DI COFINANZIAMENTO (DM n. 30 del 12 febbraio 2004)

Vai ai risultati del progetto

PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 2004 - prot. 2004101719_010

2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano
Criteri di archiviazione di dati e metadati dei corpora di parlato italiani per la consultazione in rete; Definizione e validazione delle unità di riferimento del parlato nell'interfaccia itonazione/sintassi/ pragmatica; Pubblicazione in rete di un corpus annotato di parlato spontaneo. Analisi pragmatica e soprasegmentale del parlato di soggetti con patologie linguistiche.

Testo inglese
Data and meta-data formats for speech resources on the net. Definition and validation of the reference units of spoken language in the interface betwee prosodic and pragmatic and morpho-syntactic levels of linguistic information. Publication on the net of a tagged corpus of spontaneous speech. Pragmatic and suprasegmental analysis of speech for subjects with language disorders.


2.2 Settori scientifico-disciplinari interessati dal Programma di Ricerca

L-FIL-LET/12 - Linguistica italiana
L-LIN/01 - Glottologia e linguistica
L-LIN/02 - Didattica delle lingue moderne
MED/25 - Psichiatria


2.3 Parole chiave

Testo italiano RISORSE LINGUISTICHE ; CATALOGHI ; META-DATI ; FORMATI MULTIMEDIALI ; NTONAZIONE ; MORFOSINTASSI ; ATTI LINGUISTICI ; ETICHETTE ; PATOLOGIA DEL LINGUAGGIO

Testo inglese LANGUAGE RESOURCES ; CATALOGUES ; META-DATA ; MULTIMEDIA FORMATS ; INTONATION ; MORPHOSYNTAX ; SPEECH ACTS ; TAGS ; LANGUAGE DISORDERS

1.3 Coordinatore Scientifico del Programma di Ricerca

VOGHERA MARIA voghera@unisa.it
L-LIN/01 - Glottologia e linguistica
Università degli Studi di SALERNO
Facoltà di LINGUE e LETTERATURE STRANIERE
Dipartimento di STUDI LINGUISTICI E LETTERARI


1.4 Responsabile Scientifico dell'Unità di Ricerca

CRESTI EMANUELA
Professore Ordinario 07/03/1944 CRSMNL44C47D612K
L-FIL-LET/12 - Linguistica italiana
Università degli Studi di FIRENZE
Facoltà di LETTERE e FILOSOFIA
Dipartimento di ITALIANISTICA
(Prefisso e telefono) 055/5032486 (Numero fax) 055/5032476 (Email) elicresti@unifi.it

2.4 Base di partenza scientifica nazionale o internazionale

Testo italiano
La costituzione di basi di dati di parlato spontaneo è un compito complesso che comprende:

  1. la rappresentazione di tutti i livelli dell'informazione linguistica;
  2. la formazione di risorse riutilizzabili in formati standard a livello testuale e acustico.
La realizzazione di basi di dati multimediali in ambito nazionale e internazionale è stata oggetto di molti progetti recenti. Il Corpus del parlato Dutch (circa 1000 ore) e il Progetto europeo C-ORAL-ROM, circa 1.200.000 parole per Italiano, Francese, Spagnolo e Portoghese, sono esempi significativi. Per quanto riguarda l'Italia, l'unico grande corpus pubblico è il LIP (De Mauro, Voghera et alii, 1992), 500.000 entrate di campioni raccolti a Milano, Firenze, Roma e Napoli. Varie altre iniziative sono completate e pubbliche: la serie di Progetti AVIP, CLIPS e API ; il corpus radiofonico LIR; il Campionamento LABLITA. Ma esistono anche corpora privati raccolti da industrie come CSELT e da studiosi per le loro ricerche sull'italiano parlato (Sornicola ,1981, Cresti,1994, Berruto,1987, Voghera,1992, cfr. per riferimenti Moneglia, 2000 ). In ogni caso è necessario:
  1. aumentare la dimensione delle risorse italiane e dare maggiore accesso alle risorse esistenti;
  2. sviluppare una notazione standard per la rappresentazione dei dati del parlato spontaneo per consentire una comparazione tra risorse diverse
Standard de facto per la rappresentazione e l'annotazione del parlato sono emersi con iniziative di standardizzazione e con la raccolta di grandi corpora (Gibbon, More, Winski , 1997).
Il processo di standardizzazione riguarda sia istanze di accessibilità che di rappresentazione. I principali formati per la rappresentazione testuale del parlato sono i seguenti:
  1. Codes for the human analysis of transcripts (CHAT), che è il formato useto per il Progetto CHILDES (Child Language Data Exchange System; MacWhinney, 1991);
  2. Text Encoding Initiative (TEI), che è un progetto internazionale per lo sviluppo di linee guida per la preparazione e lo scambio di testi elettronici.
Entrambi i sistemi sono tradizionali, ma di recente sono stati implementati con un'entrata XML, e offrono un approccio complessivo all'insieme dei problemi di una risorsa parlata: la rappresentazoione dei metadati (headers), la struttura del dialogo e la codificazione del testo. Tuttavia ciascuna di tali questioni deve essere considerataseparatamente.
L'uso di descrizioni standard per i meta-dati permette la creazione di un universo di tali risorse recuperabili in Internet. Per questo motivo descrizioni standard della struttura del catalogo e della struttura dei meta-dati sono essenziali. Tali strutture sono state oggetto di una standardizzazione de facto da parte della principale associazione europea per la raccolta di grandi corpora (European Language Resources Association, ELRA) e di quella degli Stati Uniti (Linguistic Data Consortium, LDC). Il catalogo di ELRA annovera corpora di parlato, di scritto e di terminologia. Il Consorzio LDC raccoglie risorse linguistiche in campo educativo, di ricerca e sviluppo tecnologico, e promuove la creazione e lo scambio di risorse, dati, strumenti, e standard.
Riferimenti importanti per la descrizione dei meta-dati derivano anche da iniziative nel campo dell'eredità culturale e degli standard multimediali: il Dublin Core Meta Data Initiative (DC), e il Multimedia Content Description Interface (MPEG-7). Deve essere sottolineato in ogni caso che l'iniziativa specifica per le risorse di parlato viene da progetti europei, dove è stato sviluppato il concetto di Browsable Corpus (BC), introdotto dal Max Planck Institute for Psycholinguistics (MPI), per l'accesso ai corpora in rete (Broeder, et alii).
Tale concezione è stata sviluppata nella ISLE Meta Data Initiative (IMDI) come standard per i meta-dati delle risorse parlate a carattere multimediale e multimodale.
E'necessario poi fornire una rappresentazione standard del dialogo e una struttura dati dei vari livelli linguistici sia per la ricerca empirica che per la validazione delle tecnologie del linguaggio: parser, tagger, database testuali, riconoscitori e sintesi.
L'Expert Advisory Group on Language Engineering Standards (EAGLES) è un Progetto pilota EU che ha avuto un largo impatto con la proposta di standard e raccomandazioni per le risorse linguistiche, per i linguaggi di etichettatura e gli strumenti. Le raccomandazioni di EAGLES sono attualmente uno dei principali punti di riferimento per l'annotazione dei corpora e sono state impiegate in molti settori: Corpus Encoding Standard (CES), per ricerche corpus-based nell'ingegneria del linguaggio, e nel Progetto ISLE (International Standards for Language Engineering), che ugualmente ha sviluppato linee guida per le LRs, per strumenti e prodotti come quelli già menzionati per I Metadati.
Il principale punto di riferimento per I lavori recenti sugli strumenti dedicati all'annotazione linguistica è il Progetto Multilevel Annotation, Tools Engineering (MATE). MATE ha trattato i corpora di dialoghi a livelli multipli: prosodia, morfosintassi, coreferenza, atti di dialogo, e interazioni tra i livelli.
Dal punto di vista dell'annotazione il parlato mostra proprietà specifiche e un ruolo centrale è giocato dal livello prosodico. Le risorse di lingua scritta sono analizzate in frasi, ma nel parlato spontaneo l'informazione sintattica è sottodeterminata (Cresti et alii. 2002; Longman Grammar 1999; Miller& Weinert,1998). Al contrario il continuum fonico è scandito dall'intonazione in enunciati, che veicolano atti linguistici (Austin, 1962). La relazione tra prosodia e atti linguistici, quindi, è cruciale nella definizione dell'interfaccia tra i vari livelli della notazione linguistica. Nella ricerca in oggetto viene assunto in particolare che l'intonazione è il livello linguistico che assicura la partizione del continuum fonico in unità di riferimento rilevanti (enunciati).A loro volta gli enunciati sono sistematicamente scanditi da unità tonali, la cui tipologia è discriminata percettivamente (intonation pattern, cf. Hart, Collier, Cohen, 1990). Gli enunciati sono sempre conclusi tramite un profilo intonativo di tipo terminale (Karcevsky, 1931, Crystal, 1975). Considerando tali proprietà è stato sviluppato un criterio operativo per l'analisi dello spontaneo. E' possibile infatti identificate un limite di enunciato quando per un verso viene riconosciuto percettivamente il compimento di un programma prosodico e d'altro canto quando le stesse parole, così intonate, consentono l'interpretabilità pragmatica, ovvero il compimento di un atto linguistico (criterio illocutivo; Cresti 2000). Ma la salienza dei confini prosodici è rilevante sia per quanto concerne i confini terminali sia per I confini non terminali.All'interno delle unità tonali che possono scandire un enunciato, l'informazione prosodica che consente di identificare l'illocuzione è veicolata solo da una unità specifica (unità root ,'t Hart et alii; Martin 1978), che Cresti chiama comment (Cresti 1994). Il principio è confermato nell' approccio macrosintattico secondo il quale il noyau sintattico coincide con l'unità tonale che porta la modalità (Blanche-Benveniste, 1996). Dal momento che le unità tonali veicolano informazione funzionale, la demarcazione degli enunciati, in una corrispondenza biunivoca con i confini prosodici terminali, e la scansione prosodica risultano essere la notazione primaria del parlato. Il principio della relazione sistematica tra unità tonali e unità d'informazione ( articolazione informativa, Cresti 1994) è stato verificato sui corpora di LABLITA e C-ORAL-ROM (Cresti - Moneglia in stampa; Moneglia in stampa; Moneglia-Panunzi-Picchi in stampa; Cresti et alii in stampa; Danieli-Garrido-Moneglia-Panizza-Quazza-Swerts in stampa; Moneglia-Scarano-Spinu, preprints LABLITA) e in molti lavori empirici (Cresti 2000). Tale sistema di analisi della lingua può essere applicato anche per lo studio del linguaggio patologico con particolare riferimento alle produzioni orali di soggetti con patologia autistica e sindromi schizofreniche.

Testo inglese
The setting up of Spontaneous Speech databases is a complex task. It is essential to:

  1. represent all levels of linguistic information
  2. make the speech resources available in standard formats both at a textual level as well as at the acoustic level.
Many recent works has been curried out in order to produce such multimedia data bases at national and international level. The Spoken Ducth Corpus of about 1,000 hours of speech and the C-ORAL-ROM multilingual corpus of spontaneous speech of around 1.200.000 words for Italian, French. Portuguese and Spanish are recent examples. With reference to Italy, the only large public Spoken Corpus is the LIP (De Mauro et al, 1992) made up of Spoken Language in Milan, Florence, Rome and Naples for a total of 500,000 entries. Various other initiatives have also been completed: a) the series of AVIP, CLIPS and API Projects; b) The Radiophone database (LIR); c) the LABLITA sampling. Moreover there are several private corpora collected by companies such as CSELT and by many scholars as a basis for their studies on Spoken Italian (Sornicola ,1981, Cresti,1994, Berruto,1987, Voghera,1992 and references in Moneglia, 2000 ). It is therefore necessary:
  1. increase the size of the Italian resources and the access possibilities to existing resources;
  2. develop standard notation for the representation of spontaneous speech data to allow comparison among such resources.
A set of de facto standards for representation and annotation has emerged in conjunction with standardization initiatives and large corpora collection initiatives such as the above mentioned ones (Gibbon, More, Winski , 1997).
The standardization process is concerned with both the accessibility issue and the representation issue. The following are the main initiatives in the field of spontaneous speech text-representation format:
Codes for the human analysis of transcripts (CHAT) is the format used for the CHILDES (Child Language Data Exchange System) project(MacWhinney, 1991).
Text Encoding Initiative (TEI) is an international project to develop guidelines for the preparation and interchange of electronic texts. Such traditional frames, that have been recently provided with an XML entry, have an integrated approach to the full set of problems of spoken resources: metadata representation (text headers in both systems) dialogue structure and text encoding. However, such levels must be considered as separate issues.
The standard structure of catalogue descriptions and the structure of meta-data descriptions are essential. Using Standard in meta-data description it will become possible to create a browsable and searchable universe of such resources in the Internet.
Metadata structure has been the object of de facto standardization by the main association for corpora collection in Europe (ELRA) and in the US (LDC) in their catalogues. The ELRA (European Language Resources Association) catalog includes a wide range of corpora including speech corpora,written corpora and terminology corpora . The Linguistic Data Consortium (LDC) supports language-related education, research and technology development by creating and sharing linguistic resources: data, tools and standards.
Important reference with respect to Metadata descriptions come also from very general initiatives in the field of cultural heritage and multimedia standards: The Dublin Core MetaData Initiative (DC) The Multimedia Content Description Interface (MPEG-7) that aims to create a standard for the description of the multimedia content data.
It must be stressed however that the proposal which address spoken language resources specifically has been delivered in EU projects through the concept of Browsable Corpus(BC) introduced at the Max Planck Institute for Psycholinguistics (MPI) to make resource discovery easier by defining meta-descriptions for language resources (Broeder, et alii ).
Such an idea has been developed in the ISLE Meta Data Initiative (IMDI) as a standard of meta-data descriptions of Multi-Media/Multi-Modal Language resources.
The representation of dialogue and the multimedia structure of the linguistic information of spontaneous speech is needed in order to provide a good basis for empirical investigation and to allow the validation of language technologies; that is parsers, taggers, textual databases, speech recognition and speech synthesis tools.
The Expert Advisory Group on Language Engineering Standards (EAGLES) is a pilot EU project that has had an important impact in this sector by providing standards and recommendations for language resources; computational linguistic formalisms, mark up languages and tools. The EAGLE guidelines are at present one of the main sources of recommendations for the annotation of corpora and they have been reused in many domains, e.g. in the Corpus Encoding Standard (CES) for corpus-based work in the language engineering community and in the ISLE project (International Standards for Language Engineering) that also developed guidelines for language resources, tools and products such as the already mentioned Metadata structure.
The main background reference for current trends of tools devoted to linguistic annotation is the Multilevel Annotation, Tools Engineering project (MATE). MATE treated spoken dialogue corpora at multiple levels, focusing on prosody, morpho-syntax, co-reference, dialogue acts, and communicative difficulties, as well as inter-level interaction
From the point of view of the annotation, the spoken domain shows specific structural properties and a specific role is played by the prosodic level. Textual written resources are parsed in clauses. In Spontaneous Speech the syntactic information is underdetermined (Cresti et alii. 2002; Longman Grammar 1999; Miller& Weinert,1998) while the speech-flow is divided by intonation into utterances, which bring about speech acts (Austin, 1962). The relation between prosody and speech acts turns out to be crucial in the definition of the interface between its various levels of linguistic annotation of spontaneous speech. It is assumed here that prosody is the linguistic level of information that ensures the segmentation of the speech flow in relevant reference units.
Utterances are systematically parsed in groups of tone units, the type of which is discriminated at a perceptive level (intonation pattern, cf. Hart, Collier, Cohen, 1990). Utterances always end up with a profile of terminal intonation (Karcevsky, 1931, Crystal, 1975). By considering such prosodic properties, a meaningful operational criterion for the analysis of Spontaneous Speech, has been obtained. It is possible to identify the utterance limit when on the one hand the completion of a prosodic program is perceived and on the other when the words, thus parsed, simultaneously allow their pragmatic interpretability, that is a completion of a speech act (illocutionary criterion; Cresti, 2000).
The relevance of prosodic boundaries, regards both terminal and non-terminal breaks.
Within the possible tone units of an utterance, the prosodic information which enables one to identify the illocution, of the utterance lies in a specific unit (root unit in 't Hart 1990; Martin, 1978; Comment for Cresti, 1994). Such a principle is crucially confirmed in the macro-syntactic approach for which the syntactic noyau coincides with the tone unit bearing the modal value of the utterance(Blanche-Benveniste,1996;). The relevance of prosodic boundaries regards both terminal and non-terminal breaks in the utterance.
Given that prosodic units convey functional information, the demarcation of the utterances in a one to one correspondence with terminal prosodic breaks and the prosodic parsing of the utterance itself through non-terminal breaks provides the main information for speech labeling. Such a principle has been verified in many works on corpora, LABLITA; C-ORAL-ROM (Cresti - Moneglia in stampa; Moneglia forthcoming; Moneglia-Panunzi-Picchi forthcoming; Cresti et alii forthcoming; Danieli-Garrido-Moneglia-Panizza-Quazza-Swerts forthcoming; Moneglia-Scarano-Spinu, preprints LABLITA) and on the relation between tone units and information units (Informational patterning, Cresti 2000)
This theoretic frame can be applied also to the study of language disorders and it results especially significant for patient with autistic syndrome.


2.4.a Riferimenti bibliografici

CES http://www.cs.vassar.edu/CES/
CHAT http://childes.psy.cmu.edu/
C-ORAL-ROM http://lablita.dit.unifi.it/app/coralrom
DC http://purl.oclc.org/dc/
EAGLE http://www.ilc.pi.cnr.it/EAGLES/
ELRA http://www.icp.grenet.fr/ELRA/catalog.html
ICE-BG http://www.ucl.ac.uk/english-usage/ice-gb/index.htm
IMDI http://www.mpi.nl/ISLE/index.html
ISLE http://lingue.ilc.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm
LDC http://morph.ldc.upenn.edu/Catalog/by_type.html
LIR http://www.accademiadellacrusca.it/progetti/progetto_singolo.php?id=2570&ctg_id=27
MATE http://mate.nis.sdu.dk/
MPEG-7 http://mpeg.telecomitalialab.com/working_documents.htm
SpokenDuchCorpus http://lands.let.kun.nl/cgn/ehome.htm
TEI http://www.tei-c.org/

Andersen A.L. - Nolke H. (eds) (2002), Macro-Syntaxe et Macro-Semantique, Peter Lang, Berne.
Austin L.J. (1962), How to do things with words, Oxford University Press, Oxford.
Bally C. (1950), Linguistique générale et linguistique française, Francke Verlag, Berne.
Berruto G. (1987), Sociolinguistica dell'italiano contemporaneo, NIS, Firenze.
Biber D. (1988),Variation across speech and writing, Cambridge University Press, Cambridge.
Biber D., et alii (eds) (1999), The Longman grammar of spoken and written english, London, Longman.
Biber D. et alii (eds) (1998), Corpus linguistics: investigating language structure and use, Cambridge, CUP.
Broeder D.G., Brugman H., Russel A.- Wittenburg P. (2000), A Browsable Corpus: accessing linguistic resources the easy way. LREC 2000 Workshop, Athens.
Blanche-Benveniste C. et alii (1990), Le français parlé. Etudes grammaticales, Editions du CNRS, Paris.
Blanche-Benveniste C. (1997), Approches de la langue parlée Français, Ophrys, Paris.
Cresti E. (1987) L'articolazione dell'informazione nel parlato, in AA.VV. Gli italiani parlati, Accademia della Crusca, Firenze, pp. 27-90.
Cresti E. (1994), Information and intonational patterning in Italian, in B. Ferguson et alii (eds), Accent, intonation, et modéles phonologiques, Editions Mélodie, Toronto.
Cresti E. (2000), Corpus di italiano parlato,vol. I- II, Accademia della Crusca, Firenze.
Cresti E.(2001) Per una nuova definizione di frase, in P. Bongrani - A. Dardi - M. Fanfani - A. Tesi (a c. d), Ricerche di storia della lingua italiana in onore di Ghino Ghinassi, Le Lettere, Firenze, pp. 511-550
Cresti E. (2003), "Modalité et illocution dans le topic et le comment", in A. Scarano (a c. di) Macro-syntaxe et pragmatique. L'analyse linguistique de l'oral, Roma, Bulzoni, pp. 133-182.
Cresti E. (2003) "La categoria della persona: analisi delle forme verbali di un campione di parlato", in M. Giacomo-Marcellesi e A. Rocchetti, Atti del XXXV SLI. Il verbo italiano, Roma, Bulzoni, pp. 211-236.
Cresti E. et alii (in stampa) "The C-ORAL-ROM corpus. A multilingual resource of spontaneous speech for Romance languages, in Proceeding 4th LREC, Lisbona.
Cresti E. - Moneglia M. et alii (2002),The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus,in M. C. Rodriguez e C. Suarez Araujo (a c. d), Proceedings of III° International Conference on Language resources and evaluation (LREC 2002, Las Palmas), ELRA, Paris, pp. 2-10.
Cresti E. - Moneglia M. (a c. di) (in stampa), C-ORAL-ROM. Integrated reference corpora for spoken romance languages, vol. 1+ DVD, Benjamins, Amsterdam.
Crystal D. (1975), The English tone of voice, Edward Arnold, London.
Danieli M. - Garrido J. M. - Moneglia M. - Panizza A. - Guazza, S. -Swerts M. (in stampa), "Evaluation of consensus on the annotation of prosodic breaks in the Romance corpus of spontaneous speech "C-ORAL-ROM", in Proceeding 4th LREC, Lisbona.
De Mauro et alii (1993) Lessico di frequenza dell'italiano parlato, Etass Milano
Gadet F. (1996), Variabilité, variation, varieté: le Français d'Europe, in French Language Studies, 6.
Gibbon D. Moore R, Winski R. (eds.) (1997), The handbook of Standards and Resources for Spoken language Systems, Mouton de Gruyter, Berlin.
Halliday M.A.K. (1972), System and function in language, La Haye, Mouton.
't Hart J., Collier R., Cohen A. (1990), A perceptual study on intonation. An experimental approach to speech melody, Cambridge University Press, Cambridge.
Karcevsky S. (1931), Sur la phonologie de la phrase, in Travaux du Cercle linguistique de Prague, IV.
Labov W. (1966), The social stratification of English in New York City, Washington D.C.
MacWhinney B. (1995), The CHILDES project: tools for analyzing talk, Lawrence Erlbaum Associates, Hillsdale, New Jersey.
Martin Ph. (1978), Questions de phonosyntaxe et de phonosémantique en Français, in Linguisticae Investigationes, II, pp. 93-126.
Miller J. - Weinert R. (1999), Spontaneous Spoken language, Clarendon Press, Oxford.
Moneglia M. (2000) Le corpus LABLITA, in M. Bilger (ed.) Corpus. Méthodologie et aplications linguistique Champion, Paris, pp. 49-57.
Moneglia M. - Cresti E. (2001) "The value of prosody in the transition to complex utterances: data and theoretical implications from the acquisition of Italian", Proceedings of the IASCL Congress, S. Sebastian, pp. 261-263.
Moneglia M. - Cresti E. (1997), "Intonazione e criteri di trascrizione del parlato", in U. Bortolini - E. Pizzuto Il progetto CHILDES Italia, Pisa, Del Cerro, pp. 57-90.
Moneglia M. (in stampa), "Measurements of spoken language variability in a multilingual corpus. Predictable aspects", in Proceeding 4th LREC, Lisbona.
Moneglia M. - Scarano A. - Spinu M. (2002), "Validation by expert transcribers of the C-ORAL-ROM prosodic tagging criteria on Italian, Spanish and Portuguese corpora of spontaneous speech", in Preprints LABLITA 2003, http://lablita.dit.unifi.it/coralrom/papers.
Moneglia M. - Panunzi A. - Picchi E. (in stampa), "Using PiTagger for Lemmatization and PoS tagging of a spontaneous speech corpus: C-ORAL-ROM Italian", in Proceeding 4th LREC, Lisbona.
Scarano A. (a c d)(2003), Macrosyntaxe et pragmatique: l'analyse de la langue orale, Bulzoni, Roma.
Sornicola R. (1981), Sul Parlato, Il Mulino, Bologna.
Voghera M. (1992), Sintassi e intonazione nell'italiano parlato, Il Mulino, Bologna.


2.5 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano
Il Contributo dell'unità di ricerca alla realizzazione e allo sviluppo del progetto si articola su più linee di azione:
I anno:

  1. Sviluppo e mantenimento dell'apertura del sito
  2. La definizione dei criteri di archiviazione di dati e metadati dei corpora di parlato italiani per la consultazione in rete;
  3. La pubblicazione dei metadati dei corpora di LABLITA
I risultati del primo anno saranno verificabili in rete all'indirizzo http://lablita.dit.unifi.it/progetti/cofin_lablita2004
II anno:
  1. La Pubblicazione in rete di un corpus annotato di parlato spontaneo;
  2. Definizione e validazione delle unità di riferimento del parlato nell'interfaccia intonazione/sintassi/pragmatica e studi linguistici connessi
  3. Analisi pragmatica e prosodica di produzioni orali di soggetti con patologie del linguaggio
I risultati del secondo anno saranno verificabili in rete allo stesso indirizzo e attraverso pubblicazioni e rapporti tecnici.

1. LABLITA sviluppa sistemi interni di data base linguistici multilivello e usa attualmente vari tools finalizzati a:
  • l'analisi e sintesi del segnale e allineamento testo suono (Win Pitch Corpus; Praat; GIPOS; Transcriber);
  • il tagging morfosintattico e la lemmatizzazione automatica (CLAN, P-tagger);
  • la notazione dell'informazione nei contenuti multimodali (ANVIL)
Gli standard e strumenti per l'analisi multilivello del parlato è in continua evoluzione, LABLITA fornirà schede sui prodotti attualmente in uso e contribuirà a sviluppare e mantenere l'informazione presente nel portale su tools, formati e metadati.
2.1 Il catalogo dei corpora italiani distribuito in rete è una infrastruttura essenziale per garantire l'accesso e lo sfruttamento di tali risorse. Data la tendenza attuale all'integrazione delle risorse linguistiche in cataloghi strutturati nell'ambito multilingue europeo, rappresentata tra l'altro nel VI° Programma Quadro dell'Unione, la realizzazione del formato elettronico del catalogo deve avvenire necessariamente in conformità agli standard internazionali di rappresentazione di tali conoscenze. Questo passo è fondamentale perché la diffusione in rete del catalogo garantisca il pieno apprezzamento delle specificità delle risorse da parte degli utenti finali.
Nel primo anno della ricerca Lablita fornirà un overview dei principali formati oggi disponibili (vedi base di partenza scientifica) e delle loro qualità e svilupperà una proposta di applicazione, anche in collaborazione con l'unità di ricerca di Napoli che progetta l'architettura del sito.
Su tale tema si prevede un "pre-conference workshop" presso l'Università di Firenze
L'ipotesi da cui parte l'azione in oggetto è lo sviluppo per le risorse italiane dello standard IMDI, che è specificamente dedicato ai metadati delle risorse orali ed è attualmente implementato nel progetto INTERA per l'integrazione dei cataloghi a livello europeo. I tools che garantiscono l'applicazione dello standard sono distribuiti liberamente in rete e permettono sia lo sfruttamento dei metadati nel più ampio dominio internazionale sia, crucialmente, quando consentito dai proprietari, l'accesso diretto alle risorse.

2.2. Il formato di rappresentazione del dialogo di LABLITA è una implementazione del formato CHAT a cui è aggiunta una generalizzazione fondamentale nelle modalità di marcamento dei breaks prosodici. Tale formato testuale è adatto all'etichettatura prosodica, sistematica e a basso costo, di grandi corpora (cfr. C-ORAL-ROM) e consente la divisione del parlato in unità di riferimento (enunciati) in corrispondenza biunivoca con i tag prosodici terminali e unità di informazione, in corrispondenza biunivoca con i breacks prosodici non terminali. Per quanto concerne i protocolli e I formati di rappresentazione del dialogo, LABLITA fornirà le specifiche del proprio formato per la loro pubblicazione nel sito.Il formato sarà fornito sia nella sua versione solo testo sia in versione XML in associazione alla DTD (con scripts di conversione dal formato TXT).
All'interno dei protocolli di analisi sarà fornito il tag set utilizzato nella base di dati di LABLITA per il tagging della struttura informativa dell'enunciato nell'interfaccia tra prosodia e valori informativi. Il tag set in questione sarà accompagnato dalle definizioni e dai criteri operativi i applicazione

3. LABLITA fornirà e manterrà il catalogo in IMDI dei propri corpora, direttamente o attraverso link al proprio sito (http://lablita.dit.unifi.it). In particolare fornirà il catalogo delle seguenti risorse, con specificazione delle modalità di accesso:
  • Corpus dell'italiano parlato spontaneo;
  • Corpus Stammerjohann
  • Corpora longitudinali della prima acquisizione dell'italiano;
  • Corpus della lingua Cinematografica;

4. Più specificamente nel secondo anno della ricerca, con link al sito di LABLITA, sarà dato libero accesso attraverso il formato IMDI ad un sottocorpus bilanciato delle risorse di parlato spontaneo di LABLITA (Corpus consultabile LABLITA). Tale corpus, prevedibilmente circa 100 campioni tratti da sessioni diverse per complessive 15 ore di parlato (tra le 100.000 e le 200.000 parole) sarà disegnato in modo tale da permettere la verifica dei criteri di notazione propri del formato LABLITA e delle ipotesi teoriche ad esso sottostanti.
Il corpus, consultabile in rete, sarà fornito in formato TXT con accesso alla sorgente acustica in formato Microsoft WMA e in formato html, con link dal testo alla sorgente acustica.
Il corpus Consultabile fornirà esempi di parlato italiano spontaneo: a) formale in contesto naturale; b) informale in contesto naturale; c) dei media (nei limiti consentiti dal diritto di citazione). Il corpus conterrà una proporzione di più del 50% di parlato informale (la risorsa con maggior val.ore aggiunto) . La variazione del corpus risulterà da due parametri principali:
  1. struttura del dialogo (monologhi, dialoghi, conversazioni con più di due partecipanti)
  2. dominio d'uso (famiglia; privato; vita pubblica; media)
In letteratura ci si è spesso riferiti al significato di tali parametri ( Labov,1966, Biber 1998, Berruto,1987, Gadet, 1996) che costituiscono la struttura semiologica e sociologica del corpus. I parametri di struttura e dominio saranno uniti esplicitamente ad ulteriori parametri di variazione legati al parlante: (età; educazione; occupazione) che variando in modo trasversale permettono di esemplificare la variazione diafasica e diastratica.

5. Il contributo alla sezione è dedicato alla discussione alla validazione dei criteri di notazione e misura, in particolare per l'intonazione, la pragmatica e l'interfaccia tra sintassi e intonazione.
LABLITA conduce ricerche sui seguenti livelli di descrizione linguistica:
  • Intonazione,
  • Sintassi;
  • Pragmatica;
  • Lessico.
In particolare il lavoro teorico e descrittivo di LABLITA è dedicato all'interfaccia tra l'intonazione e gli altri livelli linguistici. Fino dai primi anni '90, infatti, presso LABLITA sono state svilippate una serie di ricerche, fondate e su un' ipotesi teorica originale su tale interfaccia (Cresti 1987) e sullo studio sperimentale dei propri corpora di parlato spontaneo.
Mentre infatti la lingua scritta può eleggere come unità di riferimento superiore alla parola unità sintattiche come la frase o la clausola, nel parlato, e in particolare in quello spontaneo, l'informazione sintattica è sottodeterminata (Cresti 2002; Cresti et alii 2002; Longman Grammar 1999; Miller& Weinert,1998).

Dato che l'intonazione scandisce il continuum fonico in enunciati, che veicolano atti linguistici (Austin, 1962), la relazione tra prosodia e atti linguistici risulta cruciale nella definizione dell'interfaccia tra i vari livelli di analisi del parlato. (criterio illocutivo; Cresti 2000).
La salienza dei confini prosodici, d'altro canto, è rilevante sia per quanto concerne confini terminali che non terminali (intonation pattern, cf. 't Hart, Collier, Cohen, 1990).
L'informazione prosodica, quindi, consente di identificare l'illocuzione dell'enunciato che però è veicolata solo da una specifica unità tonale (root ,'t Hart et alii), che segnala la corrispondente unità d'informazione, necessaria e sufficiente a costituire enunciato, chiamata comment .
Le altre unità tonali (per esempio di tipo prefix, suffix, inciso, ecc..), che possono comporre il pattern intonativo con il quale è scandito un enunciato, hanno corrispondenza sistematica con unità d'informazione e sono caratterizzate da funzioni diverse: topic, appendice, inciso, introduttore locutivo, incipit, fatico, conativo, allocutivo ( Cresti 1994).
L'identificazione di un livello specifico dell'organizzazione del parlato, ovvero l'articolazione informativa dell'enunciato, e la sua manifestazione tramite l'intonazione, hanno permesso di sviluppare una serie di ricerche morfosintattiche che fanno riferimento alle unità proprie del parlato(enunciato e unità d'informazione).
In tali ricerche si sostiene che la sintassi della reggenza non varca i limiti di strutturazione delle unità d'informazione (microsintassi), mentre le relazioni che intercorrono tra le espressioni che costituiscono le diverse unità d'informazione di un enunciato sono primariamente di tipo informativo, con implicazioni sulla modalità, sulle relazioni anaforiche e su particolari relazioni semantiche (macrosintassi) (A. Andersen 2002; Scarano 2003).

A partire da tale quadro teorico nel secondo anno della ricerca:
  1. saranno ampliate a corpora pubblici e più estesi alcune ricerche, già condotte sul Campionamento di LABLITA, sulle caratteristiche morfosintattiche, e i loro correlati intonativi, delle principali unità informative:
    • comment nominali
    • topic
    • incisi
    • appendici
    • introduttori locutivi
    • fatici
    • allocutivi
  2. saranno intraprese alcune ricerche di linguistica dei corpora, dedicate a:
    • le principali modalità di coordinazione (e; ma),
    • la subordinazione tramite che
    • le due principali modalità di negazione (non, no)
  3. saranno definite le misure standard di analisi del corpus consultabile:
    • Lunghezza media del turno in tempo, parole, unità diu informazione e enunciati
    • Lunghezza media dell'enunciato in tempo, parole, unità di informazione,
    • frammentazione media
  4. saranno pubblicati i risultati dei test di validazione sull'applicazione dei criteri di tagging prosodico adottati.
6. All'interno delle raccolte condotte da LABLITA di parlato di soggetti che presentano disturbi del linguaggio sarà selezionato un corpus di parlato di soggetti adolescenti con sindrome di autismo, sia in situazione di rapporto studente-insegnante di sostegno, sia in situazione di rapporto paziente-terapeuta. Si procederà alla masterizzazione del suono di tali sessioni, alla loro trascrizione secondo il formato CHAT, implementato per il tagging prosodico, e all'allineamento testo-suono per enunciato. Saranno analizzate in particolare le caratteristiche prosodiche delle produzioni (WinPitch Corpus ), e i loro correlati pragmatici. È previsto un confronto fra i comportamenti dei soggetti nelle diverse situazioni di raccolta.

Testo inglese
The specific contribution of the research unit to the project will regard four different actions:

  1. Development and maintenance of the opening section of the web site
  2. The definition of Criteria for data e metadata collection for corpus delivery on the net
  3. The publication of the metadata set for the collection of the LABLITA corpora
  4. Publication of a tagged corpus of spontaneous speech on the net
  5. Definition and validation of the reference units of spoken language in the interfaces between prosodic pragmatic and morpho-syntactic levels of linguistic annotation and related studies.
  6. Pragmatic and suprasegmental analysis of speech for subjects with language disorders
1. LABLITA is developing a multi-layer linguistic DB and makes use of various tools devoted to:
  • The analysis and synthesis of the speech signal and text to speech alignment(Win Pitch Corpus; Praat; GIPOS; Transcriber);
  • Morpho-syntactic tagging and automatic lemmatization (CLAN, P-tagger);
  • Tagging of multi-modal resources (ANVIL)
Standards for multi-layer annotation of speech are now under rapid development. LABLITA will deliver reports on its present tools and will contribute to the development and maintenance of the opening section of the portal with respect to formats, tools and metadata

2.1 A catalogue of Italian Spoken Language Corpora delivered on the net is an essential infrastructure to allow the access and the exploitation of the available spoken resources. The VIth framework program presently pushs toward the integration of national resources in the multilingual framework of the union. Therefore, the catalogue must follow the international standard that has been developed for the Representation of Knowledge in the LRs domain. This step is strongly recommended to allow the full appreciation and exploitation of the resources by the final users.
In the first year, LABLITA will deliver an overview of the main formats now on the market (see state of the art) and will develop a proposal in collaboration with the research unit in Naples which is in charge of the web site architecture. On this topic, a pre-conference workshop is foreseen at the University of Florence.
The starting hypothesis of the present research line is the development of the IMDI standard for the Italian speech resources. Such a standard is presently implemented within the INTERA project for the integration of catalogues at the European level. It must be remembered that tools for the application of standard are distributed free-share on the net and allow both the exploitation of metadata at the international level as well as direct access to the resources, in accordance with the rights holder's constraints.

2.2 The LABLITA format for dialogue representation is an implementation of the CHAT format bearing a core generalization on the mark-up of prosodic breaks. The textual format allows an easy and low-cost prosodic tagging for large corpora (cfr. C-ORAL-ROM) with respect to terminal and non-terminal prosodic breaks. Terminal breaks are in one-to-one correspondence withutterances while non terminal breaks do correspond to information units. LABLITA will deliver protocols and formats for dialogue representation for publication in the web site. The LABLITA format will be delivered in both TXT and XML version with a DTD and a conversion script from the TXT files.

3.LABLITA will deliver and will maintain on the net the IMDI catalogue of his own corpus (directly or through a link to its web site http://lablita.dit.unifi.it). More specifically, LABLITA will deliver the IMDI catalogue of the following resources with specification of the relevant access conditions:
  • Italian spontaneous speech corpus
  • Stammerjohann Corpus
  • Longitudinal corpora of first language acquisition
  • Movies Corpus
4.In the second year, LABLITA will give direct Internet access to a balanced sub corpus of its spoken language catalogue through the IMDI metadata format (Browsable corpus). Such sub-corpus foresees roughly 100 samples taken from different sessions for around15 hours of spontaneous speech recordings (between 100,000 and 200,000 words). The corpus design of the Browsable corpus will allow the scientific community to verify the consistency of the tagging criteria of the LABLITA format as well as protocols and their underlying theoretical hypothesis .
The corpus, directly accessible on the net through the IMDI browser, will be delivered in TXT textual format, while the acoustic source will be in Microsoft WMA format. A HTML version with links from the text to the acoustic source will be also provided.

The Browsable corpus will demonstrate: a) formal speech; b) informal speech; c) media production (within the citation limits), covering a huge proportion (more than 50% of the total) of Spontaneous Informal Speech (the LR with the highest added value).
Corpus variation will be the result of two main parameters:
  1. dialogical structure (monologues, dialogues, conversations with more then two participants);
  2. domain of use (family; private life, public life, media productions.)
Literature has frequently dealt with the significance of these parameters ( Labov,1966, Biber 1998, Berruto,1987, Gadet, 1996) which will constitute the semiological and sociological structuring of the corpus. They will be overtly associated with three Speaker parameters: Age, Education, and Occupation. The latter vary together in a transversal way with respect to the dialogical and sociological structure, thus showing the diaphasic and diastratic variations of language uses.

5. The contribution to this section of the project is dedicated to the discussion and validation of the tagging criteria adopted for intonation and its interface with pragmatics and syntax.
LABLITA runs research on the following levels of linguistic description:
  • Intonation
  • Syntax
  • Pragmatics
  • Lexicon
More specifically the theoretical and descriptive work to be accomplished at LABLITA is dedicated to the interface between prosody and the other levels of linguistic annotation.From the early '90s LABLITA developed corpus-based research following on a original hypothesis on such a relation (Cresti 1987)
While the referring unit of written language is the concept of clause or sentence, such a highly ranked referring unit above the word level syntax is underdetermined in spoken language (Cresti 2002; Cresti et alii 2002; Longman Grammar 1999; Miller& Weinert,1998). Given that prosody parses the acoustic continuum into utterances (Austin 1962), the relation between prosody and speech acts is crucial to the definition of the interface between the various linguistic levels of analysis in spontaneous spoken language (illocutive criterion Cresti 2000). The salience of the prosodic breaks, however, is relevant for both terminal and non-terminal ones (intonation patterm cf. 't Hart, Collier, Cohen, 1990).
The prosodic information permits the identification the action value of an utterance (illocutionary force) and moreover such information is bound to a specific tone unit (root ,'t Hart et alii). The root unit identifies the information unit which is necessary and sufficient to the accomplishment of an utterance (comment). All other tone units that may constitute the prosodic pattern of an utterance (prefix, suffix, inciso) have a one to one correspondence with a specific information unit. Such units are characterized by distinct informative functions (topic, appendix, allocutive, conative, fatic, incipit (Cresti 1994)
A series of research in the morpho-syntax of spoken language has been accomplished on the basis of the identification of the information level of linguistic representation. Such research has its starting point in the concepts of utterance and information units thus defined.
The major claim of the work in question is that syntactic dependency holds only within the limits of the information units (micro-syntax) while the syntactic relations between expressions in different information units of a given utterances are mainly informative (macro-syntax). Modal properties, anaphoric properties, semantic properties are effected by such distinctions. (A. Andersen 2002; Scarano 2003).
Starting from this theoretical framework, in the second year of the project, the following will be accomplished:
  1. a series of research on the major topics of the informative analysis (already realized on a small sampling corpus) will be extended to larger and public spoken language corpora nominal comments
    • topic
    • inidental
    • appendix
    • locitive introducers
    • fatics
    • allocutives
  2. research on spoken language corpora dedicated to the main types of:
    • co-ordination (e; ma)
    • dependent clause (che)
    • negation (no; non)
  3. Standard measurements for spoken corpora analysis will be delivered on the basis of the browsable corpus
    • Mid-length of the dialogic turn in terms of utterances, time, words, information units
    • Mid-length of utterances based on time, word, information units
    • Percentage of fragmentation (with respect to utterances and words)
  4. The validation tests on the prosodic tagging criteria will be published
6. LABLITA runs speech collections of subjects with language disorders. Within its archives it will be selectioned a spoken corpus of teen-agers with autism syndrome, both in student-teachers relation and in patient-psychotherapist relation. The sound masterization, the text transcription according to CHAT format, implemented for prosodic tagging, and the alignment text-sound (WinPitch Corpus) of that corpus will be done. Special attention will be given to the prosodic analysis of speech and to its correlations with pragmatics. The behaviours in different situations will be compared.

1.5 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano
Emanuela Cresti è professore straordinario all'Università di Firenze, dove insegna Grammatica italiana, fa parte del Collegio del Dottorato in Linguistica italiana, è referente della di Laurea specialistica "Informatica per le dispipline umanistiche"(24/s) e dirige il Laboratorio LABLITA del Dip. di Italianistica, dedicato alla formazione di risorse linguistiche orali e al loro sfruttamento nelle tecnologie del linguaggio.
E. Cresti ha collaborato con Laboratorio fonetico della Scuola Normale Superiore, con l'Accademia della Crusca ed è stata "Invited Professor" in varie università straniere (Lomonosov, Mosca; Ecole Pratique des Hautes Etudes, Paris; Romansk Institut, Copenaghen; State University, Helsinki). E' Co-chear della Società internazionale di Linguistoca e Filologia Italiana (SILFI).
Ha promosso raccolte di lingua italiana orale spontanea e ha costituito presso LABLITA uno dei più importanti archivi multimediali del parlato italiano (parlato adulto spontaneo, trasmesso, prima acquisizione dell'italiano)conforme ai principali standard internazionali. Ha diretto e coordinato ricerche nazionali ed internazionali e coordina nel programma IST del V Programma Quadro il progetto C-ORAL-ROM (IST2000-26228)per la formazione di un Corpus multimediale del parlato romanzo. Il principale interesse di ricerca è la teoria della grammatica ed in particolare la relazione tra atti linguistici e intonazione. Ha sviluppato un quadro teorico che identifica nell'enunciato segnalato intonativamente l'unità di riferimento della lingua parlata (Corpus di Italiano Parlato, Accademia della Crusca, 2000) e conduce ricerche in diversi domini del parlato (acquisizione del linguaggio, studi comparativi multilingui, modelli prosodici corpus based, corpus linguistics).

Testo inglese Emanuela Cresti is professor of Italian Grammar at the University of Florence, member of the PhD program in Italian Linguistics and is responsible for the Specialized course in Humanities and Computing. She is scientific director of the LABLITA Lab, which is dedicated to the collection of spoken language resources and to their exploitation in Human Language Technologies.
She worked in the Phonetic Laboratory of Scuola Normale Superiore, Pisa, collaborates with Accademia della Crusca and has been Invited Professor in many universities ( Lomonosov University, Mosca; Ecole Pratique des Hautes Etudes, Paris Romansk Institut, Copenaghen; Dipartimento di lingue romanze, State University, Helsinki) . She is Co-chear of the International Society of Italian linguistics and Philology (SILFI).
E. Cresti collected corpora of spontaneous spoken Italian. She runs national and European projects and is presently the Coordinator of the C-ORAL-ROM Project (IST2000-26228), which is devoted to the constitution in the V° Framework program of a multimedia archive of spontaneous speech for the main romance languages.
Her main interest bears on theory of grammar, more specifically on the relationship between speech acts and intonation. She developed a theoretical framework for the study of prosody that allows the identification, through prosodic cues, of the functional units of spoken language (E. Cresti, Corpus di Italiano Parlato, Accademia della Crusca, 2000) . Within such theoretical framework she developed linguistic studies in various domains (spoken language grammar, contrastive grammar, child language acquisition, prosodic modelling, corpus linguistics).

1.6 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca

  1. CRESTI E. (2003). Modalité et illocution dans le topic et le comment In ANTONIETTA SCARANO Macro-syntaxe et pragmatique. L'analyse linguistique de l'oral. vol. 1 pp. 133-182 ISBN: 88-8319-842-5 ROMA: Bulzoni (ITALY)
  2. CRESTI E. (2003). La categoria della persona: analisi delle forme verbali di un campione di parlato. XXXV Congresso Internazionale di Studi della SLI. Il verbo italiano. Parigi, 20-22 settembre 2001. vol. 1 pp. 211-236
  3. CRESTI E.; MONEGLIA M.; BACELAR F.; SANDOVAL A.M.; VERONIS J.; MARTIN PH.; CHOUKRI; MAPELLI V.; FALAVIGNA D.; ANTONIO C. (2002). The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus LREC 2002. vol. 1 pp. 2-10 M. C. Rodriguez e C. Suarez Araujo (acd), ELRA,PARIS.
  4. CRESTI E. (2000). Corpus di italiano parlato vol. I-II vol. e CD-Rom pp. 282(Ivol) e 389 (II vol) ISBN: 88-87850-01-1 FIRENZE: Accademia della Crusca (ITALY)
  5. CRESTI E. (1999). Illocution et profils intonatifs de l'italien REVUE FRANÇAISE DE LINGUISTIQUE APPLIQUÉE. (vol. IV-2 pp. 77-98)

1.7 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.7.1 Personale universitario dell'Università sede dell'Unità di Ricerca
Personale docente
Cognome Nome Dipartimento Qualifica Settore Disc. Mesi Uomo
  1° anno 2° anno
1. CRESTI Emanuela Dip. ITALIANISTICA Prof. Ordinario L-FIL-LET/12 6 6
2. NICOLAS MARTINEZ Maria Carlota Dip. LINGUE E LETTERATURE NEOLATINE Ricercatore Universitario L-LIN/07 4 4
  TOTALE   10 10
Altro personale
Nessuno

1.7.3 Titolari di assegni di ricerca
Cognome Nome Dipartimento Data di inizio del contratto Durata (in anni) Mesi Uomo
  1° anno 2° anno
1. AURELI Massimo Dip. ITALIANISTICA 01/11/2003   2  
2. FABBRI Marco Dip. ITALIANISTICA 01/07/2003   2  
3. SCARANO Antonietta Dip. ITALIANISTICA 01/11/2003   2  
  TOTALE   6 0

1.7.4 Titolari di borse
Cognome Nome Dipartimento Anno di inizio borsa Durata (in anni) Tipologia Mesi Uomo
  1° anno 2° anno
1. Giani Daniela Dip. LINGUISTICA 2000 3 Dottorato 1  
2. Tucci Ida Dip. LINGUISTICA 2004 3 Dottorato 2 2
  TOTALE   3 2

1.7.6 Personale extrauniversitario indipendente o dipendente da altri Enti
Cognome Nome Nome dell'ente Qualifica Mesi Uomo
  1° anno 2° anno
1. Gramigni Paola Istituto Tecnico Commerciale "Capitini" - Agliana Docente 1 1
2. Gatti Gabriella Ospedale di Siena Medico 1 1
  TOTALE   2 2
Creato da admin
Ultima modifica 15 September 2011, 14:16
 
 


Sviluppato con Plone

Questo sito è conforme ai seguenti standard: