PRIN 2004 - PARLARE ITALIANO
DIPARTIMENTO PER L'UNIVERSITÀ, L'ALTA FORMAZIONE ARTISTICA, MUSICALE E COREUTICA E PER LA RICERCA SCIENTIFICA E TECNOLOGICA PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIONALE RICHIESTA DI COFINANZIAMENTO (DM n. 30 del 12 febbraio 2004)
Anno 2004 - prot. 2004101719_010
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca
Testo italiano
Criteri di archiviazione di dati e metadati dei
corpora di parlato italiani per la consultazione in
rete; Definizione e validazione delle unità di
riferimento del parlato nell'interfaccia
itonazione/sintassi/ pragmatica; Pubblicazione in
rete di un corpus annotato di parlato spontaneo.
Analisi pragmatica e soprasegmentale del parlato di
soggetti con patologie linguistiche.
Testo inglese
Data and meta-data formats for speech resources on
the net. Definition and validation of the reference
units of spoken language in the interface betwee
prosodic and pragmatic and morpho-syntactic levels of
linguistic information. Publication on the net of a
tagged corpus of spontaneous speech. Pragmatic and
suprasegmental analysis of speech for subjects with
language disorders.
2.2 Settori scientifico-disciplinari interessati dal Programma di Ricerca
L-FIL-LET/12 - Linguistica italiana
L-LIN/01 - Glottologia e linguistica
L-LIN/02 - Didattica delle lingue moderne
MED/25 - Psichiatria
2.3 Parole chiave
Testo italiano RISORSE LINGUISTICHE ; CATALOGHI ; META-DATI ; FORMATI MULTIMEDIALI ; NTONAZIONE ; MORFOSINTASSI ; ATTI LINGUISTICI ; ETICHETTE ; PATOLOGIA DEL LINGUAGGIO
Testo inglese LANGUAGE RESOURCES ; CATALOGUES ; META-DATA ; MULTIMEDIA FORMATS ; INTONATION ; MORPHOSYNTAX ; SPEECH ACTS ; TAGS ; LANGUAGE DISORDERS
1.3 Coordinatore Scientifico del Programma di Ricerca
VOGHERA MARIA voghera@unisa.it
L-LIN/01 - Glottologia e linguistica
Università degli Studi di SALERNO
Facoltà di LINGUE e LETTERATURE STRANIERE
Dipartimento di STUDI LINGUISTICI E
LETTERARI
1.4 Responsabile Scientifico dell'Unità di Ricerca
CRESTI EMANUELA
Professore Ordinario 07/03/1944 CRSMNL44C47D612K
L-FIL-LET/12 - Linguistica italiana
Università degli Studi di FIRENZE
Facoltà di LETTERE e FILOSOFIA
Dipartimento di ITALIANISTICA
(Prefisso e telefono) 055/5032486 (Numero
fax) 055/5032476 (Email) elicresti@unifi.it
2.4 Base di partenza scientifica nazionale o internazionale
Testo italiano
La costituzione di basi di dati di parlato spontaneo
è un compito complesso che comprende:
- la rappresentazione di tutti i livelli dell'informazione linguistica;
- la formazione di risorse riutilizzabili in formati standard a livello testuale e acustico.
- aumentare la dimensione delle risorse italiane e dare maggiore accesso alle risorse esistenti;
- sviluppare una notazione standard per la rappresentazione dei dati del parlato spontaneo per consentire una comparazione tra risorse diverse
Il processo di standardizzazione riguarda sia istanze di accessibilità che di rappresentazione. I principali formati per la rappresentazione testuale del parlato sono i seguenti:
- Codes for the human analysis of transcripts (CHAT), che è il formato useto per il Progetto CHILDES (Child Language Data Exchange System; MacWhinney, 1991);
- Text Encoding Initiative (TEI), che è un progetto internazionale per lo sviluppo di linee guida per la preparazione e lo scambio di testi elettronici.
L'uso di descrizioni standard per i meta-dati permette la creazione di un universo di tali risorse recuperabili in Internet. Per questo motivo descrizioni standard della struttura del catalogo e della struttura dei meta-dati sono essenziali. Tali strutture sono state oggetto di una standardizzazione de facto da parte della principale associazione europea per la raccolta di grandi corpora (European Language Resources Association, ELRA) e di quella degli Stati Uniti (Linguistic Data Consortium, LDC). Il catalogo di ELRA annovera corpora di parlato, di scritto e di terminologia. Il Consorzio LDC raccoglie risorse linguistiche in campo educativo, di ricerca e sviluppo tecnologico, e promuove la creazione e lo scambio di risorse, dati, strumenti, e standard.
Riferimenti importanti per la descrizione dei meta-dati derivano anche da iniziative nel campo dell'eredità culturale e degli standard multimediali: il Dublin Core Meta Data Initiative (DC), e il Multimedia Content Description Interface (MPEG-7). Deve essere sottolineato in ogni caso che l'iniziativa specifica per le risorse di parlato viene da progetti europei, dove è stato sviluppato il concetto di Browsable Corpus (BC), introdotto dal Max Planck Institute for Psycholinguistics (MPI), per l'accesso ai corpora in rete (Broeder, et alii).
Tale concezione è stata sviluppata nella ISLE Meta Data Initiative (IMDI) come standard per i meta-dati delle risorse parlate a carattere multimediale e multimodale.
E'necessario poi fornire una rappresentazione standard del dialogo e una struttura dati dei vari livelli linguistici sia per la ricerca empirica che per la validazione delle tecnologie del linguaggio: parser, tagger, database testuali, riconoscitori e sintesi.
L'Expert Advisory Group on Language Engineering Standards (EAGLES) è un Progetto pilota EU che ha avuto un largo impatto con la proposta di standard e raccomandazioni per le risorse linguistiche, per i linguaggi di etichettatura e gli strumenti. Le raccomandazioni di EAGLES sono attualmente uno dei principali punti di riferimento per l'annotazione dei corpora e sono state impiegate in molti settori: Corpus Encoding Standard (CES), per ricerche corpus-based nell'ingegneria del linguaggio, e nel Progetto ISLE (International Standards for Language Engineering), che ugualmente ha sviluppato linee guida per le LRs, per strumenti e prodotti come quelli già menzionati per I Metadati.
Il principale punto di riferimento per I lavori recenti sugli strumenti dedicati all'annotazione linguistica è il Progetto Multilevel Annotation, Tools Engineering (MATE). MATE ha trattato i corpora di dialoghi a livelli multipli: prosodia, morfosintassi, coreferenza, atti di dialogo, e interazioni tra i livelli.
Dal punto di vista dell'annotazione il parlato mostra proprietà specifiche e un ruolo centrale è giocato dal livello prosodico. Le risorse di lingua scritta sono analizzate in frasi, ma nel parlato spontaneo l'informazione sintattica è sottodeterminata (Cresti et alii. 2002; Longman Grammar 1999; Miller& Weinert,1998). Al contrario il continuum fonico è scandito dall'intonazione in enunciati, che veicolano atti linguistici (Austin, 1962). La relazione tra prosodia e atti linguistici, quindi, è cruciale nella definizione dell'interfaccia tra i vari livelli della notazione linguistica. Nella ricerca in oggetto viene assunto in particolare che l'intonazione è il livello linguistico che assicura la partizione del continuum fonico in unità di riferimento rilevanti (enunciati).A loro volta gli enunciati sono sistematicamente scanditi da unità tonali, la cui tipologia è discriminata percettivamente (intonation pattern, cf. Hart, Collier, Cohen, 1990). Gli enunciati sono sempre conclusi tramite un profilo intonativo di tipo terminale (Karcevsky, 1931, Crystal, 1975). Considerando tali proprietà è stato sviluppato un criterio operativo per l'analisi dello spontaneo. E' possibile infatti identificate un limite di enunciato quando per un verso viene riconosciuto percettivamente il compimento di un programma prosodico e d'altro canto quando le stesse parole, così intonate, consentono l'interpretabilità pragmatica, ovvero il compimento di un atto linguistico (criterio illocutivo; Cresti 2000). Ma la salienza dei confini prosodici è rilevante sia per quanto concerne i confini terminali sia per I confini non terminali.All'interno delle unità tonali che possono scandire un enunciato, l'informazione prosodica che consente di identificare l'illocuzione è veicolata solo da una unità specifica (unità root ,'t Hart et alii; Martin 1978), che Cresti chiama comment (Cresti 1994). Il principio è confermato nell' approccio macrosintattico secondo il quale il noyau sintattico coincide con l'unità tonale che porta la modalità (Blanche-Benveniste, 1996). Dal momento che le unità tonali veicolano informazione funzionale, la demarcazione degli enunciati, in una corrispondenza biunivoca con i confini prosodici terminali, e la scansione prosodica risultano essere la notazione primaria del parlato. Il principio della relazione sistematica tra unità tonali e unità d'informazione ( articolazione informativa, Cresti 1994) è stato verificato sui corpora di LABLITA e C-ORAL-ROM (Cresti - Moneglia in stampa; Moneglia in stampa; Moneglia-Panunzi-Picchi in stampa; Cresti et alii in stampa; Danieli-Garrido-Moneglia-Panizza-Quazza-Swerts in stampa; Moneglia-Scarano-Spinu, preprints LABLITA) e in molti lavori empirici (Cresti 2000). Tale sistema di analisi della lingua può essere applicato anche per lo studio del linguaggio patologico con particolare riferimento alle produzioni orali di soggetti con patologia autistica e sindromi schizofreniche.
Testo inglese
The setting up of Spontaneous Speech databases is a
complex task. It is essential to:
- represent all levels of linguistic information
- make the speech resources available in standard formats both at a textual level as well as at the acoustic level.
- increase the size of the Italian resources and the access possibilities to existing resources;
- develop standard notation for the representation of spontaneous speech data to allow comparison among such resources.
The standardization process is concerned with both the accessibility issue and the representation issue. The following are the main initiatives in the field of spontaneous speech text-representation format:
Codes for the human analysis of transcripts (CHAT) is the format used for the CHILDES (Child Language Data Exchange System) project(MacWhinney, 1991).
Text Encoding Initiative (TEI) is an international project to develop guidelines for the preparation and interchange of electronic texts. Such traditional frames, that have been recently provided with an XML entry, have an integrated approach to the full set of problems of spoken resources: metadata representation (text headers in both systems) dialogue structure and text encoding. However, such levels must be considered as separate issues.
The standard structure of catalogue descriptions and the structure of meta-data descriptions are essential. Using Standard in meta-data description it will become possible to create a browsable and searchable universe of such resources in the Internet.
Metadata structure has been the object of de facto standardization by the main association for corpora collection in Europe (ELRA) and in the US (LDC) in their catalogues. The ELRA (European Language Resources Association) catalog includes a wide range of corpora including speech corpora,written corpora and terminology corpora . The Linguistic Data Consortium (LDC) supports language-related education, research and technology development by creating and sharing linguistic resources: data, tools and standards.
Important reference with respect to Metadata descriptions come also from very general initiatives in the field of cultural heritage and multimedia standards: The Dublin Core MetaData Initiative (DC) The Multimedia Content Description Interface (MPEG-7) that aims to create a standard for the description of the multimedia content data.
It must be stressed however that the proposal which address spoken language resources specifically has been delivered in EU projects through the concept of Browsable Corpus(BC) introduced at the Max Planck Institute for Psycholinguistics (MPI) to make resource discovery easier by defining meta-descriptions for language resources (Broeder, et alii ).
Such an idea has been developed in the ISLE Meta Data Initiative (IMDI) as a standard of meta-data descriptions of Multi-Media/Multi-Modal Language resources.
The representation of dialogue and the multimedia structure of the linguistic information of spontaneous speech is needed in order to provide a good basis for empirical investigation and to allow the validation of language technologies; that is parsers, taggers, textual databases, speech recognition and speech synthesis tools.
The Expert Advisory Group on Language Engineering Standards (EAGLES) is a pilot EU project that has had an important impact in this sector by providing standards and recommendations for language resources; computational linguistic formalisms, mark up languages and tools. The EAGLE guidelines are at present one of the main sources of recommendations for the annotation of corpora and they have been reused in many domains, e.g. in the Corpus Encoding Standard (CES) for corpus-based work in the language engineering community and in the ISLE project (International Standards for Language Engineering) that also developed guidelines for language resources, tools and products such as the already mentioned Metadata structure.
The main background reference for current trends of tools devoted to linguistic annotation is the Multilevel Annotation, Tools Engineering project (MATE). MATE treated spoken dialogue corpora at multiple levels, focusing on prosody, morpho-syntax, co-reference, dialogue acts, and communicative difficulties, as well as inter-level interaction
From the point of view of the annotation, the spoken domain shows specific structural properties and a specific role is played by the prosodic level. Textual written resources are parsed in clauses. In Spontaneous Speech the syntactic information is underdetermined (Cresti et alii. 2002; Longman Grammar 1999; Miller& Weinert,1998) while the speech-flow is divided by intonation into utterances, which bring about speech acts (Austin, 1962). The relation between prosody and speech acts turns out to be crucial in the definition of the interface between its various levels of linguistic annotation of spontaneous speech. It is assumed here that prosody is the linguistic level of information that ensures the segmentation of the speech flow in relevant reference units.
Utterances are systematically parsed in groups of tone units, the type of which is discriminated at a perceptive level (intonation pattern, cf. Hart, Collier, Cohen, 1990). Utterances always end up with a profile of terminal intonation (Karcevsky, 1931, Crystal, 1975). By considering such prosodic properties, a meaningful operational criterion for the analysis of Spontaneous Speech, has been obtained. It is possible to identify the utterance limit when on the one hand the completion of a prosodic program is perceived and on the other when the words, thus parsed, simultaneously allow their pragmatic interpretability, that is a completion of a speech act (illocutionary criterion; Cresti, 2000).
The relevance of prosodic boundaries, regards both terminal and non-terminal breaks.
Within the possible tone units of an utterance, the prosodic information which enables one to identify the illocution, of the utterance lies in a specific unit (root unit in 't Hart 1990; Martin, 1978; Comment for Cresti, 1994). Such a principle is crucially confirmed in the macro-syntactic approach for which the syntactic noyau coincides with the tone unit bearing the modal value of the utterance(Blanche-Benveniste,1996;). The relevance of prosodic boundaries regards both terminal and non-terminal breaks in the utterance.
Given that prosodic units convey functional information, the demarcation of the utterances in a one to one correspondence with terminal prosodic breaks and the prosodic parsing of the utterance itself through non-terminal breaks provides the main information for speech labeling. Such a principle has been verified in many works on corpora, LABLITA; C-ORAL-ROM (Cresti - Moneglia in stampa; Moneglia forthcoming; Moneglia-Panunzi-Picchi forthcoming; Cresti et alii forthcoming; Danieli-Garrido-Moneglia-Panizza-Quazza-Swerts forthcoming; Moneglia-Scarano-Spinu, preprints LABLITA) and on the relation between tone units and information units (Informational patterning, Cresti 2000)
This theoretic frame can be applied also to the study of language disorders and it results especially significant for patient with autistic syndrome.
2.4.a Riferimenti bibliografici
CES http://www.cs.vassar.edu/CES/
CHAT http://childes.psy.cmu.edu/
C-ORAL-ROM http://lablita.dit.unifi.it/app/coralrom
DC http://purl.oclc.org/dc/
EAGLE http://www.ilc.pi.cnr.it/EAGLES/
ELRA http://www.icp.grenet.fr/ELRA/catalog.html
ICE-BG
http://www.ucl.ac.uk/english-usage/ice-gb/index.htm
IMDI http://www.mpi.nl/ISLE/index.html
ISLE
http://lingue.ilc.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm
LDC http://morph.ldc.upenn.edu/Catalog/by_type.html
LIR
http://www.accademiadellacrusca.it/progetti/progetto_singolo.php?id=2570&ctg_id=27
MATE http://mate.nis.sdu.dk/
MPEG-7
http://mpeg.telecomitalialab.com/working_documents.htm
SpokenDuchCorpus http://lands.let.kun.nl/cgn/ehome.htm
TEI http://www.tei-c.org/
Andersen A.L. - Nolke H. (eds) (2002), Macro-Syntaxe
et Macro-Semantique, Peter Lang, Berne.
Austin L.J. (1962), How to do things with words,
Oxford University Press, Oxford.
Bally C. (1950), Linguistique générale
et linguistique française, Francke Verlag,
Berne.
Berruto G. (1987), Sociolinguistica dell'italiano
contemporaneo, NIS, Firenze.
Biber D. (1988),Variation across speech and writing,
Cambridge University Press, Cambridge.
Biber D., et alii (eds) (1999), The Longman grammar
of spoken and written english, London, Longman.
Biber D. et alii (eds) (1998), Corpus linguistics:
investigating language structure and use, Cambridge,
CUP.
Broeder D.G., Brugman H., Russel A.- Wittenburg P.
(2000), A Browsable Corpus: accessing linguistic
resources the easy way. LREC 2000 Workshop,
Athens.
Blanche-Benveniste C. et alii (1990), Le
français parlé. Etudes grammaticales,
Editions du CNRS, Paris.
Blanche-Benveniste C. (1997), Approches de la langue
parlée Français, Ophrys, Paris.
Cresti E. (1987) L'articolazione dell'informazione
nel parlato, in AA.VV. Gli italiani parlati,
Accademia della Crusca, Firenze, pp. 27-90.
Cresti E. (1994), Information and intonational
patterning in Italian, in B. Ferguson et alii (eds),
Accent, intonation, et modéles phonologiques,
Editions Mélodie, Toronto.
Cresti E. (2000), Corpus di italiano parlato,vol. I-
II, Accademia della Crusca, Firenze.
Cresti E.(2001) Per una nuova definizione di frase,
in P. Bongrani - A. Dardi - M. Fanfani - A. Tesi (a
c. d), Ricerche di storia della lingua italiana in
onore di Ghino Ghinassi, Le Lettere, Firenze, pp.
511-550
Cresti E. (2003), "Modalité et illocution dans
le topic et le comment", in A. Scarano (a c. di)
Macro-syntaxe et pragmatique. L'analyse linguistique
de l'oral, Roma, Bulzoni, pp. 133-182.
Cresti E. (2003) "La categoria della persona: analisi
delle forme verbali di un campione di parlato", in M.
Giacomo-Marcellesi e A. Rocchetti, Atti del XXXV SLI.
Il verbo italiano, Roma, Bulzoni, pp. 211-236.
Cresti E. et alii (in stampa) "The C-ORAL-ROM corpus.
A multilingual resource of spontaneous speech for
Romance languages, in Proceeding 4th LREC,
Lisbona.
Cresti E. - Moneglia M. et alii (2002),The C-ORAL-ROM
Project. New methods for spoken language archives in
a multilingual romance corpus,in M. C. Rodriguez e C.
Suarez Araujo (a c. d), Proceedings of III°
International Conference on Language resources and
evaluation (LREC 2002, Las Palmas), ELRA, Paris, pp.
2-10.
Cresti E. - Moneglia M. (a c. di) (in stampa),
C-ORAL-ROM. Integrated reference corpora for spoken
romance languages, vol. 1+ DVD, Benjamins,
Amsterdam.
Crystal D. (1975), The English tone of voice, Edward
Arnold, London.
Danieli M. - Garrido J. M. - Moneglia M. - Panizza A.
- Guazza, S. -Swerts M. (in stampa), "Evaluation of
consensus on the annotation of prosodic breaks in the
Romance corpus of spontaneous speech "C-ORAL-ROM", in
Proceeding 4th LREC, Lisbona.
De Mauro et alii (1993) Lessico di frequenza
dell'italiano parlato, Etass Milano
Gadet F. (1996), Variabilité, variation,
varieté: le Français d'Europe, in
French Language Studies, 6.
Gibbon D. Moore R, Winski R. (eds.) (1997), The
handbook of Standards and Resources for Spoken
language Systems, Mouton de Gruyter, Berlin.
Halliday M.A.K. (1972), System and function in
language, La Haye, Mouton.
't Hart J., Collier R., Cohen A. (1990), A perceptual
study on intonation. An experimental approach to
speech melody, Cambridge University Press,
Cambridge.
Karcevsky S. (1931), Sur la phonologie de la phrase,
in Travaux du Cercle linguistique de Prague, IV.
Labov W. (1966), The social stratification of English
in New York City, Washington D.C.
MacWhinney B. (1995), The CHILDES project: tools for
analyzing talk, Lawrence Erlbaum Associates,
Hillsdale, New Jersey.
Martin Ph. (1978), Questions de phonosyntaxe et de
phonosémantique en Français, in
Linguisticae Investigationes, II, pp. 93-126.
Miller J. - Weinert R. (1999), Spontaneous Spoken
language, Clarendon Press, Oxford.
Moneglia M. (2000) Le corpus LABLITA, in M. Bilger
(ed.) Corpus. Méthodologie et aplications
linguistique Champion, Paris, pp. 49-57.
Moneglia M. - Cresti E. (2001) "The value of prosody
in the transition to complex utterances: data and
theoretical implications from the acquisition of
Italian", Proceedings of the IASCL Congress, S.
Sebastian, pp. 261-263.
Moneglia M. - Cresti E. (1997), "Intonazione e
criteri di trascrizione del parlato", in U. Bortolini
- E. Pizzuto Il progetto CHILDES Italia, Pisa, Del
Cerro, pp. 57-90.
Moneglia M. (in stampa), "Measurements of spoken
language variability in a multilingual corpus.
Predictable aspects", in Proceeding 4th LREC,
Lisbona.
Moneglia M. - Scarano A. - Spinu M. (2002),
"Validation by expert transcribers of the C-ORAL-ROM
prosodic tagging criteria on Italian, Spanish and
Portuguese corpora of spontaneous speech", in
Preprints LABLITA 2003,
http://lablita.dit.unifi.it/coralrom/papers.
Moneglia M. - Panunzi A. - Picchi E. (in stampa),
"Using PiTagger for Lemmatization and PoS tagging of
a spontaneous speech corpus: C-ORAL-ROM Italian", in
Proceeding 4th LREC, Lisbona.
Scarano A. (a c d)(2003), Macrosyntaxe et
pragmatique: l'analyse de la langue orale, Bulzoni,
Roma.
Sornicola R. (1981), Sul Parlato, Il Mulino,
Bologna.
Voghera M. (1992), Sintassi e intonazione
nell'italiano parlato, Il Mulino, Bologna.
2.5 Descrizione del programma e dei compiti dell'Unità di Ricerca
Testo italiano
Il Contributo dell'unità di ricerca alla
realizzazione e allo sviluppo del progetto si
articola su più linee di azione:
I anno:
- Sviluppo e mantenimento dell'apertura del sito
- La definizione dei criteri di archiviazione di dati e metadati dei corpora di parlato italiani per la consultazione in rete;
- La pubblicazione dei metadati dei corpora di LABLITA
II anno:
- La Pubblicazione in rete di un corpus annotato di parlato spontaneo;
- Definizione e validazione delle unità di riferimento del parlato nell'interfaccia intonazione/sintassi/pragmatica e studi linguistici connessi
- Analisi pragmatica e prosodica di produzioni orali di soggetti con patologie del linguaggio
1. LABLITA sviluppa sistemi interni di data base linguistici multilivello e usa attualmente vari tools finalizzati a:
- l'analisi e sintesi del segnale e allineamento testo suono (Win Pitch Corpus; Praat; GIPOS; Transcriber);
- il tagging morfosintattico e la lemmatizzazione automatica (CLAN, P-tagger);
- la notazione dell'informazione nei contenuti multimodali (ANVIL)
2.1 Il catalogo dei corpora italiani distribuito in rete è una infrastruttura essenziale per garantire l'accesso e lo sfruttamento di tali risorse. Data la tendenza attuale all'integrazione delle risorse linguistiche in cataloghi strutturati nell'ambito multilingue europeo, rappresentata tra l'altro nel VI° Programma Quadro dell'Unione, la realizzazione del formato elettronico del catalogo deve avvenire necessariamente in conformità agli standard internazionali di rappresentazione di tali conoscenze. Questo passo è fondamentale perché la diffusione in rete del catalogo garantisca il pieno apprezzamento delle specificità delle risorse da parte degli utenti finali.
Nel primo anno della ricerca Lablita fornirà un overview dei principali formati oggi disponibili (vedi base di partenza scientifica) e delle loro qualità e svilupperà una proposta di applicazione, anche in collaborazione con l'unità di ricerca di Napoli che progetta l'architettura del sito.
Su tale tema si prevede un "pre-conference workshop" presso l'Università di Firenze
L'ipotesi da cui parte l'azione in oggetto è lo sviluppo per le risorse italiane dello standard IMDI, che è specificamente dedicato ai metadati delle risorse orali ed è attualmente implementato nel progetto INTERA per l'integrazione dei cataloghi a livello europeo. I tools che garantiscono l'applicazione dello standard sono distribuiti liberamente in rete e permettono sia lo sfruttamento dei metadati nel più ampio dominio internazionale sia, crucialmente, quando consentito dai proprietari, l'accesso diretto alle risorse.
2.2. Il formato di rappresentazione del dialogo di LABLITA è una implementazione del formato CHAT a cui è aggiunta una generalizzazione fondamentale nelle modalità di marcamento dei breaks prosodici. Tale formato testuale è adatto all'etichettatura prosodica, sistematica e a basso costo, di grandi corpora (cfr. C-ORAL-ROM) e consente la divisione del parlato in unità di riferimento (enunciati) in corrispondenza biunivoca con i tag prosodici terminali e unità di informazione, in corrispondenza biunivoca con i breacks prosodici non terminali. Per quanto concerne i protocolli e I formati di rappresentazione del dialogo, LABLITA fornirà le specifiche del proprio formato per la loro pubblicazione nel sito.Il formato sarà fornito sia nella sua versione solo testo sia in versione XML in associazione alla DTD (con scripts di conversione dal formato TXT).
All'interno dei protocolli di analisi sarà fornito il tag set utilizzato nella base di dati di LABLITA per il tagging della struttura informativa dell'enunciato nell'interfaccia tra prosodia e valori informativi. Il tag set in questione sarà accompagnato dalle definizioni e dai criteri operativi i applicazione
3. LABLITA fornirà e manterrà il catalogo in IMDI dei propri corpora, direttamente o attraverso link al proprio sito (http://lablita.dit.unifi.it). In particolare fornirà il catalogo delle seguenti risorse, con specificazione delle modalità di accesso:
- Corpus dell'italiano parlato spontaneo;
- Corpus Stammerjohann
- Corpora longitudinali della prima acquisizione dell'italiano;
- Corpus della lingua Cinematografica;
4. Più specificamente nel secondo anno della ricerca, con link al sito di LABLITA, sarà dato libero accesso attraverso il formato IMDI ad un sottocorpus bilanciato delle risorse di parlato spontaneo di LABLITA (Corpus consultabile LABLITA). Tale corpus, prevedibilmente circa 100 campioni tratti da sessioni diverse per complessive 15 ore di parlato (tra le 100.000 e le 200.000 parole) sarà disegnato in modo tale da permettere la verifica dei criteri di notazione propri del formato LABLITA e delle ipotesi teoriche ad esso sottostanti.
Il corpus, consultabile in rete, sarà fornito in formato TXT con accesso alla sorgente acustica in formato Microsoft WMA e in formato html, con link dal testo alla sorgente acustica.
Il corpus Consultabile fornirà esempi di parlato italiano spontaneo: a) formale in contesto naturale; b) informale in contesto naturale; c) dei media (nei limiti consentiti dal diritto di citazione). Il corpus conterrà una proporzione di più del 50% di parlato informale (la risorsa con maggior val.ore aggiunto) . La variazione del corpus risulterà da due parametri principali:
- struttura del dialogo (monologhi, dialoghi, conversazioni con più di due partecipanti)
- dominio d'uso (famiglia; privato; vita pubblica; media)
5. Il contributo alla sezione è dedicato alla discussione alla validazione dei criteri di notazione e misura, in particolare per l'intonazione, la pragmatica e l'interfaccia tra sintassi e intonazione.
LABLITA conduce ricerche sui seguenti livelli di descrizione linguistica:
- Intonazione,
- Sintassi;
- Pragmatica;
- Lessico.
Mentre infatti la lingua scritta può eleggere come unità di riferimento superiore alla parola unità sintattiche come la frase o la clausola, nel parlato, e in particolare in quello spontaneo, l'informazione sintattica è sottodeterminata (Cresti 2002; Cresti et alii 2002; Longman Grammar 1999; Miller& Weinert,1998).
Dato che l'intonazione scandisce il continuum fonico in enunciati, che veicolano atti linguistici (Austin, 1962), la relazione tra prosodia e atti linguistici risulta cruciale nella definizione dell'interfaccia tra i vari livelli di analisi del parlato. (criterio illocutivo; Cresti 2000).
La salienza dei confini prosodici, d'altro canto, è rilevante sia per quanto concerne confini terminali che non terminali (intonation pattern, cf. 't Hart, Collier, Cohen, 1990).
L'informazione prosodica, quindi, consente di identificare l'illocuzione dell'enunciato che però è veicolata solo da una specifica unità tonale (root ,'t Hart et alii), che segnala la corrispondente unità d'informazione, necessaria e sufficiente a costituire enunciato, chiamata comment .
Le altre unità tonali (per esempio di tipo prefix, suffix, inciso, ecc..), che possono comporre il pattern intonativo con il quale è scandito un enunciato, hanno corrispondenza sistematica con unità d'informazione e sono caratterizzate da funzioni diverse: topic, appendice, inciso, introduttore locutivo, incipit, fatico, conativo, allocutivo ( Cresti 1994).
L'identificazione di un livello specifico dell'organizzazione del parlato, ovvero l'articolazione informativa dell'enunciato, e la sua manifestazione tramite l'intonazione, hanno permesso di sviluppare una serie di ricerche morfosintattiche che fanno riferimento alle unità proprie del parlato(enunciato e unità d'informazione).
In tali ricerche si sostiene che la sintassi della reggenza non varca i limiti di strutturazione delle unità d'informazione (microsintassi), mentre le relazioni che intercorrono tra le espressioni che costituiscono le diverse unità d'informazione di un enunciato sono primariamente di tipo informativo, con implicazioni sulla modalità, sulle relazioni anaforiche e su particolari relazioni semantiche (macrosintassi) (A. Andersen 2002; Scarano 2003).
A partire da tale quadro teorico nel secondo anno della ricerca:
-
saranno ampliate a corpora pubblici e più
estesi alcune ricerche, già condotte sul
Campionamento di LABLITA, sulle caratteristiche
morfosintattiche, e i loro correlati intonativi,
delle principali unità informative:
- comment nominali
- topic
- incisi
- appendici
- introduttori locutivi
- fatici
- allocutivi
-
saranno intraprese alcune ricerche di linguistica
dei corpora, dedicate a:
- le principali modalità di coordinazione (e; ma),
- la subordinazione tramite che
- le due principali modalità di negazione (non, no)
-
saranno definite le misure standard di analisi
del corpus consultabile:
- Lunghezza media del turno in tempo, parole, unità diu informazione e enunciati
- Lunghezza media dell'enunciato in tempo, parole, unità di informazione,
- frammentazione media
- saranno pubblicati i risultati dei test di validazione sull'applicazione dei criteri di tagging prosodico adottati.
Testo inglese
The specific contribution of the research unit to
the project will regard four different actions:
- Development and maintenance of the opening section of the web site
- The definition of Criteria for data e metadata collection for corpus delivery on the net
- The publication of the metadata set for the collection of the LABLITA corpora
- Publication of a tagged corpus of spontaneous speech on the net
- Definition and validation of the reference units of spoken language in the interfaces between prosodic pragmatic and morpho-syntactic levels of linguistic annotation and related studies.
- Pragmatic and suprasegmental analysis of speech for subjects with language disorders
- The analysis and synthesis of the speech signal and text to speech alignment(Win Pitch Corpus; Praat; GIPOS; Transcriber);
- Morpho-syntactic tagging and automatic lemmatization (CLAN, P-tagger);
- Tagging of multi-modal resources (ANVIL)
2.1 A catalogue of Italian Spoken Language Corpora delivered on the net is an essential infrastructure to allow the access and the exploitation of the available spoken resources. The VIth framework program presently pushs toward the integration of national resources in the multilingual framework of the union. Therefore, the catalogue must follow the international standard that has been developed for the Representation of Knowledge in the LRs domain. This step is strongly recommended to allow the full appreciation and exploitation of the resources by the final users.
In the first year, LABLITA will deliver an overview of the main formats now on the market (see state of the art) and will develop a proposal in collaboration with the research unit in Naples which is in charge of the web site architecture. On this topic, a pre-conference workshop is foreseen at the University of Florence.
The starting hypothesis of the present research line is the development of the IMDI standard for the Italian speech resources. Such a standard is presently implemented within the INTERA project for the integration of catalogues at the European level. It must be remembered that tools for the application of standard are distributed free-share on the net and allow both the exploitation of metadata at the international level as well as direct access to the resources, in accordance with the rights holder's constraints.
2.2 The LABLITA format for dialogue representation is an implementation of the CHAT format bearing a core generalization on the mark-up of prosodic breaks. The textual format allows an easy and low-cost prosodic tagging for large corpora (cfr. C-ORAL-ROM) with respect to terminal and non-terminal prosodic breaks. Terminal breaks are in one-to-one correspondence withutterances while non terminal breaks do correspond to information units. LABLITA will deliver protocols and formats for dialogue representation for publication in the web site. The LABLITA format will be delivered in both TXT and XML version with a DTD and a conversion script from the TXT files.
3.LABLITA will deliver and will maintain on the net the IMDI catalogue of his own corpus (directly or through a link to its web site http://lablita.dit.unifi.it). More specifically, LABLITA will deliver the IMDI catalogue of the following resources with specification of the relevant access conditions:
- Italian spontaneous speech corpus
- Stammerjohann Corpus
- Longitudinal corpora of first language acquisition
- Movies Corpus
The corpus, directly accessible on the net through the IMDI browser, will be delivered in TXT textual format, while the acoustic source will be in Microsoft WMA format. A HTML version with links from the text to the acoustic source will be also provided.
The Browsable corpus will demonstrate: a) formal speech; b) informal speech; c) media production (within the citation limits), covering a huge proportion (more than 50% of the total) of Spontaneous Informal Speech (the LR with the highest added value).
Corpus variation will be the result of two main parameters:
- dialogical structure (monologues, dialogues, conversations with more then two participants);
- domain of use (family; private life, public life, media productions.)
5. The contribution to this section of the project is dedicated to the discussion and validation of the tagging criteria adopted for intonation and its interface with pragmatics and syntax.
LABLITA runs research on the following levels of linguistic description:
- Intonation
- Syntax
- Pragmatics
- Lexicon
While the referring unit of written language is the concept of clause or sentence, such a highly ranked referring unit above the word level syntax is underdetermined in spoken language (Cresti 2002; Cresti et alii 2002; Longman Grammar 1999; Miller& Weinert,1998). Given that prosody parses the acoustic continuum into utterances (Austin 1962), the relation between prosody and speech acts is crucial to the definition of the interface between the various linguistic levels of analysis in spontaneous spoken language (illocutive criterion Cresti 2000). The salience of the prosodic breaks, however, is relevant for both terminal and non-terminal ones (intonation patterm cf. 't Hart, Collier, Cohen, 1990).
The prosodic information permits the identification the action value of an utterance (illocutionary force) and moreover such information is bound to a specific tone unit (root ,'t Hart et alii). The root unit identifies the information unit which is necessary and sufficient to the accomplishment of an utterance (comment). All other tone units that may constitute the prosodic pattern of an utterance (prefix, suffix, inciso) have a one to one correspondence with a specific information unit. Such units are characterized by distinct informative functions (topic, appendix, allocutive, conative, fatic, incipit (Cresti 1994)
A series of research in the morpho-syntax of spoken language has been accomplished on the basis of the identification of the information level of linguistic representation. Such research has its starting point in the concepts of utterance and information units thus defined.
The major claim of the work in question is that syntactic dependency holds only within the limits of the information units (micro-syntax) while the syntactic relations between expressions in different information units of a given utterances are mainly informative (macro-syntax). Modal properties, anaphoric properties, semantic properties are effected by such distinctions. (A. Andersen 2002; Scarano 2003).
Starting from this theoretical framework, in the second year of the project, the following will be accomplished:
-
a series of research on the major topics of the
informative analysis (already realized on a small
sampling corpus) will be extended to larger and
public spoken language corpora nominal comments
- topic
- inidental
- appendix
- locitive introducers
- fatics
- allocutives
-
research on spoken language corpora dedicated to
the main types of:
- co-ordination (e; ma)
- dependent clause (che)
- negation (no; non)
-
Standard measurements for spoken corpora analysis
will be delivered on the basis of the browsable
corpus
- Mid-length of the dialogic turn in terms of utterances, time, words, information units
- Mid-length of utterances based on time, word, information units
- Percentage of fragmentation (with respect to utterances and words)
- The validation tests on the prosodic tagging criteria will be published
1.5 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca
Testo italiano
Emanuela Cresti è professore straordinario
all'Università di Firenze, dove insegna
Grammatica italiana, fa parte del Collegio del
Dottorato in Linguistica italiana, è referente
della di Laurea specialistica "Informatica per le
dispipline umanistiche"(24/s) e dirige il Laboratorio
LABLITA del Dip. di Italianistica, dedicato alla
formazione di risorse linguistiche orali e al loro
sfruttamento nelle tecnologie del linguaggio.
E. Cresti ha collaborato con Laboratorio fonetico
della Scuola Normale Superiore, con l'Accademia della
Crusca ed è stata "Invited Professor" in varie
università straniere (Lomonosov, Mosca; Ecole
Pratique des Hautes Etudes, Paris; Romansk Institut,
Copenaghen; State University, Helsinki). E' Co-chear
della Società internazionale di Linguistoca e
Filologia Italiana (SILFI).
Ha promosso raccolte di lingua italiana orale
spontanea e ha costituito presso LABLITA uno dei
più importanti archivi multimediali del
parlato italiano (parlato adulto spontaneo,
trasmesso, prima acquisizione dell'italiano)conforme
ai principali standard internazionali. Ha diretto e
coordinato ricerche nazionali ed internazionali e
coordina nel programma IST del V Programma Quadro il
progetto C-ORAL-ROM (IST2000-26228)per la formazione
di un Corpus multimediale del parlato romanzo. Il
principale interesse di ricerca è la teoria
della grammatica ed in particolare la relazione tra
atti linguistici e intonazione. Ha sviluppato un
quadro teorico che identifica nell'enunciato
segnalato intonativamente l'unità di
riferimento della lingua parlata (Corpus di Italiano
Parlato, Accademia della Crusca, 2000) e conduce
ricerche in diversi domini del parlato (acquisizione
del linguaggio, studi comparativi multilingui,
modelli prosodici corpus based, corpus linguistics).
Testo inglese Emanuela Cresti is professor
of Italian Grammar at the University of Florence,
member of the PhD program in Italian Linguistics and
is responsible for the Specialized course in
Humanities and Computing. She is scientific director
of the LABLITA Lab, which is dedicated to the
collection of spoken language resources and to their
exploitation in Human Language Technologies.
She worked in the Phonetic Laboratory of Scuola
Normale Superiore, Pisa, collaborates with Accademia
della Crusca and has been Invited Professor in many
universities ( Lomonosov University, Mosca; Ecole
Pratique des Hautes Etudes, Paris Romansk Institut,
Copenaghen; Dipartimento di lingue romanze, State
University, Helsinki) . She is Co-chear of the
International Society of Italian linguistics and
Philology (SILFI).
E. Cresti collected corpora of spontaneous spoken
Italian. She runs national and European projects and
is presently the Coordinator of the C-ORAL-ROM
Project (IST2000-26228), which is devoted to the
constitution in the V° Framework program of a
multimedia archive of spontaneous speech for the main
romance languages.
Her main interest bears on theory of grammar, more
specifically on the relationship between speech acts
and intonation. She developed a theoretical framework
for the study of prosody that allows the
identification, through prosodic cues, of the
functional units of spoken language (E. Cresti,
Corpus di Italiano Parlato, Accademia della Crusca,
2000) . Within such theoretical framework she
developed linguistic studies in various domains
(spoken language grammar, contrastive grammar, child
language acquisition, prosodic modelling, corpus
linguistics).
1.6 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
- CRESTI E. (2003). Modalité et illocution dans le topic et le comment In ANTONIETTA SCARANO Macro-syntaxe et pragmatique. L'analyse linguistique de l'oral. vol. 1 pp. 133-182 ISBN: 88-8319-842-5 ROMA: Bulzoni (ITALY)
- CRESTI E. (2003). La categoria della persona: analisi delle forme verbali di un campione di parlato. XXXV Congresso Internazionale di Studi della SLI. Il verbo italiano. Parigi, 20-22 settembre 2001. vol. 1 pp. 211-236
- CRESTI E.; MONEGLIA M.; BACELAR F.; SANDOVAL A.M.; VERONIS J.; MARTIN PH.; CHOUKRI; MAPELLI V.; FALAVIGNA D.; ANTONIO C. (2002). The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus LREC 2002. vol. 1 pp. 2-10 M. C. Rodriguez e C. Suarez Araujo (acd), ELRA,PARIS.
- CRESTI E. (2000). Corpus di italiano parlato vol. I-II vol. e CD-Rom pp. 282(Ivol) e 389 (II vol) ISBN: 88-87850-01-1 FIRENZE: Accademia della Crusca (ITALY)
- CRESTI E. (1999). Illocution et profils intonatifs de l'italien REVUE FRANÇAISE DE LINGUISTIQUE APPLIQUÉE. (vol. IV-2 pp. 77-98)
1.7 Risorse umane impegnabili nel Programma dell'Unità di Ricerca
| 1.7.1 Personale universitario dell'Università sede dell'Unità di Ricerca | |||||||
|---|---|---|---|---|---|---|---|
| Personale docente | |||||||
| nº | Cognome | Nome | Dipartimento | Qualifica | Settore Disc. | Mesi Uomo | |
| 1° anno | 2° anno | ||||||
| 1. | CRESTI | Emanuela | Dip. ITALIANISTICA | Prof. Ordinario | L-FIL-LET/12 | 6 | 6 |
| 2. | NICOLAS MARTINEZ | Maria Carlota | Dip. LINGUE E LETTERATURE NEOLATINE | Ricercatore Universitario | L-LIN/07 | 4 | 4 |
| TOTALE | 10 | 10 | |||||
| Altro personale | |||||||
| Nessuno | |||||||
| 1.7.3 Titolari di assegni di ricerca | |||||||
|---|---|---|---|---|---|---|---|
| nº | Cognome | Nome | Dipartimento | Data di inizio del contratto | Durata (in anni) | Mesi Uomo | |
| 1° anno | 2° anno | ||||||
| 1. | AURELI | Massimo | Dip. ITALIANISTICA | 01/11/2003 | 2 | ||
| 2. | FABBRI | Marco | Dip. ITALIANISTICA | 01/07/2003 | 2 | ||
| 3. | SCARANO | Antonietta | Dip. ITALIANISTICA | 01/11/2003 | 2 | ||
| TOTALE | 6 | 0 | |||||
| 1.7.4 Titolari di borse | ||||||||
|---|---|---|---|---|---|---|---|---|
| nº | Cognome | Nome | Dipartimento | Anno di inizio borsa | Durata (in anni) | Tipologia | Mesi Uomo | |
| 1° anno | 2° anno | |||||||
| 1. | Giani | Daniela | Dip. LINGUISTICA | 2000 | 3 | Dottorato | 1 | |
| 2. | Tucci | Ida | Dip. LINGUISTICA | 2004 | 3 | Dottorato | 2 | 2 |
| TOTALE | 3 | 2 | ||||||
| 1.7.6 Personale extrauniversitario indipendente o dipendente da altri Enti | ||||||
|---|---|---|---|---|---|---|
| nº | Cognome | Nome | Nome dell'ente | Qualifica | Mesi Uomo | |
| 1° anno | 2° anno | |||||
| 1. | Gramigni | Paola | Istituto Tecnico Commerciale "Capitini" - Agliana | Docente | 1 | 1 |
| 2. | Gatti | Gabriella | Ospedale di Siena | Medico | 1 | 1 |
| TOTALE | 2 | 2 | ||||