Il Corpus Stammerjohann e il suo campionamento
Il corpus Stammerjohann (Stammerjohann, 1971) è una raccolta di parlato spontaneo realizzata a Firenze nel 1965 (con Rk 34, Philips su un nastro a quattro piste con la velocità di 4,75 cm/sec] con lo scopo dichiarato di registrare, più che esempi di varietà dialettali, "situazioni comunicative genuine" (per i riferimenti teorici del tempo si veda Heinz Zimmermann, Zu einer Typologie des spontanen Gesprächs). Le registrazioni sono state effettuate su un solo canale con microfono omnidirezionale.
Il corpus è pari a 30 sessioni registrate di varie lunghezze (da pochi minuti a 10 ore) per circa 41:15:34 ore di registrazione, delle quali circa 26 ore derivano da registrazioni di ambiente di una stessa situazione (conversazioni libere in un salone di barbiere).
Il corpus era stato trascritto dall’autore solo per piccoli campioni (Stammerjohann, 1971) e non era fino ad ora disponibile né per l'informazione acustica né, se si escludono i campioni pubblicati nell'articolo citato, per l'informazione testuale.
Il corpus è stato donato a Emanuela Cresti perché fosse archiviato a LABLITA e poi diffuso nella comunità scientifica. Il recupero è stato realizzato all’interno della Ricerca FIRB (2001-2005) "Archivi dell'italiano orale in diacronia" (Signorini e Tucci 2003)
Il Corpus è stato trasferito in digitale nel 2001, curando più possibile la qualità del riversamento. Non essendo più disponibile l’apparato originale di registrazione, in linea di principio premessa alla massima fedeltà di riproduzione (De Dominicis et al. 2005), il corpus e’ stato riversato due volte, utilizzando strumenti d’epoca diversi, che prevedevano però entrambi la bassa velocità originariamente scelta per motivi pratici dall’autore. In altre parole non è stata utilizzata alcuna riduzione digitale della velocità, sostanzialmente per evitare l’impoverimento del segnale acustico originale e la conseguente deformazione delle formanti.
In particolare un primo passaggio delle bobine è stato realizzato con registratore GRUNDING 4 piste del 1971 (in file formato WAV PCM 11.025 Hz a 16 bit). I file trattati nel corpus qui pubblicato appartengono a questo primo riversamento.
Un secondo passaggio, archiviato in laboratorio per verifiche e confronti, è stato realizzato con registratore 4 piste Philips N4308/82 (in file WAV PCM 22.050 Hz a 16 bit).
Nonostante fossero passati 35 anni dall’incisione dei nastri, non sono da segnalare significative porzioni non conservate. La qualità acustica del materiale è dunque paragonabile a qualsiasi registrazione analogica con microfono omnidirezionale e ha i limiti propri delle registrazioni di ambiente (rumori di fondo, ritorno, sovrapposizioni tra voci, voci con diversa ampiezza del segnale, porzioni non comprensibili).
Le 30 sessioni sono state classificate secondo i parametri di variazione del parlato adottati per la strutturazione del corpus LABLITA e del corpus C-ORAL-ROM.
- Variazione diamesica
- Sessioni divise per canale: broadcasting, telefono, parlato naturale
- Variazione diafasica
- Sessioni del parlato naturale divise gerarchicamente
- per contesto sociale: privato, familiare, pubblico;
- per qualità dell’interazione: libero, regolato;
- per struttura dell’evento comunicativo: monologo, dialogo, conversazione;
- Sessioni del parlato naturale divise gerarchicamente
Una delle caratteristiche del corpus Stammerjohann è che molte delle sessioni originali (18 su 30) sono registrazioni di ambiente, che costituiscono la gran parte delle 41 ore di registrazione. Il microfono era collocato nel luogo prescelto, in situazione familiare, di lavoro o pubblica, i parlanti sapevano di essere registrati, ma la registrazione non corrispondeva ad un evento comunicativo preciso, bensì ad un continuum di eventi diversi che si realizzavano nelle coordinate spazio-temporali raggiunte dal microfono.
Date queste caratteristiche, la trascrizione di tali registrazioni, ricche di rumore, di sovrapposizioni, con incerta attribuzione dei turni ai parlanti e con diversa risposta microfonica, aveva comportato all’autore difficoltà insormontabili per la trascrizione. L’autore si era orientato quindi a realizzare registrazioni anche in contesti meno dispersivi e quindi più facilmente oggetto di trascrizione e osservazione linguistica. Le rimanenti 12 sessioni corrispondono quindi a eventi ben identificati: 4 sono registrazioni radiofoniche, 2 telefonate, e 6 interviste di Stammerjohann o più spesso di suoi amici fiorentini a personaggi tipici della vita della città (artigiano, giardiniere, portiere, professore, bidello, bambino), e sono questi i testi già parzialmente trascritti da Stammerjohann.
In questo recupero, grazie alla possibilità di ascolto selettivo offerto dalla tecnologia digitale, e anche grazie alla ulteriore possibilità di rallentare il flusso di parlato per via di sintesi PSOLA (disponibile con Win Pitch Corpus, vedi oltre), le sessioni di ambiente sono state invece trattate e trascritte, sebbene non integralmente, ma per campioni.
Solo due sessioni di registrazione (marcate in rosso nella tavola seguente) non risultano comprensibili all’ascolto neppure con i mezzi già menzionati, e sono state quindi escluse dal campionamento.
La scelta di campionare il corpus non dipende però solo da ragioni pratiche. Perché la raccolta potesse essere il più possibile rappresentativa dell’universo da essa documentato [Cresti et al. 2002], e inoltre comparabile con altre raccolte, il corpus doveva essere composto da campioni le cui caratteristiche fossero definite a livello quantitativo e qualitativo in modo analogo ai campioni delle risorse con le quali il corpus Stammerjohann doveva essere comparato.
Si è così scelto per ogni sessione un campione del continuum che fosse il più possibile omogeneo, ovvero che potesse rappresentare in modo sufficiente una istanza di un evento comunicativo nell’universo "lingua parlata".
Questo ha corrisposto ad un lavoro particolarmente significativo nel caso delle registrazioni di ambiente, lavoro in tutto simile a quanto previsto per la realizzazione dell'Israeli Corpus (CoSI).
A tal fine sono stati adottati in particolare tre criteri di campionamento:
- segmentazione del continuum in una unità testualmente coerenti, ovvero scelta in ogni sessione di campioni che: 1) manifestano sufficiente percepibilità del segnale, 2) condividono gli stessi metadati e gli stessi parlanti; 3) hanno sufficiente uniformità tematica; 4) non manifestano interruzioni significative nel flusso
- lunghezza del campione selezionato in unità informative (campioni tra le 1500 e le 4500 parole, secondo il criterio C-ORAL-ROM)
- qualità acustica sufficiente all’analisi dell'F0 nella maggior parte del tracciato, e/o minor numero di sovrapposizioni
I campi “Situation”, “Topic”, e la classificazione della sessione nella struttura, riportati nei metadati di ogni campione, specificano nell’insieme i suoi tratti testuali caratteristici.
Per es. il campione di una sessione del “Barbiere di via Faenza” è identificato come: parlato in situazione naturale, pubblica, non regolata, conversazione, chiacchiere in un negozio di barbiere; registrazione palese con ricercatore non presente; topic: calcio e altri argomenti.
Le circa 26 ore divise in 5 diverse sessioni di registrazione, appartenenti alla macrosituazione “Barbiere di via Faenza”, sono state campionate senza considerazione per il criterio che tendeva ad escludere le parti eccessivamente sovrapposte, in quanto la sovrapposizione continua è un tratto costante di tali situazioni.
Il Corpus Stammerjohann si configura come un campione di parlato significativo per la rappresentazione del parlato spontaneo. Le misure linguistiche di base del parlato nel corpus Stammerjohann sono strettamente confrontabili alle misure dei corpora C-ORAL-ROM.
La tavola seguente illustra la struttura del corpus originale e il campionamento di ogni sessione di registrazione in testi orali, realizzato da Sabrina Signorini, secondo i parametri C-ORAL-ROM/LABLITA
Ogni testo del campionamento è descritto in dettaglio nei metadati.
| CORPUS STAMMERJOHANN | ||||||||||
| Spool | Side | Track | Name of Recordings | Length | Description | Name of files | Length | Socio-linguistic classification | Words | Aligned words |
| 1 | A | 1 |
Scuola Elementare |
1h 45' |
Children' s tales at school |
elem1* |
4' 29" |
Public regulated dialogue | 797 | 797 |
| elem2* |
2' 35" |
Public regulated dialogue | 357 | 357 | ||||||
| elem3* |
2' 37" |
Public regulated monologue | 392 | 392 | ||||||
| elem4* |
6' 24" |
Public regulated monologue | 904 | 904 | ||||||
| elem5* |
1' 47" |
Public regulated monologue | 265 | 265 | ||||||
|
Artigiano |
29' 56" |
A craftsman describes his job to other people |
arti |
15' 49" |
Private free conversation | 3224 | 3224 | |||
|
Conversazione in Casa Vit |
2h 00' |
Private conversations in Vita' s home |
vita1 |
9' 01" |
Family conversation | 1770 | 1770 | |||
|
Conversazione Romo |
47' 43" |
Private conversations in Romo' s studio |
romo |
16' 36" |
Private free conversation | 3282 | 3282 | |||
|
Conversazione Bra |
1h 15' 49" |
Interviewiing a professor |
pino |
19' 59" |
Private regulated monologue | 3023 | 3023 | |||
| 1 | A | 2 |
San Frediano (Ben) |
18' |
A park-keeper describes his job |
cust |
15' 58" |
Private free conversation | 2825 | 2825 |
|
Bidello |
15' 09" |
A janitor speaks about the university |
bide* |
14' 44" |
Public regulated dialogue | 2691 | 2691 | |||
|
Artigiano San Frediano |
20' 02" |
A joiner describes his work |
fale |
14' 46" |
Private free conversation | 3163 | 3163 | |||
|
Barbiere via Faenza |
4h 29' 42" |
Conversations between a barber and his clients |
barb04 |
30' 46" |
Public free conversation | 4678 |
|
|||
| 1 | B | 1 |
Pinocchio (Pensione) |
12' 30" |
The story of Pinocchio |
mire |
12' 02" |
Private free conversation | 1911 | 1911 |
|
Barbiere via Faenza |
4h 00' |
Conversations between a barber and his clients |
barb01 |
12' 33'' |
Public free conversation | 2336 |
|
|||
|
Il Grillo Canterino |
21' 32" |
Comic sketches on radio |
gril |
21' 10" |
Media | 3808 | 3808 | |||
|
Franco/Serena+Amico |
1h 05' 44" |
Chats between schoolfriends |
fran |
32' 03" |
Family dialogue | 4720 | 4720 | |||
| 1 | B | 2 |
Lilian' s |
33' 50" |
Telephone conversations |
lili |
4' 22" |
Telephone | 814 | 814 |
| paol |
15' 22" |
Telephone | 2958 | 2958 | ||||||
|
Barbiere via Faenza |
2h 30' 14" |
Conversations between a barber and his clients |
barb03 |
22' 40'' |
Public free conversation | 4880 |
|
|||
|
Conversazione Gara |
3h 07' 08" |
Private conversations between adults |
gara1 |
21' 25" |
Private free conversation | 4732 | 4732 | |||
| gara2* |
21' 31" |
Private free conversation | 4859 | 4859 | ||||||
| 2 | A | 1 |
Conversazione in casa Vit |
3h 10' 06" |
Private conversations in Vit' s home |
vita2 |
7' 15" |
Family conversation | 1420 | 1420 |
|
Barbiere via Faenza |
3h 00' |
Conversations between a barber and his clients |
barb02 |
19' 44'' |
Public free conversation | 3673 |
|
|||
| 2 | A | 2 |
Scherzo via San Gallo |
5' 22" |
Comic dialogues on radio |
sgal |
5' 00" |
Media | 996 | 996 |
|
Il Grillo Canterino I (RAI) |
45' 52" |
Comic sketches on radio |
gril2 |
27' 24" |
Media | 4640 | 4640 | |||
|
Facoltà di Lettere |
1h 22' |
Interviews at the University |
port |
8' 19" |
Public regulated dialogue | 1530 | 1530 | |||
| prof |
9' 40" |
Private regulated dialogue | 1686 | 1686 | ||||||
| stum |
17' 19" |
Private regulated dialogue | 3435 | 3435 | ||||||
| stuf |
7' 44" |
Private regulated dialogue | 1520 | 1520 | ||||||
|
Barbiere via Faenza |
4h 00' |
Conversations between a barber and his clients |
||||||||
| 2 | B | 1 |
Giardino d' infanzia |
24' 51" |
Conversation between women and the custodian of the park |
giar |
8' 24" |
Private free conversation | 1618 | 1618 |
|
Amiche della Ben |
15' |
Chats between women |
||||||||
|
Famiglia |
57' |
Conversation in a family |
||||||||
|
Studio Por |
1h 30' |
Conversations between colleagues at work |
stud |
12' 11'' |
Private regulated dialogue | 1495 | 1495 | |||
|
Il Grillo Canterino II Rai |
27' |
Comic sketches on radio |
crii |
24' 27'' |
Media | 3205 | 3205 | |||
|
Franco/Serena+Amico |
46' 50" |
Conversations between schoolfriends |
frse* |
29' 53" |
Family dialogue | 4591 | 4591 | |||
|
Giardino d' Infanzia San Frediano |
59' 15" |
Conversation between a child and his parents |
fami1 |
30' 02" |
Family conversation | 5379 | 5379 | |||
|
Conversation between a child, his father and a teacher |
fami2 |
29' 13" |
Family conversation | 4630 | 4630 | |||||
| 2 | B | 2 |
Barbiere via Faenza |
5h 00' |
Conversations between a barber and his clients |
|||||
|
TOT Length |
41h 15' 35'' |
|||||||||
|
TOT Length |
9h 18' 04" |
98207 | 82640 | |||||||
|
*Partially trascribed by Stammerjohann |
||||||||||
|
|
Not sincronzed to the audio signal |
|||||||||
|
|
Not sampled |
|||||||||
Il campionamento Stammerjohann è stato trascritto in formato CHAT presso LABLITA da Sabrina Signorini, Ida Tucci e Antonietta Scarano. Tale lavoro ha dato luogo ad un corpus bilanciato di circa 100.000 parole per 9 ore di parlato, che risulta confrontabile, sia dal punto di vista del corpus design sia dal punto di vista dell’annotazione, con le raccolte di parlato spontaneo realizzate dopo il 1985 da LABLITA, e in particolare con il corpus del parlato romanzo C-ORAL-ROM.
Il campionamento è stato inserito nel Corpus del parlato spontaneo Italiano LABLITA, ma risulta anche disponibile in modo indipendente in questo sito.
La tavola seguente illustra la struttura del campionamento e la quantità di informazione per ogni campo della struttura
|
STRUCTURE OF
THE STAMMERJOHANN CORPUS
ACCORDING TO THE LABLITA CLASSIFICATION OF SPOKEN
TEXTS |
|||||
|
FAMILY (22510) |
|||||
|
NON REGULATED (22510) |
REGULATED |
||||
|
Monologue |
Dialogue (9311) |
Conversation (13199) |
Monologue |
Dialogue |
Conversation |
|
|
frse_4591 |
vita1_1770 |
|
|
|
|
|
fran_ 4720 |
vita2_1420 |
|
|
|
|
|
|
fami1_5379 |
|
|
|
|
|
|
fami2_4630 |
|
|
|
|
|
|||||
|
PRIVATE (36773) |
|||||
|
NON REGULATED (25614) |
REGULATED (11159) |
||||
|
Monologue |
Dialogue |
Conversation (25614) |
Monologue (3023) |
Dialogue (8136) |
Conversation |
|
|
gara1_4732 |
pino_3023 |
prof_1686 |
|
|
|
|
gara2_4859 |
stum_3435 |
|||
|
giar _1618 |
|
stuf_1520 |
|
||
|
|
|
arti _3224 |
|
stud_1495 |
|
|
|
|
romo_3282 |
|
|
|
|
|
|
cust _2825 |
|
|
|
|
|
|
fale _3163 |
|
|
|
|
|
|
mire _1911 |
|
|
|
|
|
|||||
|
PUBLIC (22503) |
|||||
|
NON REGULATED (15567) |
REGULATED (6936) |
||||
|
Monologue |
Dialogue |
Conversation (15567) |
Monologue (1561) |
Dialogue (5375) |
Conversation |
|
|
|
barb1_2336 |
elem3_392 |
elem1_797 |
|
|
|
|
barb2_3673 |
elem4_904 |
elem2_357 |
|
|
|
|
barb3_4880 |
elem5_265 |
bide_2691 |
|
|
|
|
barb4_4678 |
|
port_1530 |
|
|
|
|||||
|
TELEPHONE (3.772) |
|||||
|
lili_814 paol_2958 |
|||||