Skip to content

LABLITA

Sections
Personal tools

Il Corpus Stammerjohann e il suo campionamento


Il corpus Stammerjohann (Stammerjohann, 1971) è una raccolta di parlato spontaneo realizzata a Firenze nel 1965 (con Rk 34, Philips su un nastro a quattro piste con la velocità di 4,75 cm/sec] con lo scopo dichiarato di registrare, più che esempi di varietà dialettali, "situazioni comunicative genuine" (per i riferimenti teorici del tempo si veda Heinz Zimmermann, Zu einer Typologie des spontanen Gesprächs). Le registrazioni sono state effettuate su un solo canale con microfono omnidirezionale.

Il corpus è pari a 30 sessioni registrate di varie lunghezze (da pochi minuti a 10 ore) per circa 41:15:34 ore di registrazione, delle quali circa 26 ore derivano da registrazioni di ambiente di una stessa situazione (conversazioni libere in un salone di barbiere).

Il corpus era stato trascritto dall’autore solo per piccoli campioni (Stammerjohann, 1971) e non era fino ad ora disponibile né per l'informazione acustica né, se si escludono i campioni pubblicati nell'articolo citato, per l'informazione testuale.

Il corpus è stato donato a Emanuela Cresti perché fosse archiviato a LABLITA e poi diffuso nella comunità scientifica. Il recupero è stato realizzato all’interno della Ricerca FIRB (2001-2005) "Archivi dell'italiano orale in diacronia" (Signorini e Tucci 2003)

Il Corpus è stato trasferito in digitale nel 2001, curando più possibile la qualità del riversamento. Non essendo più disponibile l’apparato originale di registrazione, in linea di principio premessa alla massima fedeltà di riproduzione (De Dominicis et al. 2005), il corpus e’ stato riversato due volte, utilizzando strumenti d’epoca diversi, che prevedevano però entrambi la bassa velocità originariamente scelta per motivi pratici dall’autore. In altre parole non è stata utilizzata alcuna riduzione digitale della velocità, sostanzialmente per evitare l’impoverimento del segnale acustico originale e la conseguente deformazione delle formanti.

In particolare un primo passaggio delle bobine è stato realizzato con registratore GRUNDING 4 piste del 1971 (in file formato WAV PCM 11.025 Hz a 16 bit). I file trattati nel corpus qui pubblicato appartengono a questo primo riversamento.

Un secondo passaggio, archiviato in laboratorio per verifiche e confronti, è stato realizzato con registratore 4 piste Philips N4308/82 (in file WAV PCM 22.050 Hz a 16 bit).

Nonostante fossero passati 35 anni dall’incisione dei nastri, non sono da segnalare significative porzioni non conservate. La qualità acustica del materiale è dunque paragonabile a qualsiasi registrazione analogica con microfono omnidirezionale e ha i limiti propri delle registrazioni di ambiente (rumori di fondo, ritorno, sovrapposizioni tra voci, voci con diversa ampiezza del segnale, porzioni non comprensibili).

Le 30 sessioni sono state classificate secondo i parametri di variazione del parlato adottati per la strutturazione del corpus LABLITA e del corpus C-ORAL-ROM.

  • Variazione diamesica
    • Sessioni divise per canale: broadcasting, telefono, parlato naturale
  • Variazione diafasica
    • Sessioni del parlato naturale divise gerarchicamente
      • per contesto sociale: privato, familiare, pubblico;
      • per qualità dell’interazione: libero, regolato;
      • per struttura dell’evento comunicativo: monologo, dialogo, conversazione;

Una delle caratteristiche del corpus Stammerjohann è che molte delle sessioni originali (18 su 30) sono registrazioni di ambiente, che costituiscono la gran parte delle 41 ore di registrazione. Il microfono era collocato nel luogo prescelto, in situazione familiare, di lavoro o pubblica, i parlanti sapevano di essere registrati, ma la registrazione non corrispondeva ad un evento comunicativo preciso, bensì ad un continuum di eventi diversi che si realizzavano nelle coordinate spazio-temporali raggiunte dal microfono.

Date queste caratteristiche, la trascrizione di tali registrazioni, ricche di rumore, di sovrapposizioni, con incerta attribuzione dei turni ai parlanti e con diversa risposta microfonica, aveva comportato all’autore difficoltà insormontabili per la trascrizione. L’autore si era orientato quindi a realizzare registrazioni anche in contesti meno dispersivi e quindi più facilmente oggetto di trascrizione e osservazione linguistica. Le rimanenti 12 sessioni corrispondono quindi a eventi ben identificati: 4 sono registrazioni radiofoniche, 2 telefonate, e 6 interviste di Stammerjohann o più spesso di suoi amici fiorentini a personaggi tipici della vita della città (artigiano, giardiniere, portiere, professore, bidello, bambino), e sono questi i testi già parzialmente trascritti da Stammerjohann.

In questo recupero, grazie alla possibilità di ascolto selettivo offerto dalla tecnologia digitale, e anche grazie alla ulteriore possibilità di rallentare il flusso di parlato per via di sintesi PSOLA (disponibile con Win Pitch Corpus, vedi oltre), le sessioni di ambiente sono state invece trattate e trascritte, sebbene non integralmente, ma per campioni.

Solo due sessioni di registrazione (marcate in rosso nella tavola seguente) non risultano comprensibili all’ascolto neppure con i mezzi già menzionati, e sono state quindi escluse dal campionamento.

La scelta di campionare il corpus non dipende però solo da ragioni pratiche. Perché la raccolta potesse essere il più possibile rappresentativa dell’universo da essa documentato [Cresti et al. 2002], e inoltre comparabile con altre raccolte, il corpus doveva essere composto da campioni le cui caratteristiche fossero definite a livello quantitativo e qualitativo in modo analogo ai campioni delle risorse con le quali il corpus Stammerjohann doveva essere comparato.

Si è così scelto per ogni sessione un campione del continuum che fosse il più possibile omogeneo, ovvero che potesse rappresentare in modo sufficiente una istanza di un evento comunicativo nell’universo "lingua parlata".

Questo ha corrisposto ad un lavoro particolarmente significativo nel caso delle registrazioni di ambiente, lavoro in tutto simile a quanto previsto per la realizzazione dell'Israeli Corpus (CoSI).

A tal fine sono stati adottati in particolare tre criteri di campionamento:

  1. segmentazione del continuum in una unità testualmente coerenti, ovvero scelta in ogni sessione di campioni che: 1) manifestano sufficiente percepibilità del segnale, 2) condividono gli stessi metadati e gli stessi parlanti; 3) hanno sufficiente uniformità tematica; 4) non manifestano interruzioni significative nel flusso
  2. lunghezza del campione selezionato in unità informative (campioni tra le 1500 e le 4500 parole, secondo il criterio C-ORAL-ROM)
  3. qualità acustica sufficiente all’analisi dell'F0 nella maggior parte del tracciato, e/o minor numero di sovrapposizioni

I campi “Situation”, “Topic”, e la classificazione della sessione nella struttura, riportati nei metadati di ogni campione, specificano nell’insieme i suoi tratti testuali caratteristici.

Per es. il campione di una sessione del “Barbiere di via Faenza” è identificato come: parlato in situazione naturale, pubblica, non regolata, conversazione, chiacchiere in un negozio di barbiere; registrazione palese con ricercatore non presente; topic: calcio e altri argomenti.

Le circa 26 ore divise in 5 diverse sessioni di registrazione, appartenenti alla macrosituazione “Barbiere di via Faenza”, sono state campionate senza considerazione per il criterio che tendeva ad escludere le parti eccessivamente sovrapposte, in quanto la sovrapposizione continua è un tratto costante di tali situazioni.

Il Corpus Stammerjohann si configura come un campione di parlato significativo per la rappresentazione del parlato spontaneo. Le misure linguistiche di base del parlato nel corpus Stammerjohann sono strettamente confrontabili alle misure dei corpora C-ORAL-ROM.

La tavola seguente illustra la struttura del corpus originale e il campionamento di ogni sessione di registrazione in testi orali, realizzato da Sabrina Signorini, secondo i parametri C-ORAL-ROM/LABLITA

Ogni testo del campionamento è descritto in dettaglio nei metadati.

CORPUS STAMMERJOHANN
Spool Side Track Name of Recordings Length Description Name of files Length Socio-linguistic classification Words Aligned words
1 A 1

Scuola Elementare

1h 45'

Children' s tales at school

elem1*

4' 29"

Public regulated dialogue 797 797
            elem2*

2' 35"

Public regulated dialogue 357 357
            elem3*

2' 37"

Public regulated monologue 392 392
            elem4*

6' 24"

Public regulated monologue 904 904
            elem5*

1' 47"

Public regulated monologue 265 265
     

Artigiano

29' 56"

A craftsman describes his job to other people

arti

15' 49"

Private free conversation 3224 3224
     

Conversazione in Casa Vit

2h 00'

Private conversations in Vita' s home

vita1

9' 01"

Family conversation 1770 1770
     

Conversazione Romo

47' 43"

Private conversations in Romo' s studio

romo

16' 36"

Private free conversation 3282 3282
     

Conversazione Bra

1h 15' 49"

Interviewiing a professor

pino

19' 59"

Private regulated monologue 3023 3023
1 A 2

San Frediano (Ben)

18'

A park-keeper describes his job

cust

15' 58"

Private free conversation 2825 2825
     

Bidello

15' 09"

A janitor speaks about the university

bide*

14' 44"

Public regulated dialogue 2691 2691
     

Artigiano San Frediano

20' 02"

A joiner describes his work

fale

14' 46"

Private free conversation 3163 3163
     

Barbiere via Faenza

4h 29' 42"

Conversations between a barber and his clients

barb04

30' 46"

Public free conversation 4678


1 B 1

Pinocchio (Pensione)

12' 30"

The story of Pinocchio

mire

12' 02"

Private free conversation 1911 1911
     

Barbiere via Faenza

4h 00'

Conversations between a barber and his clients

barb01

12' 33''

Public free conversation 2336


     

Il Grillo Canterino

21' 32"

Comic sketches on radio

gril

21' 10"

Media 3808 3808
     

Franco/Serena+Amico

1h 05' 44"

Chats between schoolfriends

fran

32' 03"

Family dialogue 4720 4720
1 B 2

Lilian' s

33' 50"

Telephone conversations

lili

4' 22"

Telephone 814 814
            paol

15' 22"

Telephone 2958 2958
     

Barbiere via Faenza

2h 30' 14"

Conversations between a barber and his clients

barb03

22' 40''

Public free conversation 4880


     

Conversazione Gara

3h 07' 08"

Private conversations between adults

gara1

21' 25"

Private free conversation 4732 4732
            gara2*

21' 31"

Private free conversation 4859 4859
2 A 1

Conversazione in casa Vit

3h 10' 06"

Private conversations in Vit' s home

vita2

7' 15"

Family conversation 1420 1420
     

Barbiere via Faenza

3h 00'

Conversations between a barber and his clients

barb02

19' 44''

Public free conversation 3673


2 A 2

Scherzo via San Gallo

5' 22"

Comic dialogues on radio

sgal

5' 00"

Media 996 996
     

Il Grillo Canterino I (RAI)

45' 52"

Comic sketches on radio

gril2

27' 24"

Media 4640 4640
     

Facoltà di Lettere

1h 22'

Interviews at the University

port

8' 19"

Public regulated dialogue 1530 1530
            prof

9' 40"

Private regulated dialogue 1686 1686
            stum

17' 19"

Private regulated dialogue 3435 3435
            stuf

7' 44"

Private regulated dialogue 1520 1520
 
     

Barbiere via Faenza

4h 00'

Conversations between a barber and his clients

         
2 B 1

Giardino d' infanzia

24' 51"

Conversation between women and the custodian of the

park

giar

8' 24"

Private free conversation 1618 1618
     

Amiche della Ben

15'

Chats between women

         
     

Famiglia

57'

Conversation in a family

         
     

Studio Por

1h 30'

Conversations between colleagues at work

stud

12' 11''

Private regulated dialogue 1495 1495
     

Il Grillo Canterino II Rai

27'

Comic sketches on radio

crii

24' 27''

Media 3205 3205
     

Franco/Serena+Amico

46' 50"

Conversations between schoolfriends

frse*

29' 53"

Family dialogue 4591 4591
     

Giardino d' Infanzia San Frediano

59' 15"

Conversation between a child and his parents

fami1

30' 02"

Family conversation 5379 5379
         

Conversation between a child, his father and a

teacher

fami2

29' 13"

Family conversation 4630 4630
2 B 2

Barbiere via Faenza

5h 00'

Conversations between a barber and his clients

         
     

TOT Length

41h 15' 35''

           
           

TOT Length

9h 18' 04"

  98207 82640
 
           

*Partially trascribed by Stammerjohann

   
 
       


Not sincronzed to the audio signal

         
       


Not sampled

         

Il campionamento Stammerjohann è stato trascritto in formato CHAT presso LABLITA da Sabrina Signorini, Ida Tucci e Antonietta Scarano. Tale lavoro ha dato luogo ad un corpus bilanciato di circa 100.000 parole per 9 ore di parlato, che risulta confrontabile, sia dal punto di vista del corpus design sia dal punto di vista dell’annotazione, con le raccolte di parlato spontaneo realizzate dopo il 1985 da LABLITA, e in particolare con il corpus del parlato romanzo C-ORAL-ROM.

Il campionamento è stato inserito nel Corpus del parlato spontaneo Italiano LABLITA, ma risulta anche disponibile in modo indipendente in questo sito.

La tavola seguente illustra la struttura del campionamento e la quantità di informazione per ogni campo della struttura

STRUCTURE OF THE STAMMERJOHANN CORPUS ACCORDING TO THE LABLITA CLASSIFICATION OF SPOKEN TEXTS
(85558 Words_Transcribed)

 

FAMILY (22510)

NON REGULATED (22510)

REGULATED

Monologue

Dialogue (9311)

Conversation (13199)

Monologue

Dialogue

Conversation


frse_4591

vita1_1770





fran_ 4720

vita2_1420






fami1_5379






fami2_4630





PRIVATE (36773)

NON REGULATED (25614)

REGULATED (11159)

Monologue

Dialogue

Conversation (25614)

Monologue (3023)

Dialogue (8136)

Conversation


 

gara1_4732

pino_3023

prof_1686



 

gara2_4859

 

stum_3435

 
   

giar _1618


stuf_1520




arti _3224


stud_1495




romo_3282






cust _2825






fale _3163






mire _1911





PUBLIC (22503)

NON REGULATED (15567)

REGULATED (6936)

Monologue

Dialogue

Conversation (15567)

Monologue (1561)

Dialogue (5375)

Conversation



barb1_2336

elem3_392

elem1_797




barb2_3673

elem4_904

elem2_357




barb3_4880

elem5_265

bide_2691




barb4_4678


port_1530



TELEPHONE (3.772)

lili_814

paol_2958

Created by admin
Last modified 14 October 2008, 20:24
 
 


Powered by Plone

This site conforms to the following standards: