Vai ai contenuti.

LABLITA

Sezioni
Strumenti personali
Sei qui: Portale » Progetti » KeywordExtractor » LABLITA KeywordExtractor » LABLITA KeywordExtractor

LABLITA KeywordExtractor

Descrizione

LABLITA KeywordExtractor è un programma che permette di estrarre keyword singole e multiterm da testi multilingui (francese, inglese, italiano, spagnolo, tedesco).
E' un programma scritto in Java che sfrutta il lemmatizzatore e PoSTagger TreeTagger

Requisiti di sistema

Il programma può funzionare su qualunque sistema (MS Windows, Linux) su cui sia installato Java versione 1.5 o superiore e TreeTagger.
Il programma è stato testato solo con la Java Virtual Machine fornita da Sun.
Per verificare se sul sistema è presente Java, aprire una finestra di terminale (se MS Windows, 'Prompt MS DOS')

Windows
C:\>java -version
java version "1.6.0_02"
Java(TM) SE Runtime Environment (build 1.6.0_02-b06)
Java HotSpot(TM) Client VM (build 1.6.0_02-b06, mixed mode, sharing)

Linux


fabbri@lablita:~$ java -version
java version "1.6.0_02"
Java(TM) SE Runtime Environment (build 1.6.0_02-b05)
Java HotSpot(TM) Client VM (build 1.6.0_02-b05, mixed mode, sharing)

Installazione

Per installare il programma basta scompattare in una directory di lavoro a piacere il pacchetto.

Configurazione

Il programma sfrutta TreeTagger ed alcune risorse testuali. Per permettere al programma di lanciare correttamente TreeTagger e di accedere alle risorse è necessario modificare il file testuale ke.conf secondo le proprie necessità. Se, ad esempio, avete installato TreeTagger nella directory C:\TreeTagger e avete decompresso il pacchetto di LABLITA KeywordExtractor in C:\KE, dovete modificare il file ke.conf come segue:
command-en=C:\TreeTagger\bin\tag-english.bat
command-it=C:\TreeTagger\bin\tag-italian.bat
command-de=C:\TreeTagger\bin\tag-german.bat
command-fr=C:\TreeTagger\bin\tag-french.bat
command-es=C:\TreeTagger\bin\tag-spanish.bat
index_location=c:\KE\index
resource_location=c:\KE\resources

Uso

Il programma può essere lanciato da linea di comando digitando:
java -jar ke.jar arguments
dove arguments può assumere i valori:
  •  -c,--conf <arg>         configuration file
  •  -f,--file <arg>        input file
  •  -l,--language <arg>        language
  •  -n,--number <arg>   keywords number

-c,--conf <arg>  configuration file è il percorso verso il file di configurazione ke.conf che si trova nella sottodirectory conf.

Le lingue supportate sono de, en, es, fr, it.

L'utente deve avere i permessi di scrittura nella cartella dalla quale il programma viene lanciato.

Esempi:
fabbri@lablita:~$ java -jar ke.jar -f gpl_en.txt -n 4 -l en
object___code   2149.2853627819613
patent___licence        1204.4774962209317
corresponding___source  1083.6786549064097
source___code   1029.902547471131

Download

Il pacchetto può essere scaricato qui.

 

Licenza

Vedi i termini della licenza.

 

Credits


Il programma sfrutta TreeTagger: fare riferimento alla documentazione per l'installazione e per altre informazioni.
Il programma sfrutta inoltre le librerie
Il programma è stato realizzato da Marco Fabbri.
Creato da admin
Ultima modifica 26 October 2007, 12:46
 
 


Sviluppato con Plone

Questo sito è conforme ai seguenti standard: