ETD

Archivio digitale delle tesi discusse presso l'Università di Pisa

Tesi etd-05032011-164731


Tipo di tesi
Tesi di dottorato di ricerca
Autore
DEL GRATTA, RICCARDO
URN
etd-05032011-164731
Titolo
Language Resource Infrastructure(s)
Settore scientifico disciplinare
ING-INF/05
Corso di studi
INGEGNERIA DELL'INFORMAZIONE
Relatori
tutor Prof. Simoncini, Luca
tutor Dott. Calzolari, Nicoletta
tutor Dott. Enea, Alessandro
Parole chiave
  • single sign on
  • shibboleth
  • metadata
  • load balancing
  • Language resources and technologies
  • infrastructures
  • standards
Data inizio appello
11/05/2011
Consultabilità
Completa
Riassunto
Non esiste una sola Infrastruttura di Risorse Linguistiche, ma molte infrastrutture
e tutte tra loro diverse, anche se con aspetti comuni. Il motivo del plurale, la (s),
nel titolo della tesi è esattamente questo.
La comunità dei linguisti è molto variegata: studiosi di scienze sociali ed umane
sono linguisti, come linguisti sono quelli che direttamente si occupano di (o forniscono
consulenze in) ambiti molto più tecnici come la traduzione automatica,
l'estrazione di informazioni da testi, il question-answering fino ai motori di
ricerca presenti sul Web. Ogni sotto comunità linguistica ha le proprie esigenze da
richiedere ad una Infrastruttura di Risorse Linguistiche: disponibilità di risorse,
possibilità di scaricare liberamente software normalmente a pagamento, presenza
di commenti e valutazioni sulle risorse disponibili ed ancora altro. Possiamo affermare
che, spesso, sono i requisiti utenti a guidare il design architetturale ed
il modello delle infrastrutture, mentre le tecnologie più prettamente informatiche
sono usate per trovare soluzioni a tali requisiti. A conferma di questo aspetto,
possiamo citare due progetti europei, METANET e PANACEA: il primo è volto
alla creazione di un network di repository di tool e dati languistici accessibili da
una più ampia comunità di linguisti, mentre il secondo è una piattaforma volta
alla creazione di un network di risorse linguistiche in ambito multilingue e della
Machine Translation, pensato per essere usato da industrie in tali ambiti.
Entrambi i progetti hanno la comunità dei linguisti come promotori (provider di
servizi linguistici) ma diverse comunità di utenti esterni a cui i servizi sono rivolti
(consumer).
METANET ha come consumer ancora la comunità dei linguisti computazionali,
mentre PANACEA ha la comunità di industrie legate alla Machine Translation
come comunità consumer. La diversità degli utenti finali porta a diversi requisiti
utente e, quindi, a caratteristiche di erenti nelle infrastrutture.
In questa tesi descriviamo sia gli aspetti comuni che specifici delle Infrastrutture
di Risorse Linguistiche e mettiamo in risalto il nostro apporto alla progettazione
ad alto livello delle infrastrutture di entrambi i progetti. Nello specifico riportiamo
i nostri contributi nell'ambito della definizione dei moduli architetturali connessi
alla autenticazione ed autorizzazione, e più in generale alla gestione degli utenti,
ed al loro accesso alle risorse linguistiche.

We have added an "(s)" to the title of this thesis because there is not a single
one "Language Resource Infrastructure" but many Language Resource Infrastructures.
In fact, the language resource infrastructures are all partially alike, since
they have many common aspects, but every single language resource infrastructure
is peculiar in its own way, since it has its own distinguishing characteristics.
The community of linguists is very wide-ranging: human and social science scientists
are linguists, as linguists are those who work in more technical environments
such as Machine Translation, Information Extraction, Question-Answering, search
engines and technologies available on the Web. Each sub community wants that
the Language Resource Infrastructures will address its own requirements: resource
availability, free download of resources normally available for-fee, feedback, comments
on language resources, evaluation of language resources and so on. We can
say that user requirements drive the designing and modeling of the infrastructures
more than information technology, whose experts are asked to solve issues and
provide solution for the user requirements. To confirm this aspect, we can cite two
European projects, METANET and PANACEA: the former aims at building a
network of repositories of language resources and technologies widely available for
an increasing linguistic community, while the latter is a platform designed for the
lexical acquisition and managing multilingualism and Machine Translation issues
for small and medium enterprises focused on such topics.
Both projects have the language resource community as internal users, that is to
say, as providers of language services, but a different target with respect to the
consumers of language resources and services.
METANET is a project made by computational linguists for (computational) linguists,
while PANACEA provides services for the Machine Translation industrial
community. As a consequence, different requirements have led to different language
resource infrastructures.
In this thesis we describe both common and specific aspects of Language Resource
Infrastructures and point out our contribution to the modeling of the high level
architecture of the infrastructure in both projects. In particular, we report our
contribution in the area of Access and Identity Management, specifically in the
user management and his/her access to language resources
File