Titolo specifico
del programma svolto dall'unità di ricerca
Integrazione ed Interrogazione di Sorgenti Eterogenee Strutturate
e Semistrutturate
Descrizione del
programma e dei compiti dell'unità di ricerca
L'attività di ricerca avrà come obiettivo la continuazione
ed evoluzione del progetto MOMIS e verrà svolta in stretta collaborazione
con tutte le altre unità. La ricerca si articolerà in 4 fasi.
Fase 1 (durata
4 mesi
- dal 1/12/2000 al 31/3/2001)
- Definizione dei requisiti di integrazione per dati provenienti da
sorgenti semistrutturate (quali sorgenti contenenti documenti HTML,
XML, file testuali).
- Definizione delle possibili estensioni al modello di integrazione
per sorgenti strutturate, sviluppato nel sistema MOMIS nell'ambito
del progetto MURST INTERDATA, per:
1. Integrare dati provenienti anche da sorgenti semistrutturate
2. Utilizzare ontologie di dominio e top-level
3. Utilizzare conoscenza estensionale inter-schema
(1. Integrare dati provenienti anche da sorgenti semistrutturate)
In letteratura sono stati proposti diversi modelli per "dare
struttura" ai dati semistrutturati. La nostra scelta relativamente
ai dati semistrutturati sarà quella di utilizzare per la loro
rappresentazione "object patterns" (che hanno caratteristiche
simili alla modellazione di oggetti Object Oriented). Per rappresentare
le informazioni estratte dalle sorgenti da integrare verrà
utilizzato ed esteso un linguaggio object-oriented, denominato ODLI3,
derivato dallo standard ODMG ed introdotto nel sistema MOMIS.
(2. Utilizzare ontologie di dominio e top-level)
L'approccio che si intende adottare è quello di utilizzare
sistemi lessicali che prevedono l'esistenza di relazioni terminologiche
tra termini definite a priori. Tra questi, il pricipale sistema è
sicuramente Wordnet, un database lessicale elettronico considerato
la più importante risorsa disponibile nei campi della linguistica
computazionale, dell'analisi testuale, e nelle altre aree associate.
WORDNET è stato sviluppato dal Cognitive science Laboratory
alla Princeton University, sotto la direzione del Professor George
A. Miller (http://www.cogsci.princeton.edu/~wn/).
WordNet è un sistema di riferimento, disponibile on-line, la
cui architettura è ispirata alle attuali teorie psicolinguistiche
legate alla memoria lessicale umana. Sostantivi, verbi, aggettivi
e avverbi della lingua inglese vengono organizzati in insiemi di sinonimi
(synset), ognuno dei quali rappresenta un determinato concetto lessicale.
Vari tipi di relazioni collegano fra loro i synset. Il punto di partenza
della semantica lessicale è il riconoscimento che esiste una
associazione convenzionale fra la forma delle parole (il modo in cui,
cioè, vengono pronunciate e scritte) e i concetti che esse
esprimono; tale associazione è di tipo molti-a-molti, dando
luogo alle proprietà di "Polisemia" (proprietà
di una stessa parola di avere due o più significati) e "Sinonimia"
(proprietà di un significato di avere due o più parole
in grado di esprimerlo). Da WordNet si possono ricavare le seguenti
relazioni tra synset:
- Sinonimia;
- Iponimia: un concetto è iponimo di un altro quando lo specializza,
cioè esiste un rapporto di tipo ISA. (La relazione duale è
l'ipernimia);
- Meronimia: relazione semantica che si esprime fra due concetti x
e y quando x "is a part of" y. (la relazione duale è
l'olonomia);
- Correlazione: è la relazione che lega 2 synset che condividono
uno stesso ipernimo.
Inoltre, grazie ad una collaborazione con l'IRST (Istituto per la
Ricerca Scientifica e Tecnologica) di Trento, verrà utilizzato
anche il sistema multilingua chiamato EuroWordNet.
L'idea e` di presentare ogni relazione individuata da WordNet al progettista
dell'integrazione che la può confermare come relazione "intensionale"
da aggiungere al "Common Thesaurus".
3. Utilizzare conoscenza estensionale inter-schema.
L'approccio che si intende adottare, nell'ambito del sistema MOMIS
si basa sulla teoria della "formal context analisys" che,
come descritto in [Carpineto 93], è volta alla generazione
di una gerarchia di ereditarietà in cui viene rappresentata
la conoscenza fattuale disponibile, nell'insieme di schemi locali,
su di un determinato aspetto della realtà.
Gli elementi che caratterizzano questo approccio teorico riguardano
la definizione di assiomi estensionali.
Tali assiomi descrivono le relazioni insiemistiche esistenti tra le
estensioni delle classi di oggetti presenti nelle sorgenti, in particolare,
date due classi A e B sono individuabili quattro tipi di situazioni:
1) disgiunzione, 2) equivalenza, 3) inclusione e 4) sovrapposizione.
La presenza di un insieme consistente e corretto di assiomi costituisce
un notevole elemento di conoscenza per l'attività di integrazione
di dati di diverse sorgenti. D'altro canto, la loro definizione è
a carico del progettista dell'integrazione e solo in parte può
essere automatizzata, pertanto, diviene fondamentale disporre di strumenti
che aiutino il designer nella fase di specifica di tali assiomi e
che derivino automaticamente le conseguenze logiche indotte da tale
assiomi.
Il metodo che si intende seguire per sfruttare la conoscenza estensionale
ha come premessa l'individuazione delle "base extension",
proposte recentemente in letteratura in [Schmitt 98a, Schmitt 98b].
L'uso delle base extension, assieme alle tecniche di logica descrittiva,
permetterà di ottenere risultati notevoli nell'ottimizzazione
di interrogazioni multi-sorgente.
Inoltre, si contribuirà ad una definizione preliminare della
struttura del meta-data repository per descrivere le diverse tipologie
di sorgenti e di relazioni intra ed inter-schema.
Fase 2 (durata
8 mesi
- dal 1/4/2001 al 30/11/2001)
L'obiettivo della fase è la produzione di risultati scientifici
che definiscano nel loro complesso un quadro metodologico per l'integrazione
di dati provenienti da sorgenti fortemente eterogenee. La metodologia
sarà basata su tecniche intelligenti di tipo semi-automatico
per l'identificazione e riconciliazione di eterogeneità basate
sulle proprietà dei dati, sulla estrazione semi-automatica
di proprietà interschema, e su conoscenza di ontologie di dominio.
I risultati forniti includeranno la specifica funzionale/architetturale
di un prototipo che implementa tale metodologia. In particolare verranno
definite le specifiche funzionali di un ambiente di integrazione degli
schemi locali, che, partendo dalle descrizioni delle sorgenti espresse
in ODLI3, generi un unico schema globale ("Vista Virtuale Globale"
delle sorgenti integrate).
Le principali funzionalità che dovranno essere fornite da tale
ambiente sono le seguenti:
- possibilità di attivare "wrappers" per interagire
con le sorgenti da integrare (in collaborazione con l'unità
della Calabria);
- un'interfaccia grafica che guidi il progettista durante tutti i
passi di integrazione degli schemi: acquisizione delle sorgenti, dichiarazione
di relazioni intensionali (permettendo anche la integrazione con il
sistema WordNet) dichiarazione di relazioni estensionali, clustering
(in collaborazione con l'unità di Milano).
L'ambiente dovrà interagire con gli altri componenti del sistema
MOMIS, quali ODB-Tools (per la validazione dello schema e l'inferenza
di nuove relazioni), ARTEMIS (per il calcolo delle affinità
tra classi utile nella fase di clustering) e WordNet.
Inoltre verranno definite le specifiche funzionali di un "Query
Manager" (QM) che supporti query (globali) rispetto ad una "Vista
Virtuale Globale" delle sorgenti integrate.
QM dovrà decomporre una query globale in sub-query relative
alle sorgenti, estendendo tecniche sviluppate nell'ambito di sistemi
distribuiti di Basi di Dati, ed ottimizzarne l'esecuzione utilizzando
tecniche di logica descrittiva per l'ottimizzazione semantica di query.
Come già descritto nella base di partenza scientifica, MOMIS
gestisce una pluralità di sorgenti distribuite ed eterogenee
adottando un approccio "virtuale", che quindi non prevede
la replicazione dei dati nel Mediatore.
Ciò significa che sarà il QM a gestire, per ogni interrogazione,
la rappresentazione globale ottenuta mediante le fasi di integrazione
intensionale ed estensionale al fine di materializzare presso l'utente
le entità che popolano questa vista virtuale e che costituiscono
la risposta cercata. Tale risposta prodotta dovrà rispondere
ad esigenze di correttezza e completezza, in modo da recuperare tutti
e soli gli oggetti del dominio applicativo che godono delle proprietà
richieste soddisfando le condizioni imposte, e dovrà anche
garantire la minimalità.
Uno degli aspetti più innovativi del QM consisterà nell'impiego
di componenti intelligenti che realizzino, sia sulla query globale
sia su quelle locali, passi di ottimizzazione semantica capaci di
ridurre il numero di sorgenti a cui è necessario accedere ed
il volume di dati ritornati.
Le fasi che caratterizzeranno il processo di gestione delle interrogazioni
di QM saranno pertanto:
- ottimizzazione semantica globale: sfruttando le informazioni semantiche
presenti a livello di schema globale, ed eventuali regole di integrità
intensionali ed assiomi estensionali definiti dal progettista, verrà
realizzata un'ottimizzazione semantica delle interrogazioni poste
dall'utente;
- decomposizione della query globale in query locali. Questa fase
verrà svolta analizzando la query ed utilizzando il lattice
di concetti prodotto dalla conoscenza estensionale;
- individuazione delle sorgenti coinvolte: analizzando la query verranno
individuate le classi globali coinvolte e per ognuna di esse si determinerà
a quali classi sorgenti si deve accedere;
- generazione delle query locali: sfruttando le regole di mapping
tra rappresentazione globale e schemi locali verrà prodotto
un insieme di sottoquery direttamente eseguibili sulle sorgenti;
- ottimizzazione semantica locale: una volta generate le subquery
per ogni sorgente, si può pensare di sfruttare la presenza
di vincoli di integrità sugli schemi delle sorgenti, unitamente
alle capacità di ODB-Tools, per ridurre ulteriormente il costo
di accesso ai dati. Questa opportunità potrà essere
sfruttata purchè siano rappresentate a livello di Mediatore
le conoscenze semantiche relative agli schemi locali;
- composizione della risposta: i dati reperiti dalle sottoquery dovranno
essere combinati per generare la risposta all'interrogazione posta
sullo schema globale.
Fase 3 (durata
8 mesi -
dal 1/12/2001 al 31/7/2002)
L'obiettivo di questa fase è la realizzazione di un insieme
di prototipi che realizzino le funzioni enucleate dai risultati scientifici
prodotti nella fase precedente. Il contributo di questa Unità
di Ricerca sarà:
a) lo sviluppo di un prototipo di ambiente di ausilio al progettista
per la costruzione di una vista globale basato su ontologie e assiomi
inter-schema ;
b) lo sviluppo di un prototipo di query manager per la gestione di
query globali .
Particolare cura verrà dedicata alla realizzazione modulare
dei prototipi, al fine di preservare la loro coerenza e integrabilità
complessiva. A questo proposito, verrà realizzato l'interfacciamento
tra il sistema di ausilio alla integrazione, il query manager ed il
prototipo per query rewriting e query answering tramite viste (sviluppato
dall'Unità di Ricerca di Roma).
Fase 4 (durata
4 mesi
- dal 1/8/2002 al 30/11/2002)
L'obiettivo di questa fase è quello di completare la realizzazione
e l'integrazione dei prototipi sviluppati nelle fasi precedenti e
di condurre opportuni esperimenti per verificarne l'efficacia in problemi
reali d'integrazione. In particolare, la sperimentazione verrà condotta
facendo riferimento alle sorgenti informative messe a disposizione
da TELECOM Italia - Divisione di Data Administration, Data Warehouse,
Data Mining. In collaborazione con l'Unità di Ricerca di Roma, verrà
completato l'interfacciamento tra il sistema di ausilio alla integrazione,
il query manager ed il prototipo per query rewriting e query answering
tramite viste.
Prodotti dell'Unità
di Ricerca
La cifra dopo la D indica il tema di ricerca di riferimento per il
prodotto (se è 0 il risultato è comune a tutti i temi).
La lettera successiva indica il tipo del documento (sigla R: rapporto
tecnico, sigla P: prototipo software). La lista tra parentesi indica
le unità coinvolte nella produzione del risultato (BO-Bologna,
CS-Cosenza, MI-Milano, MO-Modena, RM-Roma). In grassetto è
evidenziata l'unità responsabile per ciascun prodotto.
Al
termine della Fase 1
(scadenza il 31 marzo 2001)
I prodotti attesi in questa fase del progetto sono di tipo rapporto
tecnico (sigla R).
D0.R1:
Specifiche per il meta-data repository (RM,BO,CS,MI,MO).
D1.R1: Metodi
e tecniche di estrazione, rappresentazione ed integrazione di sorgenti
strutturate e semi-strutturate. (CS,RM,BO,MI,MO)
D1.R2:
Utilizzo di ontologie e proprietà inter-schema di tipo estensionale
(MO,MI)
Al
termine della Fase 2 (scadenza
il 30 novembre 2001)
I prodotti attesi in questa fase del progetto sono di tipo rapporto
tecnico e sintetizzano i risultati scientifici.
D0.R2: Specifica della architettura funzionale del repository di meta-dati
(RM,BO,CS,MI,MO).
D1.R6:
Descrizione della metodologia di integrazione di sorgenti fortemente
eterogenee (MI,BO,MO).
D1.R7:
Architettura funzionale di un ambiente di ausilio al progettista per
la costruzione di viste riconciliate di sorgenti fortemente eterogenee
basato sulle tecniche sviluppate (CS,MI,MO).
D1.R8:
Specifiche funzionali del Query Manager (MO).
Al
termine della Fase 3 (scadenza
il 31 luglio 2002)
I prodotti di questa fase del progetto sono di tipo prototipo sofware
(sigla P).
D0.P1: Repository di Meta-dati (BO,CS,MI,MO,RM).
D1.P1: Prototipo di ambiente di ausilio al progettista per la costruzione
di una vista globale basato su ontologie e assiomi inter-schema (MO).
D1.P5: Prototipo di un query manager per la gestione di query globali
(MO).
Al
termine della Fase 4 (scadenza
il 30 dicembre 2002)
Il risultato atteso in questa fase è quello della sperimentazione
e valutazione dei metodi messi a punto nel progetto; a tale scopo
verrà prodotto un rapporto tecnico che sintetizza tale risultato.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi
per l'integrazione (BO,CS,MI,MO,RM)