D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee
Prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema

Sonia Bergamaschi, Alberto Corni, Francesco Guerra, Maurizio Vincini

 
TemaTema 1: Integrazione di dati provenienti da sorgenti eterogenee
CodiceD1-P1
Data1 ottobre 2002
Tipo di prodottoProdotto software
UnitÓ responsabileMO
UnitÓ coinvolteMO
AutoriSonia Bergamaschi, Alberto Corni, Francesco Guerra, Maurizio Vincini
Autore da contattareFrancesco Guerra
UniversitÓ degli studi di Modena e Reggio Emilia
guerra.francesco@unimore.it
Presentazione prototipoD1-P1
Documentazione in linea  http://www.dbgroup.unimo.it/Momis/
 


Descrizione

SI-Designer è un tool di ambiente di ausilio al progettista per la costruzione di una vista globale di dati provenienti da sorgenti eterogenee basato su ontologie e assiomi inter-schema. La costruzione della vista globale viene effettuata mediante un approccio semantico applicando tecniche basate su logiche descrittive, e utilizzando una base di conoscenza rappresentata dal database lessicale WordNet.

Partendo dalla descrizione in linguaggio ODLi3 (una estensione del linguaggio standard ODL-ODMG) delle sorgenti da integrare, il prototipo supporta l'utilizzatore nella creazione di una vista globale di tutte le sorgenti, anch'essa espressa nello stesso linguaggio ODLi3. ODLi3 è completamente traducibile, senza perdita di semantica, in XML, rendendo in questo modo lo schema globale fruibile da applicazioni esterne.

Il processo di integrazione porta alla costruzione di una ontologia comune delle diverse sorgenti e si compone principalmente di due fasi: in una prima fase si ottiene la costruzione in maniera semi-automatica di un insieme di relazioni terminologiche, intraschema e interschema, intensionali e estensionali, che viene chiamato Common Thesaurus. Successivamente, sulla base della conoscenza espressa nel Common Thesaurus, attraverso tecniche di clustering si giunge alla costituzione dello schema globale che è costituito dalle classi globali, ciascuna delle quali composta da un insieme di attributi globali, e da una tabella di mapping attraverso la quale viene definita la corrispondenza fra schema globale integrato e schemi locali di partenza, adottando un approccio GAV (Global as View).

Per la realizzazione dell'intero processo, il prototipo mette a disposizione una interfaccia grafica che consente al progettista sia di interagire con i componenti software che individuano le relazioni terminologiche inserite nel Common Thesaurus, sia di gestire la fase di creazione delle classi globali.
Il prototipo, attraverso la struttura e la successione dei moduli software che lo costituiscono, guida l'utilizzatore nel percorso in cui è stato suddiviso il processo incrementale di costruzione dello schema integrato:

  1. Acquisizione delle sorgenti: in questa fase vengono definite le sorgenti che devono essere integrate. Tali sorgenti possono essere espresse in diversi linguaggi di rappresentazione: un wrapper provvederà a tradurle nel linguaggio ODLi3 utilizzato.
  2. Definizione di relazioni terminologiche derivate dallo schema: in questa fase SI-Designer interagisce con il tool SIM (Source Integrator Module) che in maniera automatica introduce nel Common Thesaurus le relazioni derivate dalla struttura delle sorgenti. SIM opera utilizzando ODB-Tools, un ambiente software sviluppato presso l'Università di Modena e Reggio Emilia, in grado di validare schemi ad oggetti.
  3. Definizione di relazioni lessicali: il modulo SLIM (Source Lessical Integration Module), tramite l'interazione con il database lessicale WordNet, associa ad ogni descrizione di schema la corretta semantica e introduce nel Common Thesaurus le relazioni lessicali individuate.
  4. Validazione e inferenza di nuove relazioni: interagendo nuovamente con il modulo SIM e con l'ambiente ODB-Tools si ottiene la validazione delle relazioni individuate ai passi precedenti e l'inferenza di nuove relazioni. In questa fase l'utilizzatore può inoltre introdurre nuove relazioni che dovranno in ogni caso essere sottoposte al processo di validazione.
  5. Fase di clustering: in questa fase, sulla base della conoscenza derivata dal Common Thesaurus, in particolare quindi sulla base delle relazioni intensionali, delle relazioni estensionali, vengono create, con uno specifico algoritmo di clustering (parametrico sulla base delle esigenze dell'utilizzatore o in relazione alle tipologie delle sorgenti) le classi globali sintesi dell'attività di integrazione.
  6. Tuning delle Mapping Table: in questa fase, per ognuna delle classi globali individuate nella fase di clustering, viene definita la rispettiva mapping table. Anche questo processo avviene in maniera semi-automatica attraverso l'interazione con l'utilizzatore che potrà variare il mapping automatico proposto dal sistema.
 

Ambiente di sviluppo e di esecuzione

Sviluppato in Java 1.3. (Compatibile con tutte le versioni di java superiori alla 1.2).
La gestione della concorrenza in fase di sviluppo è stata supportata da CVS - Concurrent Versions system (http://www.cvshome.org)
Eseguibile in tutti i sistemi operativi che prevedano la JVM (Testato in ambienti Unix-solaris e Windows 98-2000)

 

Back

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it