MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 10 del 13 gennaio 2000)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 2000 - prot. MM09268483_005


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati

Testo inglese

D2I: Integration, Warehousing, and Mining of Heterogeneous Data Sources

1.4 Coordinatore Scientifico del Programma di Ricerca

LENZERINI MAURIZIO  
(cognome) (nome)  
Università degli Studi di ROMA "La Sapienza" Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E SISTEMISTICA
(settore scient.discipl.) (Dipartimento/Istituto)


lenzerini@dis.uniroma1.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

PALOPOLI LUIGI  
(cognome) (nome)  


Professore associato 25/10/1964 PLPLGU64R25D086C
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi della CALABRIA Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di ELETTRONICA, INFORMATICA E SISTEMISTICA
(settore scient.discipl.) (Dipartimento/Istituto)


0984494749 0984494713 palopoli@unical.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A K05B


1.7 Parole chiave

Testo italiano
BASI DI DATI ; SISTEMI INFORMATIVI ; INTEGRAZIONE ; DATA WAREHOUSING ; DATA MINING ; MODELLI CONCETTUALI ; OTTIMIZZAZIONE DI INTERROGAZIONI ; METAQUERYING

Testo inglese
DATABASES ; INFORMATION SYSTEMS ; INTEGRATION ; DATA WAREHOUSING ; DATA MINING ; CONCEPTUAL MODELS ; QUERY OPTIMIZATION ; METAQUERYING


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Luigi Palopoli e' professore associato di Sistemi per l'elaborazione delle informazioni (settore K05A) presso l'Università degli Studi della Calabria, Facoltà di Ingegneria.
I suoi interessi di ricerca riguardano la teoria e le applicazioni delle basi di dati, con particolare enfasi ai sistemi informativi cooperativi ed al data mining, e le tecniche ed i formalismi per la rappresentazione della conoscenza. Lavora attualmente sul tema dell'integrazione di dati provenienti da sorgenti eterogenee, distribuite e pre-esistenti e su quello del metaquerying, una promettente tecnica di mining di dati che consente la scoperta di regole complesse. Nel quadro delle attivita' di coordinamento di alcuni progetti di ricerca, si e' anche di recente occupato di problematiche di data warehousing e della definizione di metamotori adattivi di ricerca di informazioni su Web. In passato si e' interessato di linguaggi logici di basi di dati e di vari temi collegati ai formalismi per la rappresentazione di conoscenza. Ha collaborato e collabora attivamente con diversi centri di ricerca nazionali ed internazionali. E' stato "visiting scientist" presso il Computer Science Dept. dell'Universita' della California a Los Angeles e presso gli AT&T Laboratories di Florham Park (USA). Nel periodo piu' recente, ha svolto attivita' di coordinamento dei seguenti progetti: Net-R, finanziato dall'AIPA per la realizzazione di un sistema di accesso basato su mediatore alle basi di dati della pubblica amministrazione; DW-PTC, consistito in uno studio di fattibilita' per lo sviluppo di un data warehouse del Piano Telematico Calabria; MetaM, finanziato dal Centro di Ingegneria Economica e Sociale per la progettazione e lo sviluppo di un metamotore adattativo per la ricerca di informazioni su Web.

Testo inglese

Luigi Palopoli is associate professor of computer engineering (group K05A) at Universita' della Calabria, School of Engineering. His research interest regard database theory and applications and, in particular, cooperative information systems, data mining and techniques and formalisms for knowledge representation. Presently, his work focuses on the issues of distributed, pre-existing heterogeneous information sources and of metaquerying, a promising data mining technique allowing the user to discover complex knowledge patterns from data. In the framework of coordination activities he carried out for some recent research project, he has also been interested in problems related to data warehouse design and in the development of adaptative Web-search engines. In past years, he was involved in research regarding logic database languages and various issues related to knowledge representation. Luigi Palopoli has active research collaboration with several national and international research institutions. He has been visiting scientist at Computer Science Dept. of the University of California at Los Angeles and at AT&T Laboratories in Florham Park (USA). In recent years he acted as coordinator of the following projects: Net-R, funded by AIPA for the design and the development of a mediator-based access system to public administration databases, DW-PTC, consistiting in the development of the realizability analysis of a data warehouse for the Piano Telematico Calabria, MetaM, funded by Centro di Ingegneria Economica e Sociale for the design and the development of an adaptative Web-search meta-engine.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. PALOPOLI L., SACCA' D., TERRACINA G., URSINO D., "A Unified Graph-Based Framework for Deriving Nominal Interscheme Properties, Type Conflicts and Object Cluster Similarities" , Rivista: Proc. Int. Conf. of Cooperative Information Systems , pp.: 34-45 , (1999) .
  2. FLESCA S., PALOPOLI L., SACCA D., URSINO D., "An architecture for accessing a large number of autonomous, heterogeneous databases" , Rivista: Networking and Information Systems , Volume: 1 , pp.: 495-518 , (1998) .
  3. ANGIULLI F., BEN-ELIYAHU-ZOHARY R., IANNI G.B., PALOPOLI L., "Computational propertiesof metaquerying problems" , Rivista: Proc. ACM Symp. on Princ. of Database Systems , (2000) Di prossima pubblicazione .
  4. PALOPOLI L., SACCA' D., URSINO D., "DLP: A Description Logic for Extracting and Managing Complex Terminological and Structural Properties from Database Schemes" , Rivista: Information Systems , Volume: 24 , pp.: 401-424 , (1999) .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2000 2001
 
1  PALOPOLI  LUIGI  ELETTRONICA, INFORMATICA E SISTEMISTICA  Prof. associato  K05A  4  4
2  GRECO  SERGIO  ELETTRONICA, INFORMATICA E SISTEMISTICA  Prof. associato  K05A  4  4
3  RULLO  PASQUALE  MATEMATICA  Prof. ordinario  K05B  4  4
4  SACCA'  DOMENICO  ELETTRONICA, INFORMATICA E SISTEMISTICA  Prof. ordinario  K05A  4  4
5  SCARCELLO  FRANCESCO  ELETTRONICA, INFORMATICA E SISTEMISTICA  Ricercatore  K05A  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2000 2001
 
1  BUCCAFURRI  FRANCESCO  REGGIO CALABRIA  INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI  Ricercatore  K05A  3  2
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi
uomo
2000 2001
 
 

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. IANNI  GIOVAMBATTISTA  ELETTRONICA, INFORMATICA E SISTEMISTICA  2002  16 
2. URSINO  DOMENICO  ELETTRONICA, INFORMATICA E SISTEMISTICA  2000  16 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. laureato  24  12 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. LEONE  NICOLA  Politecnico di Vienna  prof. ordinario 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Modelli e tecniche per l'integrazione, l'interrogazione ed il metaquerying in ambiente data warehouse.

Testo inglese

Models and techniques for integration, querying and metaquerying of data warehouses

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

L'attività di ricerca relativa a questo progetto si articola, per la nostra unità, sui tre temi di ricerca:
- TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
- TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
- TEMA 3: DATA MINING.
Di seguito viene fornita una descrizione della base di partenza scientifica. Il materiale presentato è suddiviso per tema.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Il caotico sviluppo dei Sistemi Informativi all'interno delle organizzazioni complesse ha portato a grandi diseconomicita' nella gestione delle informazioni. Di qui la necessita' di sistemi che consentano accesso e gestione uniforme a sorgenti di dati eterogenee. In presenza di numerose sorgenti informative risulta peraltro fondamentale la disponibilita' di tool di supporto alla progettazione di tali sistemi integrati. Una parte fondamentale che questi sistemi di supporto devono svolgere e' l'estrazione di proprieta' di oggetti di schemi sorgenti (proprieta' interschema), quali sinonimie, omonimie, inclusioni, conflitti di tipo ecc. In [Palopoli 99] abbiamo illustrato delle tecniche semi-automatiche per l'estrazione di sinonimie, omonimie ed inclusioni da schemi di basi di dati. In [Palopoli 98] abbiamo proposto un approccio basato su visite di grafi per l'individuazione di conflitti di tipo in schemi di basi di dati. Infine, in [Palopoli 00] abbiamo descritto degli algoritmi semi-automatici per l'integrazione e l'astrazione di schemi di basi di dati.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
I temi di ricerca legati al data warehousing sono oggetto di forte interesse da parte della comunità scientifica. Sebbene molti aspetti specifici legati alla modellazione concettuale, alla modellazione logica, alla materializzazione delle viste, all'ottimizzazione di interrogazioni e alla selezione degli indici siano stati trattati, a tutt'oggi l'area è ben lungi dal poter essere considerata matura.
In particolare, questa unità di ricerca si occuperà della valutazione efficiente di interrogazioni su data warehouse. In tale contesto, è infatti necessario valutare nuove e complesse problematiche dovute non solo alla presenza di grandi quantità di dati, ma anche ad una struttura concettuale basata su diversi livelli di astrazione, in cui è possibile la presenza di viste non materializzate. Ciò rende necessaria la definizione di nuove tecniche di interrogazione efficiente adatte al contesto data warehousing. Ad esempio, tecniche di query containment, query rewriting e, più in generale, tecniche di ottimizzazione basate sulla struttura dell'interrogazione, possono essere utilizzate allo scopo.
In [Gottlob98] è stato presentato un algoritmo per la valutazione efficiente di interrogazioni congiuntive e per il query containment nel caso di interrogazioni acicliche. In [Gottlob99a] il precedente approccio è stato esteso ad una classe di interrogazioni più ampia che comprende anche interrogazioni con un limitato livello di ciclicità. In [Gottlob99b] tale metodo viene confrontato con i principali metodi "strutturali" descritti in letteratura dimostrando la sua maggiore generalità.
TEMA 3: DATA MINING.
Il data mining e', al giorno d'oggi, una delle aree di ricerca piu' vitali nel settore della gestione automatica di informazioni. In quest'ambito, la tecnica del 'meta querying' ha di recente ricevuto attenzione nella comunita' scientifica adattandosi bene alla descrizione di classi di pattern complessi di dati che possono essere estratti da basi di dati relazionali. Una caratteristica importante di questa tecnica di tipo logico, consiste nella capacita' di derivare pattern informativi che coinvolgono informazioni presenti in tabelle distinte del database sorgente.
Purtroppo, come abbiamo dimostrato in un recentissimo articolo ([Angiulli 2000]), il metaquerying, anche nelle sue accezioni piu' semplici e' computazionalmente intrattabile: vengono tuttavia evidenziate delle interessanti varianti trattabili del problema.
Esistono inoltre, ulteriori tecniche di data mining che mancano di una adeguata sistemazione teorica, come, ad esempio le association rules [Agrawal 93].

Testo inglese

The research activity of our unit within the project regards three themes:
- TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
- TASK 2: DATA WAREHOUSE DESIGN AND QUERYING.
- TASK 3: DATA MINING.
A description of the state of the art including the activities carried out by our group is given next, divided on the basis of the theme.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
The chaotic growth of information system applications within complex organizations brought to frequent inefficiency of data management. Therefore, the necessity has been pointed out of systems allowing for an uniform access and management of data belonging to heterogeneous data sources. When the number of information sources is large, the availability of design support tools is very important. The extraction of properties of objects belonging to source schemes (interscheme properties), such as synonymies, homonymies, type conflicts and object inclusions, is a fundamental task that design support systems must carry out. In [Palopoli 99] we illustrated semi-automatic techniques for extracting synonimies, homonymies and object inclusions from database schemes. In [Palopoli 98] we proposed a graph-based approach to detect type conflicts in database schemes. Finally, in [Palopoli 00] we described a semi-automatic algorithms for
integrating and abstracting database schemes.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING.
The database community is strongly interested in the research themes concerning data warehouses. Though specific issues related to conceptual modeling, logical modeling, view materialization, query optimization, and index selection have been investigated, the data warehouse area is still far from being considered mature.
In particular, our unit will work on the problem of querying a data warehouse, which is also a relatively new problem and has not yet been deeply investigated. Indeed, the large amount of data available and the different levels of abstractions with materialized or non-materialized views lead to the need of suitable query answering techniques specifically designed for data warehouses. Query containment, query rewriting techniques, and, in general, optimisation techniques based on the query structure can be used for this purpose.
In [Gottlob98], an algorithm for the efficient evaluation of acyclic conjunctive queries and query containment for acyclic queries has been presented. In [Gottlob99a], a class of queries that extends the class of acyclic queries and includes queries with bounded degree of cyclicity has been identified. Moreover, in [Gottlob99b], this method has been compared with the main "structural" methods described in the literature. It turned out that this is the most general method, i.e., the method giving the largest class of tractable queries.
TASK 3: DATA MINING.
Data mining is nowadays one of the most vital research area in the
field of automatic information management. In this context, 'metaquerying' has recently attracted the attention of the research community, since it was proved well suited for describing class of complex data patterns to be extracted from relational databases. An interesting characteristics of this logic-based
technique is its capability in deriving data patterns involving more than one table of the source database. Unfortunately, as proved in a recent paper [Ben-Eliyahu 99], even simplest variants of metaquerying is computationally intractable.
Moreover, there are further data mining tecniues that lack of an appropriate theoretical foundation, e.g., the association rules [Agrawal 93].

2.2.a Riferimenti bibliografici

[Agrawal 93] R. Agrawal, T. Imielinski, A. N. Swami.
Mining Association Rules between Sets of Items in Large Databases.
SIGMOD Conference 1993: 207-216.
[Angiulli 2000] F. Angiulli, R. Ben-Eliyahu, G.B. Ianni, L. Palopoli.
Computational properties of metaquerying problems. Symposium on Principle of
Database Systems 2000, to appear.
[Ben-Eliyahu 99] R. Ben-Eliyahu, E. Gudes. "Towards efficient
metaquerying", Proceedings of the 16th International Joint Conference on Artificial Intelligence -- IJCAI '99, Stoccolma, Agosto 1999.
[Gottlob98] G. Gottlob, N. Leone, F. Scarcello,
"The Complexity of Acyclic Conjunctive Queries",
Proceedings of the 39-th IEEE Symposium on Foundations of Computer Science (FOCS'98), Palo Alto, California, November 8--11, 1998, pp. 706--715.
[Gottlob99a] G. Gottlob, N. Leone, F. Scarcello,
"Hypertree Decompositions and Tractable Queries",
Proceedings of the 18th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems -- PODS'99, 31 Maggio - 2 Giugno 1999, pp. 21--32.
[Gottlob99b] G. Gottlob, N. Leone, F. Scarcello,
"A Comparison of Structural CSP Decomposition Methods",
Proceedings of the 16th International Joint Conference on Artificial Intelligence -- IJCAI '99, Stoccolma, Agosto 1999.
[Palopoli 98] L. Palopoli, D. Sacca', D. Ursino. "An automatic technique for detecting
type conflicts in database schemes", Proc. ACM-CIKM'98, 306-313, Bethesda (MD),
1998.
[Palopoli 99] L. Palopoli, D. Sacca', D. Ursino. "Semi-automatic techniques for deriving interscheme properties from database schemes, DKA, 30(4), 239-273, 1999.
[Palopoli 00] L. Palopoli, L. Pontieri, G. Terracina, D. Ursino. "Intensional and extensional integration and abstraction of eterogeneous databases", DKE,
Forthcoming.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

Le attività di ricerca si articolano, all'interno dei tre temi di interesse della nostra unità, in quattro fasi, come di seguito specificato.
Prima fase: Analisi dell’esistente/specifiche requisiti
Durata: 4 mesi
Descrizione:
Questa fase sarà dedicata alla definizione dettagliata dei requisiti che il contesto generale del progetto pone sui vari temi di ricerca. In questa fase, in collaborazione con le altre unità, verrà anche specificato il ruolo del repository di meta-dati che fornirà la base comune per le metodologie e gli strumenti che verranno sviluppati nelle fasi successive.
Nel seguito descriviamo il programma di ricerca specifico per i singoli temi.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Nel quadro delle tematiche del Tema 1, l'unita' dell'Universita' della Calabria si propone di generalizzare le tecniche gia' sviluppate all'estrazione di altre tipologie di proprieta' interschema, quali ad esempio le iponimie; si propone inoltre di generalizzare lo studio dell'estrazione di proprietà interschema a sorgenti informative semi-strutturate (dati OEM, documenti XML) che, grazie allo sviluppo del WEB, stanno affermandosi sempre più come le nuove forme di memorizzazione e di scambio delle informazioni. Infine, si propone di affrontare lo studio della traduzione dei dati da un modello di rappresentazione sorgente ad un modello di rappresentazione target. Si propone infine di collaborare alla definizione di un repository di meta-dati che descrive le diverse tipologie di sorgenti e di relazioni intra e interschema. Dopo aver svolto un'analisi approfondita dello stato dell'arte le attivita' della nostra unita' si focalizzeranno sulla generalizzazione delle tecniche da noi sviluppate a nuove tipologie di proprietà interschema; inoltre si studierà la possibilità di individuare delle tecniche per l'estrazione di proprietà interschema da sorgenti informative semi-strutturate. Si darà una definizione preliminare della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.
TEMA 2: PROGETTAZIONE ED INTERROGAZIONE DI DATA WAREHOUSE.
Nell'ambito di questo tema, la nostra unità di ricerca affronterà il tema dell'interrogazione efficiente in ambiente data warehouse.
Dopo uno studio preliminare dello stato dell'arte sui data warehouse e sulle tecniche di interrogazione efficienti di basi di dati (query containment, query rewriting, ecc.), il primo obiettivo consisterà nella individuazione delle specificità del contesto data warehouse in cui dovranno essere risolti i problemi di efficienza delle interrogazioni. Si tratterà essenzialmente di individuare i metodi di ottimizzazione esistenti più adatti ad essere estesi nel nuovo contesto applicativo.
TEMA 3: DATA MINING.
All'interno delle problematiche di interesse del Tema 3, l'unita' dell'Universita' della Calabria si propone di svolgere uno studio
approfondito sulle sorgenti di intrattabilita' computazionale di alcune varianti del problema del metaquerying al fine di identificare ulteriori casi trattabili che evidenzino un buon interesse applicativo e di progettare, implementare e sperimentare algoritmi per il riconoscimento e la risoluzione di tali casi.
Dopo portato a termine l'analisi approfondita dello stato dell'arte l'unita' dell'Universita' della Calabria si concentrera' sull'individuazione di un insieme di varianti del metaquerying che rivelino un buon interesse applicativo e sullo studio delle sorgenti di intrattabilita' computazionale che caratterizzano tali varianti. Verrà inoltre compiuto uno studio preliminare sulle proprietà computazionali di altri problemi di data mining. La fase si concluderà con l'individuazione delle caratteristiche di un meta-data repository per la descrizione delle attività e dei risultati del data mining.
Risultati parziali attesi:
I risultati attesi in questa prima fase del progetto sono di tipo rapporto tecnico (sigla R). La cifra dopo la D indica il tema (se è 0, il risultato è comune a più temi). La lista tra parentesi indica le unità coinvolte nella produzione del risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma).
D0.R1: Specifiche per il meta-data repository (BO,CS,MI,MO,RM).
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semistrutturate (BO,CS,MI,MO,RM).
D1.R3: Metodi e tecniche per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target.
D2.R1: Documento sui risultati dell'analisi dello stato dell'arte sulle architetture di data warehouse (BO,CS).
D2.R3: Documento sull'analisi dello stato dell'arte sulle tematiche di interrogazione di sistemi di grandi dimensioni (CS).
D3.R1: Analisi e confronto di metodi ed algoritmi di data mining, con particolare riferimento a clustering, metaquerying, tecniche di visualizzazione, ricerche approssimate e di similarità (BO,CS,RM).
Seconda fase: Produzione dei risultati scientifici: metodi e tecniche.
Durata:8 mesi
Descrizione:
Questa fase è dedicata alla produzione dei dati scientifici. In questa fase verrà anche definita precisamente la struttura del repository di meta-dati e verrà specificato l'insieme dei servizi che il repository stesso dovrà offrire.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Nella seconda fase, verranno considerati problemi di integrazione che coinvolgono anche sorgenti di dati semi-strutturati e, in questo ambito, verranno progettate delle tecniche opportune per l'estrazione di proprieta' interschema. Si considereranno degli algoritmi per la traduzione dei dati da un modello di rappresentazione sorgente ad un modello di rappresentazione target; infine verranno inserite nel meta-data repository nuove tipologie di meta-relazione e verrà definita la sua architettura funzionale. Infine collaborerà alla definizione di algoritmi per la riscrittura di interrogazioni.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
In questa fase, sulla base dei risultati dell'analisi condotta nella fase precedente, l'Unità UNICAL si propone di sviluppare tecniche innovative di interrogazione in ambiente data warehouse attraverso l'estensione di tecniche preesistenti concepite per basi di dati relazionali. L'idea di base è quella di sfruttare le proprietà strutturali delle interrogazioni e delle viste materializzate per ottenere un'esecuzione ottimizzata. A tal fine si potrebbe sfruttare la proprietà di aciclicità strutturale della query riscritta per guidare il "query rewriting", rendendo in tal modo efficiente la successiva verifica di "query containment". In altri termini, in presenza di più riscritture possibili, vengono preferite quelle che generano interrogazioni con limitata ciclicità. Le informazioni necessarie per l'ottimizzazione (in particolare quelle relative alla descrizione delle viste) saranno estratte dal Meta-Data Repository. Inoltre, le scelte effettuate saranno memorizzate nel Meta-Data Repository per successivi eventuali riutilizzi.
TEMA 3: DATA MINING.
Verranno individuati dei sottocasi trattabili delle varianti di metaquerying individuate durante la prima fase e verranno progettati degli algoritmi efficienti per la loro implementazione. In questa fase si definirà anche la modalità di utilizzazione del meta-data repository al fine di guidare il processo di data-mining.
Risultati parziali attesi:
I risultati attesi in questa fase del progetto sono di tipo rapporto tecnico e sintetizzano i risultati scientifici.
D0.R2: Specifica dell'architettura funzionale del repository di meta-dati (BO,CS,MI,MO,RM).
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (MO,MI,CS).
D1.R9: Algoritmi per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS).
D2.R4: Tecniche di progettazione logica e di interrogazione efficiente di data warehouse (CS,BO).
D3.R2: Architettura del sistema integrato di data mining e visualizzazione (RM,BO,CS).
D3.R3: Studio di metodi di mining per clustering, ricerche approssimate e metaquerying.
Terza fase: Produzione di prototipi.
Durata:8 mesi
Descrizione:
Questa fase è dedicata allo sviluppo di prototipi di strumenti che affianchino e realizzino i metodi e le tecniche definiti nella fase precedente.
All'inizio della fase si prevede un incontro di coordinamento per lo sviluppo del repository di meta-dati, la cui specifica e la cui architettura sono state decise nella fase precedente, e per stabilire il modo in cui i vari prototipi si interfacciano con il repository di meta-dati.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'unita' dell'Universita' della Calabria si concentrera' sulla progettazione ed
iniziale implementazione di un prototipo, che implementi gli algoritmi per l'estrazione di proprietà interschema, di un prototipo per la traduzione di dati e di un prototipo per gli algoritmi di query rewriting e query answering using views sviluppati nella fase 2.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
Le tecniche prodotte nella seconda fase saranno implementate a livello prototipale. Il prototipo riceverà in input una interrogazione e, sulla base delle informazioni presenti nel Meta-data repository, produrrà un piano di esecuzione che tende a massimizzare l'utilizzo di predicati (viste) materializzati.
TEMA 3: DATA MINING.
L'unita' dell'Universita' della Calabria si focalizzera' sulla progettazione e realizzazione di un prototipo che realizzi l'insieme degli algoritmi per il metaquerying ottenuti nella fase precedente.
Risultati parziali attesi:
I risultati attesi in questa fase sono di tipo prototipo software (sigla P).
D0.P1: Repository di meta-dati (BO,CS,MI,MO,RM).
D1.P2: Prototipo per l'estrazione di proprietà inter-schema (CS).
D1.P6: Prototipo per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS).
D2.P2: Prototipo che implementa le tecniche di ottimizzazione di interrogazioni di data warehouse (CS).
D3.P3: Prototipo per il meta-querying (CS).
Quarta fase: Validazione e sperimentazione.
Durata:4 mesi
Descrizione:
Questa fase è dedicata al completamento della realizzazione dei prototipi, e alla sperimentazione e alla validazione delle metodologie e degli strumenti sviluppati nelle fasi precedenti.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE
In quest'ultima fase la nostra unita' concludera' la realizzazione dei vari prototipi e avviera' una serie di sperimentazioni per verificarne l'efficacia in problemi reali di integrazione.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
Il prototipo sarà validato utilizzando dati significativi dal punto di vista quantitativo in maniera tale da poter verificare l'effettiva bontà degli algoritmi implementati.
TEMA 3: DATA MINING.
In quest'ultima fase la nostra unita' portera' avanti una sperimentazione sul campo con l'obiettivo di verificare l'effettiva applicabilita' delle tecniche realizzate nel prototipo a problemi applicativi reali. A tale scopo il prototipo verra' interfacciato a basi di dati reali pre-esistenti ed i pattern di dati da esso estratti verranno valutati qualitativamente con l'aiuto di uno o piu' esperti dello specifico dominio applicativo analizzato.
Risultati parziali attesi:
Il risultato atteso in questa fase è quella della sperimentazione e valutazione dei metodi messi a punto nel progetto. A tale scopo, verrà prodotto, per ogni tema, un rappporto tecnico che sintetizza i risultati ottenuti.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (BO,CS,MI,MO,RM).
D2.R6: Risultati della sperimentazione condotta con i prototipi sviluppati nella fase 3 per il data warehouse (BO,CS).
D3.R4: Validazione e studio di usabilità dei prototipi di clustering, metaquerying, ricerche approssimate e visualizzazione (BO,CS,RM).

Testo inglese

The research activity that our unit will carry out, will be developed during four phases, as specified next.
First phase: Preliminary analysis/specific requisites.
Duration:4 months.
Description:
This phase will be devoted to the precise definition of the requirements arising from the context studied in the project. The role of a meta-data repository as a basis for the various methodologies and tools that will be developed in the project will also be studied. These kind of activities will be carried out jointly by the various partners.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
In the context of Theme 1, the research unit of Universita' della Calabria will generalize extraction techniques in order to have them dealing with further types of interscheme properties, such as hyponymies, and study correlations and dependencies among interscheme properties in order to improve the quality of extracted properties. Furthermore, we will design new property extraction techniques good for dealing with semistructured information sources.
We will first carry out an in-depth study of the state of the art. Then, our activities will focus on generalizing techniques we have recently developed to deal with further types of interscheme properties.
A preliminary structure of the meta-data repository describing the different kinds of sources and intra/inter schema relationships will be defined.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING.
In the context of Theme 2, our unit will cope with the problem of the efficient query answering over data warehouses. The research activity will be carried out according to the following phases.
The unit will preliminary study the data warehouse state of the art as well as query answering techniques (query containment, query rewriting, etc.) reported in the database literature. Then, the first point is to analyse the peculiarities of the data warehouse context where the efficient query-answering problems are to be solved. Basically, in this phase the most relevant existing optimisation techniques for this new application framework should be identified and studied.
TASK 3: DATA MINING.
In the context of Theme 3, the research unit of Universita' della Calabria will carry out an in-depth study of the sources of intractability characterizing several variants of metaquerying. This will allow us to identify tractable subcases of metaquerying well-suited for real applications. We will also design and implement both recognition and resolution algorithms for treating
these tractable subcases.
Our first activity will be a detailed analysis of the state of the art. Then, we will single out a number of variants of metaquerying chosen on the basis of their relevance in real applications and study the source of intractability of their solution.
Expected deliverables:
The expected results of this phase are technical reports (R). They are denoted as follows: Di.Rj, where i is the task number (O, for deliverables common to the tasks), and j the progressive product number within the task. The ID’s of the groups are: Bologna-BO, Cosenza-CS, Milano-MI, Modena-MO, Roma-RM. They are used to specify the partners involved in the deliverable.
D0.R1: Specification for the Meta-Data repository (BO,CS,MI,MO,RM).
D1.R1: Methods and techniques for the automatic extraction, representation, and integration of structured and semi-structured data sources (BO,CS,MI,MO,RM).
D1.R3: Methods and Techniques for the translation of information from the data models of the sources and the target data model (CS)
D2.R1: State of the art of Data Warehouse Architectures (BO,CS)
D2.R3: State of the art of querying very large data sets (CS)
D3.R1: Analysis and comparison of data mining methods and algorithms, with reference to clustering, metaquerying, visualization techniques, approximate and similarity search. Analysis of research prospects in these areas (BO,CS,RM).
Second phase: Development of Scientific Results: methods and techniques.
Duration:8 months.
Description:
This phase is devoted to the development of scientific results, in the form of methods and techniques for the three tasks of the project. Also, the structure and the functionalities of the repository will be specified.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
In this phase, we will consider integration problems involving both structured and semi-structured data sources. In this context, we will develop ad-hoc techniques for extracting interscheme properties.
The meta-data repository structure, whose definition started in phase 1, will be enriched with new kinds of meta-data and meta-relations identified in this phase.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING.
In this phase, on the basis of the previous analysis results, our unit will develop innovative answering techniques in the data warehouses framework. To this end, existing relational database techniques will be suitably extended to this context. The idea is to exploit structural properties of both queries and materialized views to yield an optimal query execution. For instance, query rewriting can be suitably "driven" in order to obtain an acyclic (or quasi-acyclic) query. This way, the subsequent query containment step can be executed very efficiently. In other terms, whenever several different query rewritings are possible, those leading to queries with a bounded degree of cyclicity should be preferred. The Meta-Data Repository will provide all the information necessary for the optimisation phase (e.g., the descriptions of views). Moreover, outcomes of this phase will be suitably included in the Meta-Data Repository for possible subsequent uses.
TASK 3: DATA MINING.
Tractable subcases of the variants of metaquerying singled out in the first phase will be defined along with efficient algorithms for their implementation.
Expected deliverables:
The expected deliverables of this Phase are in the form of technical reports that describe the scientific results developed.
D0.R2: Functional architecture of the meta-data repository (BO,CS,MI,MO,RM).
D1.R9: Algorithms for the translation of information from the data models of the sources and the target data model (CS).
D2.R4: Techniques for data warehouse design and efficient querying (BO,CS).
D3.R2 Architecture of an integrated data mining and visualization tool (BO,CS,RM).
D3.R3 Development of data mining methods: Incremental clustering, Approximate search with quality index, Tractable cases of metaquerying (BO,CS).
Third phase: Prototypes development.
Duration:8 months.
Description:
This phase is devoted to the development of prototype tools implementing the methods and techniques proposed in the previous phases. The phase will begin with a meeting for coordinating the various activities for the meta-data repository development.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
Our research unit will design and carry out the initial implementation of a prototype system realizing the techniques developed within previous phases.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING.
The techniques proposed in the previous phase will be implemented in a prototypal optimisation module. This module will take a query and, on the basis of the information stored in the Meta-Data Repository, will output an execution plan that exploits, to the maximum extent, the presence of materialised views.
TASK 3: DATA MINING.
The research unit of Universita' della Calabria will focus its activity on the design and the implementation of a prototype realizing the set of algorithms obtained in the previous phase.
Expected deliverables:
The expected results of this Phase are software prototypes (P).
D0.P1: Meta-data repository (BO,CS,MI,MO,RM).
D1.P2: Prototype that realizes the algorithms for the extraction of interschema properties(CS).
D1.P6: Prototype for the translation between sources data model and target data model (CS).
D2.P2: A prototype which implements query answering optimization techniques in the data warehouse environment (CS).
D3.P3 Meta-querying prototype (CS).
Fourth phase: Validation and experimentation.
Duration: 4 months.
Description:
This phase is devoted to the completion of the implementation of the tools, and to the experimentation of the methods and the tools developed in the previous phases.
TASK 1: INTEGRATION OF DATA COMING FROM HETEROGENEOUS SOURCES.
In the final phase, we will conclude the implementation of the prototype and carry out a number of experiments to check its effectiveness in real integration problems.
TASK 2: DATA WAREHOUSE DESIGN AND QUERYING.
The prototype will be validated using suitable database instances. In particular, large queries and very large databases will allow us to verify the effectiveness of the proposed algorithms.
TASK 3: DATA MINING.
During this final phase our unit will carry out an experimentation 'on-the-field' to evaluate effective applicability of techniques implemented in the prototype on real application cases. To this end, the prototype will be interfaced with pre-existing databases and the quality of extracted data patterns will be evaluated with the help of one or more experts of the specific application domain at hand.
Expected deliverables:
The expected results of this phase are the experimentation and evaluation of the methods developed within the project. To this end, a technical report syntetizing such a result will be delivered.
D1.R12: Experimentation and evaluation of the prototypes (BO,CS,MI,MO,RM).
D2.R6: Report describing the experimental results obtained on data warehuose design and querying (BO,CS).
D3.R4 Evaluation and usability study of the prototypes for clustering, meta-querying, approximate search and visualization (BO,CS,RM).

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 60  30.987  Personal Computer, Stampanti, PC server, Scanner,  personal computers, printers, PC servers, scanner 
Grandi Attrezzature        
Materiale di consumo e funzionamento 10  5.165  materiale di cancelleria, carta da stampa, toner, cd-rom  stationery, printer paper, toner, cd-roms 
Spese per calcolo ed elaborazione dati 10  5.165  uso di macchine per il trattamento di grandi quantita' di dati  usage of computers for elaboration of massive data 
Personale a contratto 24  12.395  un laureato per 12 mesi di impegno  a graduated professional for 12 man-month 
Servizi esterni 25  12.911  linee telefoniche e trasmissione dati, supporto ed assistenza hardware e software  telephone and data transmission services, hardware and software support and assistance 
Missioni 66  34.086  missioni del personale impegnato del progetto in Italia e all'estero  travelling and living expenses of personnel involved in the project 
Altro 12  6.197  spese per la pubblicazione di risultati scientifici, divulgazione  publication expenses, divulgation 


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 207  106.907 
 
Costo minimo per garantire la possibilità di verifica dei risultati 166  85.732 
 
Fondi disponibili (RD) 43  22.208 
 
Fondi acquisibili (RA) 20  10.329 
 
Cofinanziamento richiesto al MURST 144  74.370 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università 2000   20  10.329    16ML 60% DEIS, 4ML 60% Dip. di Matematica 
Dipartimento          
MURST (ex 40%)          
CNR          
Unione Europea          
Altro 1999   23  11.879     
TOTAL   43  22.208     

4.1.1 Altro

13ML Contratto consorzio Telcal riguardante "Studio di fattibilita' di un DataWarehouse"
10ML Contratto Consorzio di Ingegneria Economica e Sociale riguardante "Realizzazione di un agente intelligente"

4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro 2001   accettato  20  10.329   
TOTAL     20  10.329   

4.2.1 Altro

20ML contratto consorzio Telcal riguardante "Realizzazione di procedure OLAP per un data warehouse del PTC"

4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 31/03/2000 18:11:03