Accesso diretto a documenti XML (DOM e SAX)

Linguaggi e tecnologie per il Web
Corso di Laurea in Ingegneria Informatica e Automatica
Sapienza Università di Roma
a.a. 2015/2016

XML

Parte 3:
Accesso diretto a documenti XML (DOM e SAX)

Luigi Dragone, Riccardo Rosati

Accesso diretto a documenti XML (DOM e SAX)

Accesso diretto a documenti XML si ottiene tramite

DOM (Document Object Model)
SAX (Simple API for XML)

DOM: Document Object Model

Il DOM (Document Object Model) è un modello ad oggetti dei dati contenuti in un documento XML
L’API del DOM è un’interfaccia di programmazione applicativa che consente di manipolare opportunamente tali strutture dati
Il modello di un documento è assimilabile ad una struttura ad albero
Un nodo dell’albero può essere un elemento, un attributo, una sezione #PCDATA o una sezione CDATA del documento

DOM API

L’API DOM è definito come un insieme di interfacce CORBA (IDL)

L’API è costituita da una serie di interfacce per gli elementi del DOM (elementi, attributi, entità) e per oggetti di “appoggio” (liste di nodi e mappe di attributi)

Lo standard è definito dal W3C ed esistono implementazioni in diversi linguaggi (C++, Java, VisualBasic, Delphi)

La libreria JAXP (Java API for XML Processing) di Java permette di utilizzare le API del DOM

(JAXP:DOM=JDBC:RDBMS)

Il nucleo DOM

Interfacce Fondamentali (valide per qualsiasi documento anche non XML, per esempio HTML)
- Node
- Document
- DOMImplementation
- DocumentFragment
- NodeList
- Element
- Attr
- CharacterData
- Text
- Comments
- DomException
Interfacce Estese (specifiche per i documenti XML)
- CDATASection
- DocumentType
- Notation
- EntityReference
- Entity
- ProcessingInstruction

Interfaccia Node

Il nodo è la struttura fondamentale del DOM, ogni altra struttura è ottenuta come specializzazione dell’interfaccia Node supporta essenzialmente 3 tipi di operazioni:

informazioni su un nodo
attraversamento dell'albero
modifica dei nodi

Estensioni dell'Interfaccia Node

Interfaccia Document: Estende Node per rappresentare (la radice di) un documento. Un Node non può essere creato se non viene creato un Document

Interfaccia Element: Estende Node per rappresentare un elemento

Interfaccia Attr: Estende Node per rappresentare un attributo

Interfaccia Text:Estende Node per rappresentare una sezione #PCDATA

Interfacce di collegamento

Interfaccia NamedNodeMap: rappresenta una mappa di nodi indicizzata sul nome e consente di accedere ad un nodo dell’insieme attraverso il nome

Interfaccia NodeList: rappresenta una lista di nodi

int getLength() restituisce il numero dei nodi dell’insieme
Node item(int index) restituisce un nodo dato l’indice

Interfaccia Node

Il nodo è la struttura fondamentale del DOM, ogni altra struttura è ottenuta come specializzazione dell’interfaccia Node

Node appendChild(Node newChild) aggiunge un nodo figlio
NodeList getChildNodes() estrae la lista dei nodi figli
Node getFirstChild() / Node getLastChild() restituisce il primo/ultimo nodo figlio
boolean hasChildNodes() verifica la presenza di nodi figli
NamedNodeMap getAttributes() restituisce la mappa degli attributi
boolean hasAttributes() verifica la presenza di attributi
String getNodeName() restituisce il nome del nodo
short getNodeType() restituisce il tipo del nodo
Node getNextSibling() / Node getPreviousSibling() restituisce il nodo immediatamente successivo / precedente
Node getParentNode()restituisce il nodo padre
Document getOwnerDocument() restituisce il documento contenente il nodo
void setNodeValue(String nodeValue) / String getNodeValue() imposta / restituisce il valore del nodo

Interfaccia Document

Estende l’interfaccia Node per rappresentare le caratteristiche tipiche di un documento

Element getDocumentElement() restituisce il root-element del documento
Element getElementById(String elementId)restituisce l’elemento del documento di cui si è fornito l’ID
Attr createAttribute(String name) crea un attributo con un dato un nome
Element createElement(String tagName) crea un elemento con un tag
Text createTextNode(String data) crea una sezione #PCDATA specificandone il contenuto

Interfaccia Element

Estende l’interfaccia Node per rappresentare le caratteristiche tipiche di un elemento

String getTagName() restituisce il tag dell’elemento
NodeList getElementsByTagName(String name) restituisce i sotto-nodi con un certo tag
String getAttribute(String name) restituisce il valore di un attributo
Attr getAttributeNode(String name) restituisce il nodo di un attributo
boolean hasAttribute(String name) verifica la presenza di un attributo
void setAttribute(String name, String value) imposta il valore di un attributo
Attr setAttributeNode(Attr newAttr) aggiunge un attributo

Interfaccia Attr

Estende l’interfaccia Node per rappresentare le caratteristiche tipiche di un attributo

String getName() restituisce il nome dell’attributo
Element getOwnerElement() restituisce l’elemento che contiene l’attributo
boolean getSpecified() verifica se l’attributo è stato specificato esplicitamente, oppure assume il suo valore di default
String getValue() restituisce il valore dell’attributo
void setValue(String value) imposta il valore dell’attributo

Interfaccia Text

Estende l’interfaccia Node per rappresentare le caratteristiche tipiche di una sezione #PCDATA

void setData(String data) imposta il contenuto del nodo
String getData() restituisce il contenuto del nodo

Interfaccia NamedNodeMap

Questa interfaccia rappresenta una mappa di nodi indicizzata sul nome e consente di accedere ad un nodo dell’insieme attraverso il nome

int getLength() restituisce il numero dei nodi dell’insieme
Node item(int index) restituisce un nodo dato l’indice
Node getNamedItem(String name) restituisce un nodo dato il nome
Node removeNamedItem(String name) elimina un nodo dall’insieme dato il nome
Node setNamedItem(Node arg) aggiunge, o sostituisce se presente, un nodo all’insieme

Interfaccia NodeList

Questa interfaccia rappresenta una lista di nodi

int getLength() restituisce il numero dei nodi dell’insieme
Node item(int index) restituisce un nodo dato l’indice

Costruzione di un Document

Occorre utilizzare le classi DocumentBuilderFactory e DocumentBuilder del package javax.xml.parser

1) Si deve istanziare un DocumentBuilderFactory

DocumentBuilderFactory docBuilderFact =
DocumentBuilderFactory.newIstance();

2) Quindi un DocumentBuilder

DocumentBuilder docBuilder =
docBuilderFact.newDocumentBuilder();

Classe DocumentBuilder

Questa classe permette di costruire un modello di documento (istanza del DOM)

La costruzione può avvenire in due modi

Mediante parsing di un documento già esistente
Mediante costruzione di un documento vuoto ex-novo

Per costruire un documento vuoto si utilizza il metodo newDocument() che restituisce un oggetto di tipo Document

Per costruire un documento mediante parsing si possono adoperare un insieme di metodi tra loro equivalenti, che si differenziano solo per la modalità di accesso al documento

Document parse(File f) effettua il parsing del file specificato
Document parse(InputSource is) effettua il parsing della sorgente specificata
Document parse(InputStream is) effettua il parsing dello stream specificato
Document parse(String uri) effettua il parsing del documento associato all’URI specificato

Esempio

Parsing di un documento contenuto in una stringa s

String s="<A><B/></A>";
StringReader sr = new StringReader(s);
InputSource is = new InputSource(sr);
Document doc = docBuilder.parse(is);
…

Esempio

Costruzione del documento

Creazione del documento vuoto

Document doc = docBuilder.newDocument();

Creazione dell’elemento A

Element elemA = doc.createElement("A");

Valorizzazione dell’attributo a dell’elemento A

elemA.setAttribute("a","v");

Aggiunta dell’elemento A al documento come root-element

doc.appendChild(elemA);

Creazione dell’elemento B

Element elemB = doc.createElement("B");

Aggiunta dell’elemento B all’elemento A

elemA.appendChild(elemB);

Creazione dell’elemento C

Element elemC = doc.createElement("C");

Creazione e valorizzazione del nodo di testo

Text text = doc.createText("text");

Aggiunta del nodo di testo all’elemento C

elemC.appendChild(text);

Aggiunta dell’elemento C all’elemento A

elemA.appendChild(elemC);

Serializzazione

La serializzazione è l’operazione inversa del parsing: dato un DOM viene prodotta una rappresentazione XML del medesimo documento

Al momento non esistono API standardizzate per la serializzazione (a differenza del parsing)

Riferimento: la serializzazione in Xerces (parser XML di Apache)

Classe XMLSerializer

La classe XMLSerializer è inclusa nel package org.apache.xml.serializer

Dopo aver creato un’istanza di questa classe è necessario impostare il canale di uscita con il metodo setOutputCharStream(Writer outStream)

Per serializzare un DOM è sufficiente invocare il metodo serialize(Element elem)

Esempio

Serializzazione del documento doc sul file doc.xml

Document doc = …;
…
XMLSerializer ser = new XMLSerializer();
ser.setCharOutputStream(new FileWriter("doc.xml"));
ser.serialize(doc);

Esempio

Serializzazione del documento doc nella string strDoc

Document doc = …;
…
StringWriter os = new StringWriter();
XMLSerializer ser = new XMLSerializer();
ser.setCharOutputStream(os);
ser.serialize(doc);
String strDoc = os.toString();

Esempio

Lettura dell'albero di un documento e stampa degli elementi e dei loro attributi:


import javax.xml.parsers.*;
import org.w3c.dom.*;
import org.xml.sax.*;
import java.io.*;
 
public class AnalisiDOM {
  private Document d;
  private Element r;
 
  public AnalisiDOM(String file) {
    try {
      DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
      DocumentBuilder domParser = dbf.newDocumentBuilder();
 
      d = domParser.parse(new File(file));
      r = d.getDocumentElement();
      esaminaNodo(r);
    }
    catch(SAXParseException e) {
      System.out.println("Errore di parsing: "+ e.getMessage());
      System.exit(1);
    }
    catch(FileNotFoundException e) {
      System.out.println("File "+ file + " non trovato");
      System.exit(1);
    }
    catch(Exception e) {
      e.printStackTrace();
    }
  }// AnalisiDOM
 
  public void esaminaNodo(Node nodo) {
    switch(nodo.getNodeType()) {
      case Node.ELEMENT_NODE:
        System.out.println("Elemento: " + nodo.getNodeName());
        NamedNodeMap attributi = nodo.getAttributes();
        if(attributi.getLength() > 0) {
          System.out.println("\tAttributi: ");
          for(int i=0; i<attributi.getLength(); i++) {
            Attr attributo = (Attr) attributi.item(i);
            System.out.print(attributo.getNodeName() + "=" + attributo.getNodeValue() + " ");
          }
          System.out.println();
        }
        esaminaFigli(nodo.getChildNodes());
        System.out.println("Fine elemento: " + nodo.getNodeName());
        break;
    case Node.CDATA_SECTION_NODE:
    case Node.TEXT_NODE:
      Text testo = (Text)nodo;
      if(!testo.getNodeValue().trim().equals(""))
        System.out.println("\tTesto; " + testo.getNodeValue());
      break;
    }
  }// esaminaNodo
 
  public void esaminaFigli(NodeList figli) {
    if(figli.getLength() > 0)
      for(int i=0; i<figli.getLength(); i++)
        esaminaNodo(figli.item(i));
  }// esaminaFigli
}

Vantaggi del DOM

L’utilizzo del DOM assicura il rispetto della grammatica del linguaggio
Facilita la costruzione di documenti ben formati e validi
Fornisce una rappresentazione dei dati indipendente dalla grammatica
L’utilizzo del DOM facilita la manipolazione, anche complessa, dei documenti all’interno di applicazioni
Non è necessario manipolare espressamente stringhe del linguaggio XML
Può essere impiegato sia in fase di analisi che di costruzione dei documenti

Svantaggi del DOM

Non adatto per lettura e filtraggio (meglio SAX)
Non adatto per trasformazioni (meglio XSLT)
Elevato costo computazionale, soprattutto in termini di risorse di memoria.

Il DOM di un documento generico è generalmente 10 volte più “grande” del documento stesso. Pertanto non è consigliabile adoperare il DOM per manipolare documenti di grandi dimensioni

SAX: Simple API for XML

SAX è un’interfaccia di programmazione (API) concepita per la gestione agevole ed efficiente di documenti XML
Proposta dalla mailing-list XML-Dev, quindi recepita ed implementata da diversi produttori (Microsoft, Oracle, IBM, Sun) e dalla comunità OpenSource
SAX è basata sul concetto di evento associato al processo di parsing di un documento
Per adoperare SAX è necessario indicare le azioni da compiere al verificarsi di un determinato evento

Eventi

La specifica di un componente basato su SAX riguarda le azioni da compiere al verificarsi di un determinato evento in fase di parsing di un documento:

Inizio e fine di un documento
Inizio e fine di un elemento
Sezione CDATA
Processing Instruction
Errori

Architettura

L’utilizzo di SAX prevede l’interazione di tre oggetti distinti

L’applicazione che richiede l’analisi del documento
Il parser che analizza il documento e genera gli eventi
Il gestore (o content handler) che opera in risposta agli eventi generati dal parser

Realizzazione

Il content handler è un componente che implementa una particolare interfaccia che espone dei metodi associati ai diversi eventi

Al verificarsi di un evento il parser invoca il metodo corrispondente dell’oggetto

Il compito dell’applicazione è quello di

istanziare opportunamente il parser
istanziare i content handler (possono essere molteplici) e registrarli presso il parser
avviare il parsing

SAX per Java

Esistono diverse implementazioni di SAX in diversi linguaggi di programmazione (C++, Java, VisualBasic)

Riferimento: versione 2.0 per Java

L'interfaccia al parser è standard come per DOM, le classi che implementano il parser
devono essere presenti nel CLASSPATH, in questo caso la libreria javax.xml.parsers

Creazione del parser

Si deve istanziare un oggetto della classe SAXParserFactory

SAXParserFactory parserFact =
SAXParserFactory.newInstance();

Quindi da quest’ultimo si ottiene un’istanza di parser SAX

SAXParser parser =
parserFact.newSAXParser();

Non è necessario indicare quale implementazione utilizzare, pertanto il codice risulta portabile su diverse piattaforme con diverse implementazioni del parser

Interfaccia ContentHandler

E’ necessario definire una classe che implementi l’interfaccia ContentHandler del package org.xml.sax

Questa interfaccia espone un metodo per ciascun evento che può essere generato dal parser nel corso dell’analisi del documento

Inizio e fine del documento
void startDocument()/void endDocument()

Sezione #PCDATA, in ch è contenuto il testo sotto forma di array di caratteri (può essere convertito in stringa con new String(ch, start, length))
void characters(char[] ch, int start, int length)

Inizio di un elemento di nome localName appartenente al namespace namespaceURI con attributi atts
void startElement(String namespaceURI,
String localName, String qName, Attributes atts)

Fine di un elemento (anche se EMPTY)
void endElement()

Classe Attributes

Questa classe consente di accedere agli attributi di un elemento

int getLength() resituisce il numero degli attributi
String getValue(int index) restituisce il valore dell’attributo specificato
String getValue(String qName) restituisce il valore dell’attributo specificato
String getQName(int index) restituisce il nome dell’attributo specificato

Classe DefaultHandler

L’interfaccia ContentHandler possiede molti altri metodi, tuttavia nella maggior parte dei casi è interessante implementarne solo alcuni

La classe DefaultHandler implementa l’interfaccia ContentHandler con metodi vuoti (no-action)

Pertanto per implementare un gestore del contenuto del documento si deriva una classe da DefaultHandler e si ridefiniscono i soli metodi richiesti

Esempio

Si vuole tracciare il parsing di un documento XML, ovvero segnare su un dispositivo di log (ad esempio la console) il riconoscimento delle diverse sezioni di un documento XML

In particolare si è interessati ad individuare l’inizio e la fine di un documento, di un elemento e le sezioni #PCDATA

A tal fine è necessario implementare un ContentHandler estendendo il DefaultHandler

Esempio

import java.io.*;
import javax.xml.parsers.*;
import org.xml.sax.*;
import org.xml.sax.helpers.*;
public class TraceHandler extends DefaultHandler {
public void startDocument() {
System.out.println("Inizio documento");
}
public void endDocument() {
System.out.println("Fine documento");
}
public void characters(char[] ch, int start, int len) {
System.out.println(new String(ch,start,len));
}
public void startElement(String namespaceURI,String localName, String qName, Attributes atts) {
System.out.println("Inizio elemento "+qName);
for(int i=0; i<atts.getLength(); i++)
    System.out.println("Attributo“+
         atts.getQName(i)+
         " valore "+atts.getValue(i));
}
public void endElement() {
System.out.println("Fine elemento");
}

Esempio (continua)

Definiamo, inoltre, un metodo &main che invoca il parser sul file specificato come primo argomento della linea di comando

public static void main(String[] args) {
  try {
    SAXParserFactory parserFactory =
       SAXParserFactory.newInstance();
    SAXParser parser =
     parserFactory.newSAXParser();
    parser.parse(new File(args[0]),new TraceHandler());
      }
      catch(Exception e) {
          e.printStackTrace();
      }
}
}

Per poter effettuare il parsing del file myFile.xml è sufficiente

java TraceHandler myFile.xml

Confronto tra SAX e DOM

DOM è una XML API "tree-based"
SAX è una XML API "streaming", "event-based", "push"
- streaming = legge il documento durante l'interazione con l'applicazione (e non prima come DOM)
- event-based = l'interazione con l'applicazione è basata sugli eventi
- push = è il parser trasmettere ("spingere") gli eventi verso l'applicazione, a differenza dei traduttori classici in cui è l'applicazione a comandare la lettura dell'input da parte del parser

DOM = traduzione a due passate
(la prima passata genera l'albero di derivazione del documento XML in memoria centrale)
- occupazione di memoria
- manipolazioni arbitrarie del documento (accesso casuale, ripetuto,...)
con SAX è possibile la traduzione a una passata
(ma è anche possibile fare traduzioni a due passate)
- risparmio di memoria
- solo accesso sequenziale al documento

Confronto tra SAX e DOM

Vantaggi di SAX:

Semplicità
Possibilità di estrarre solo un sottoinsieme delle informazioni e di interrompere il parsing
Facilità di costruzione di una propria struttura dati (non necessariamente l’albero di derivazione del documento)
Analisi di documenti di qualsiasi dimensione (indipendentemente dalla disponibilità di memoria)
Efficienza in quanto non richiede la costruzione del DOM (anche se è comunque possibile ricostruirlo. Infatti, in genere, i parser DOM sono realizzati sfruttando un parser SAX)

Confronto tra SAX e DOM

Svantaggi di SAX:

Non è possibile accedere in modalità casuale, ma solo sequenziale al documento
E’ difficile implementare interrogazioni complesse
Non è possibile accedere al DTD ed alle informazioni lessicali
E’ un sistema di sola lettura

Oltre DOM e SAX: StAX

diverse proposte per superare le limitazioni di DOM e SAX

StAX: Streaming API for XML

StAX è una streaming XML API come SAX, ma è di tipo pull e non push

pull API = l'applicazione che usa API StAX comanda il parser attraverso richieste di lettura dell'input

(aggiunta in Java JDK 6)

Riferimenti

DOM W3C Working Group: http://www.w3c.org/DOM/

Document Object Model (DOM) Level 2 Core Specification Version 1.0 W3C Recommendation 13 November, 2000

Specifiche SAX: http://www.saxproject.org/

Tutorial SAX: http://www.onjava.com/pub/a/onjava/2002/06/26/xml.html

(si veda anche http://www.xml.com/)

Tutorial on Java API for XML Processing, Sun® Microsystems

An introduction to StAX, O'Reilly Media, Inc.