Esempi di scienza semplice
 

 

                                        CINQUE PEZZI FACILI (di Alessandro Giuliani)

(Dupea (Jack Nicholson):.. Now all you have to do is hold the chicken, bring me the toast, give me a     check for the chicken salad sandwich, and you haven't broken any rules.)

Questa e’ una piccola raccolta di esempi di scienza semplice in atto. Spero possa essere utile per passare dalle posizioni di principio all’ applicazione pratica. I cinque pezzi si riferiscono a campi differenti e sono stati scritti da scienziati di diversa estrazione, hanno pero’ in comune alcuni elementi chiave che ce li fanno riconoscere come ‘semplici’:

1)      Uso intensivo di dati gia’ presenti nella rete o comunque provenienti da simulazione

2)      Dichiarazione esplicita del particolare punto di vista degli autori

3)      Uso di strumenti metodologici non sofisticati e comunque esaurientemente descritti

4)      Univocita’ del messaggio

5)      Possibilita’ di riutilizzare l’approccio in campi diversi

Come nella scena del film di Bob Rafelson citata nel titolo in cui il protagonista cerca di far capire ad una stupita cameriera come si possano ricombinare gli elementi di diverse voci del menu per creare qualcosa di nuovo, anche questi articoli generano novita’ ricombinando elementi di conoscenza gia’ esistenti. Visto pero’ che la semplicita’ e’ difficile ad ottenersi (ed anche a svelarsi come ci conferma il comportamento della cameriera nel film) vale la pena di spendere qualche riga di commento su ognuno degli articoli presentati.

1)      Variano et al. (2004) Physical Review Letters, 92: 18701-1/4  Questo e’ un articolo di matematica sperimentale. Il suo fascino maggiore risiede forse in questa giustapposizione di opposti (la matematica e’ normalmente considerata agli antipodi dell’empiria) da cui gli autori riescono a cavare informazioni molto interessanti sul funzionamento dei sistemi reticolari. Scopo del gioco e’ quello di capire se esiste la possibilita’ di fondare una sorta di relazione struttura/funzione per i sistemi reticolari, se cioe’ delle particolari topologie di nodi collegati da archi garantiscano un funzionamento piu’ stabile di altri. Lo studio del comportamento dinamico di tutte le possibili topologie non e’ fattibile, per cui gli autori scelgono un particolare punto di vista sul problema che permette una drastica semplificazione del problema: scegliere le particolari condizioni di stabilita’ lineare (ammettendo a priori che questa e’ un’idealizzazione ben lontana dalla realta’) e lasciar emergere le soluzioni ‘vincenti’ da un processo di selezione naturale simulato (algoritmi genetici) . Gli autori sono consapevoli delle manchevolezze del loro approccio ed affidano la verosimiglianza dei loro risultati dal fatto che dal loro impianto ultra-semplificato escano reti con delle caratteristiche simili a quelle trovate in natura. Specificamente essi riescono a dimostrare una proprieta’ emergente dal loro pentolone che e’ quella della modularita’ delle reti che non era stata esplicitamente messa negli ingredienti ma che e’ una delle caratteristiche salienti delle reti naturali.

La dimostrazione del carattere modulare delle reti selezionate ma anche di altre particolarita’ statistiche delle reti reali come la presenza di componenti ‘giganti’,  e’ una buona assicurazione della plausibilita’ dei risultati e insieme del perche’ la modularita’ sia cosi’ diffusa in natura.

2)      Bender A. and R.C. Glen (2005) J.Chem.Inf.Model. 45: 1369-1375. Qui si tratta di chimica farmaceutica e si affronta di petto (demolendolo) uno dei miti piu’ pervicaci e diffusi tra gli scienziati: quello del realismo ingenuo. Secondo questo mito, i metodi di indagine (ma anche le teorie, i modelli, le misure..) piu’ sofisticati  sono senza dubbio i migliori in termini di accuratezza e capacita’ predittive. Questo mito affonda le radici nella sbrigativa assimilazione della natura alla scienza che invece della natura e’ tutt’al piu’ una bella rappresentazione di un aspetto particolare. Gli autori prendono in considerazione una serie di rappresentazioni via via piu’ sofisticate di un gruppo di molecole organiche che vanno dal massimo di rozzezza (numero di atomi di carbonio) alle vette estreme della sofisticazione e della scienza infusa (complicati programmi di docking molecolare). Queste rappresentazioni vengono trattate come dei concorrenti iscritti ad una gara: vince chi riesce a prevedere con piu’ efficienza,  le molecole che risulteranno essere capaci di legarsi ad uno specifico ricettore. Per dare un riferimento metrico ai risultati viene iscritto alla gara un concorrente molto particolare : un pescatore casuale (‘random selection’) di molecole che semplicemente seleziona a caso le strutture molecolari. Qui il taglio e’ molto chiaro ed asciutto ed io non so nascondere la mia predilezione per il lucido cinismo dell’esperimento statistico: queste sono le regole del gioco, vediamo un po’ chi vince. La catastrofe dei metodi piu’ sofisticati e’ a questo punto una prova lampante del fatto che le manchevolezze delle nostre conoscenze, accumulando errori su errori, mi fanno via via allontanare da una misura efficiente del reale man mano che la sofisticazione dei ragionamenti aumenta e fanno si’ che il metodo piu’ complesso sia quello piu’ simile (praticamente indistinguibile) dal pescatore casuale. Accettiamo con un sorrisetto sardonico (ma nache intimamente comprendendo le loro ragioni) le giustificazioni degli scienziati ‘puri’ che ci dicono come in ogni caso bisogna spingere agli estremi il nostro sforzo teorico anche se a tutta prima non vediamo risultati e consideriamo come questo articolo sia di per se’  stesso un ‘manifesto della scienza semplice’. Il vincitore della ‘gara dei metodi’ e’ infatti basato su una rappresentazione bidimensionale delle molecole (la classica formula di struttura dei libri di chimica organica) in termini di grafo con gli atomi corrispondenti ai nodi e i legami chimici agli spigoli. Le molecole non sono bidimensionali e tanto meno dei grafi, ma questa rappresentazione ha funzionato molto meglio di tutte le rappresentazioni che ‘saggiamente’ (?) prendevano in considerazione l’effettiva tridimensionalita’ delle molecole. La spiegazione dell’arcano e’ che la formule chimica e’ una sorta di ‘mandala’ che distilla un gran numero di conoscenze diverse e non un semplice ‘appiattimento’ di una struttura a tre dimensioni, il supposto maggior ‘realismo’ delle rappresentazioni tridimensionali avviene a scapito della sapienza di cui sono intrise le formule di struttura e questo non e’ un guadagno. La scienza e’ natura e rappresentazione insieme, una brutta foto a colori ci dice di meno di una bella foto in bianco e  nero anche se il mondo e’ a colori…..

3)      Giuliani A. et al. (2001) Physica A, 301 : 567-588.  Questo articolo del nostro gruppo tratta di complessita’, quindi apparentemente del contrario della semplicita’. In realta’ non e’ cosi’ , anzi proprio la necessita’ di trattare con sistemi complessi in cui non e’ possibile andare piu’ a fondo di tanto (altrimenti si rimediano le brutte figure descritte dal pezzo precedente) rende necessaria la scienza semplice. Qui la scommessa iniziale e’ stata quella di ottenere una definizione generale di complessita’ per le serie temporali dalla pura correlazione degli indici di complessita’ gia’ esistenti. In altre parole si e’ cercato di provare questo assunto : ‘la complessita’ e’ cio’ che hanno in comune i diversi indici di complessita’.

Per fare cio’ si e’ raccolto un insieme eterogeneo di serie numeriche che andavano dalla sequenza delle larghezze degli anelli di accrescimento degli alberi al battito cardiaco, all’andamento della borsa, alle cifre del pigreco, al decadimento radioattivo fino alle sequenze di proteine  e di acidi nucleici. Queste serie sono state descritte da una batteria di indici di complessita’ e da alcuni indici statistici notoriamente non collegati alla complessita’ e alla sequenza temporale dei dati (media, varianza, curtosi..). La matrice avente come righe le serie e come colonne (variabili) i diversi indici relativi e’ stata sottoposta ad un’analisi in componenti principali che ha effettivamente dimostrato che i diversi indici di complessita’ avevano effettivamente molto in comune (la prima componente principale !), erano nettamente differenziati dagli indici puramente statistici e organizzavano le serie in un ordine ragionevole dalle piu’ impredicibili  e quindi piu’ complesse (cifre del pigreco, decadimento radioattivo) alle piu’ semplici e predicibili (funzioni matematiche). Per mettere alla prova i risultati abbiamo operato un piccolo esperimento facendo valutare dalla prima componente generata dall’analisi delle serie eterogenee un caso in vitro costituto da serie deterministiche in cui noi avevamo aggiunto quantita’ di rumore note ottenendo risultati assolutamente in linea con quanto costruito.

I risultati ci hanno permesso di affermare che la complessita’ di una serie e’ semplicemente l’inverso del suo grado di autocorrelazione.

4)      Palumbo M.C. et al. (2005) FEBS Letters 579 : 4642-4646. La figura retorica  fondamentale di questo pezzo scritto dal gruppo iniziale di questo manifesto,  e’ quella della metafora. Tutto il pezzo si basa sull’equiparazione della rete metabolica di lievito ad una rete elettrica. I metaboliti sono i singoli elementi della rete connessi tra di loro da cavi elettrici corrispondenti alle  reazioni enzimatiche. In una rete elettrica l’isolamento di un elemento corrisponde all’impossibilita’ per il flusso di corrente di raggiungere l’elemento stesso, questo nella rete metabolica si traduce nell’eliminazione dell’enzima che catalizza la formazione di un certo metabolita in assenza di vie alternative (altri cammini nella rete) che portino allo stesso risultato per altra strada. La nostra scommessa e’ quella di affermare che tutte le mutazioni essenziali (quelle cioe’ per cui l’organismo muore) provocano l’isolamento almeno di un nodo della rete che non puo’ essere raggiunto per altra via.

La raccolta di dati sull’ effetto dell’eliminazione di singoli enzimi di lievito conferma questa scommessa consentendo di dare una definizione puramente topologica del fenotipo corrispondente ad un certo genotipo semplice. Nel lavoro la matematica e’ in un certo senso ‘nascosta’ dall’uso di un programma in uso per lo studio delle reti elettriche applicato in maniera eterodossa ma che si e’ dimostrata efficace.

5) Kannan M., Vishveshwara S. (1999) Journ.Mol.Biol. 292: 441-464. Il lavoro di questi due ricercatori indiani ha un’ispirazione molto simile a quello appena descritto. Anche qui si parla di reti, solo che la rete non e’ la rete metabolica ma la ‘rete’ costituita dai contatti tra le catene laterali dei differenti residui aminoacidici  costituenti una proteina. Il problema studiato dai due ricercatori del prestigioso Indian Institute of Science di Bangalore (lo stesso dove lavorava il biofisico Ramachandran)  e’ quello di dare una definizione oggettiva al concetto di dominio strutturale di una proteina. Per dominio si intende una zona di una proteina che acquisisce una sua individualita’ morfologica all’interno della struttura globale della molecola proteica. Insomma si tratta di capire quale e’ il modo migliore per individuare (se esistono) i diversi pezzi di cui la macromolecola e’ composta. Il taglio proposto dagli autori e’ geniale: invece di guardare la struttura da fuori e quindi osservare le diverse forme che la catena aminoacidica assume in diverse zone della molecola (dominio ad alfa elica, foglietto beta…) guardiamola da dentro, cioe’ dal punto di vista di un omino piccolo piccolo che saltabecca da un residuo all’altro sfruttando i punti in cui due residui vengono a contatto fra loro. Dal punto di vista dell’omino la proteina e’ allora una struttura reticolare i cui nodi sono i residui e gli spigoli i contatti fra di loro. Una volta accettata questa rappresentazione la definizione di dominio corrisponde alla definizione statistica di ‘cluster’ o di ‘modulo’: un dominio e’ costituito da un insieme di residui in cui i contatti interni (tra residui appartenenti allo stesso dominio) sono molto piu’ numerosi dei contatti esterni. Gli autori hanno a disposizione dei metodi matematici affermatisi da lungo tempo (SVD) per identificare automaticamente i domini di una struttura proteica e l’applicazione di questi metodi a strutture cristalline di un certo numero di proteine consente di apprezzare la messe di informazioni ricavabile da questo semplice schema operativo.  

  • E. A. Variano, J. H. McCoy and H. Lipson, Networks, dynamics and modularity, Physical Review Letters, 92 (2004) 18701-1/4 pdf  (Alessandro Giuliani)
  • A. Bender and R.C. Glen, A discussion of measures of enrichment in virtual screening: comparing the information content of descriptors with increasing levels of sophistication, J. Chem. Inf. Model., 45 (2005) 1369-1375 pdf  (Alessandro Giuliani)
  • A. Giuliani, M. Colafranceschi, C.L. Webber Jr., J.P. Zbilut, A complexity score derived from principal component analysis of nonlinear order measures, Physica A, 301 (2001) 567-588 pdf  (Alessandro Giuliani)
  • M.C. Palumbo, A. Colosimo, A. Giuliani and L. Farina, Functional essentiality from topology features in metabolic networks: a case study in yeast, FEBS Letter, 579 (2005) 4642-4646 pdf  (Alessandro Giuliani)
  • N. Kannan and S.Vishveshwara, Identification of side-chain clusters in protein structures by a graph spectral method, Journal of Molecular Biology, 292 (1999) 441-464 pdf