Il recente progresso della genomica ha messo in luce come una parte rilevante della variabilita' tra individui sia da attribuirsi a polimorfismi a singolo nucleotide SNP (Single Nucleotide Polimorfisms). Gli SNP acquistano particolare rilevanza in campo biomedico quando possono essere messi in relazione a patologie che non presentano una trasmissione genetica semplice: per questa ragione, molte linee di ricerca attuali sono orientate a eseguire analisi di correlazione tra la distribuzione degli SNP su geni potenzialmente coinvolti in patologie e i fenotipi esibiti dai soggetti portatori. Tali correlazioni, una volta dimostrate, permettono di usare gli SNP come marcatori molecolari, di grande utilita' per analisi precliniche.
L'odierna tecnologia biologico-molecolare fornisce metodi per lo screening simultaneo di molteplici SNP; nella maggior parte dei casi questi metodi si basano su una reazione di SBE (Single Base Extention), seguita da ibridazione su microarray. L'SBE permette, tramite estensione di un primer specifico, di inserire un ddNTP marcato con un fluoroforo, esattamente complementare alla base dello SNP, mentre l'ibridazione consente di risalire al nucleotide inserito per ciascuno SNP, sulla base del colore e della posizione nell'array del segnale prodotto dal ddNTP fluorescente.
Il protocollo seguito negli esperimenti che hanno fornito i dati biologici impiegati nella presente tesi, prevedeva l'uso di due array per ogni campione: uno per rilevare la presenza delle basi A e G, l'altro per le basi C e T.
I protocolli comunemente seguiti prevedono di valutare la presenza delle quattro basi mediante un confronto diretto (spesso preceduto da normalizzazioni empiriche) dei valori di intensita' dei segnali misurati sui due array. Tale procedura, non tenendo conto dell'eventuale rumore presente nel segnale, dovuto alla variabilità sperimentale, riduce notevolmente l'efficienza e la qualita' dei dati prodotti.
Nel presente lavoro si propone e si discute un protocollo alternativo basato sull'uso di un ulteriore terzo array mediante il quale istituire una correzione dei segnali relativi alle quattro basi. Una procedura di regressione bilineare applicata ai dati dei tre array, permette di ricavare coefficienti di normalizzazione che rendono effettivamente confrontabili i segnali misurati sui due array usati nel protocollo classico. Eseguita la normalizzazione, i dati dei due array vengono usati per inferire, con un modello statistico di probabilita' a posteriori, la probabilita' della presenza dei diversi SNP.
Confronti tra le informazioni ottenibili col protocollo classico e con quello proposto, hanno mostrato come il secondo permetta un notevole incremento della qualita' del dato finale, e una forte riduzione del rumore. Il costo aggiuntivo dovuto all'esecuzione di un terzo array appare quindi giustificato dal miglioramento dell'efficienza globale dell'esperimento.
L'analisi dei dati effettuata nel presente lavoro e' stata implementata in un pacchetto software sviluppato in linguaggio PERL 5. Tale software, direttamente interfacciabile con strumenti di analisi di microarray, sarà presto pubblicamente disponibile all'indirizzo: