logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-09152021-111224


Tipo di tesi
Tesi di laurea magistrale LM5
Autore
BIAGI, CAMILLA
URN
etd-09152021-111224
Titolo
Sviluppo di un protocollo di Virtual Screening basato su un approccio di Machine Learning per l'identificazione di nuovi inibitori dei recettori alfa e beta degli estrogeni
Dipartimento
FARMACIA
Corso di studi
CHIMICA E TECNOLOGIA FARMACEUTICHE
Relatori
relatore Prof. Tuccinardi, Tiziano
relatore Dott. Galati, Salvatore
relatore Dott. Poli, Giulio
Parole chiave
  • artificial intelligence
  • er-alpha
  • er-beta
  • estrogen receptors
  • estrogeni
  • estrogens
  • intelligenza artificiale
  • machine learning
  • virtual screening
Data inizio appello
04/10/2021
Consultabilità
Completa
Riassunto
Gli estrogeni, sintetizzati principalmente a livello delle ovaie, ghiandole surrenali e tessuto adiposo, sono i principali ormoni femminili, la cui attività primaria consiste nel controllo delle funzioni del sistema riproduttivo femminile e nello sviluppo delle caratteristiche sessuali secondarie durante la pubertà e la maturità sessuale, inoltre sono coinvolti nello sviluppo e nell’evoluzione del cancro al seno. Dal punto di vista chimico appartengono alla famiglia organica di composti nota come steroidi, i cui principali sono: Estradiolo (17beta-estradiolo, E2), Estrone (E1), Estriolo (E3) ed Estretolo (E4). Le differenze strutturali trovano riscontro nella loro attività fisiologica, poiché Estrone ed Estriolo risultano essere meno attivi rispetto ad Estradiolo, il quale è presente in quantità maggiore a livello fisiologico e durante la fase riproduttiva. Il controllo della secrezione di queste sostanze è di pertinenza dell’asse ipotalamo-ipofisi-gonadi, mentre la loro biosintesi, come del resto anche degli altri ormoni steroidei, vede come substrato di partenza il colesterolo ed avviene tramite un processo che prende il nome di steroidogenesi. Gli ormoni steroidei esplicano la loro funzione interagendo con il recettore degli estrogeni (ER), appartenente alla classe NR3 dei recettori nucleari, i quali agiscono da fattori di trascrizione. Nei mammiferi è stata riscontrata la presenza di due sottotipi di ER, ER-alfa ed ER-beta, i quali condividono, assieme agli altri membri della famiglia di recettori nucleari, una struttura multidominio, in cui ciascun dominio dirige le interazioni e le funzioni meccanicistiche necessarie alla risposta ormonale. La differenza sostanziale tra i due sottotipi a e b consiste nella minor lunghezza del dominio ammino-terminale di ER-beta e nella mancata conservazione di due amminoacidi nella tasca di legame: in ER-alfa troviamo Leu384 e Met42, mentre in ER-beta Met336 ed Ile373, questa differenza è fondamentale per la ricerca di ligandi selettivi per ciascun sottotipo recettoriale. ER non è solo un potente marker predittivo e prognostico, ma anche un obiettivo efficiente per il trattamento del carcinoma mammario ormone-dipendente data la sua elevata espressione nelle lesioni mammarie precancerose e maligne rispetto ai tessuti sani. Le terapie farmacologiche attuali presentano un rischio abbastanza alto di sviluppare nei pazienti resistenza ai trattamenti ed inoltre molti farmaci inibitori degli ER non sono puri antagonisti; ciò causa la manifestazione di attività estrogenica in altri tessuti con il rischio di effetti collaterali e di sviluppare patologie iatrogene. L’importanza dei recettori degli estrogeni spiega la necessità di ricercare nuove molecole attive, più selettive e con minori effetti estrogenici collaterali. Questo obbiettivo può essere raggiunto sviluppando un protocollo innovativo di Virtual Screening (VS), basato sull’ Intelligenza Artificiale (IA) con la relativa creazione di modelli di Machine Learning (ML). Il procedimento utilizzato è suddivisibile in 3 fasi fondamentali. Nella prima fase è stato effettuato il trattamento dei dati, nella quale relativamente a ciascun sottotipo recettoriale è stato scaricato un set di composti dal
database ChEMBL. I dati grezzi sono stati opportunamente trattati e filtrati, in particolare sono state selezionate esclusivamente le molecole con attività inibitoria riportata in Ki e RBA (relative binding affinity). Quest’ultimo valore è stato successivamente convertito tramite formula matematica in Ki. È stato eseguito il “washing” degli SMILES (rimuovendo ad esempio composti presenti come sali) e dopo avere uniformato le unità di misura e convertito in scala logaritmica i valori di attività, per ciascuno dei due dataset (ER-alfa, ER-beta) le molecole sono state classificate in attive ed inattive, utilizzando una soglia di pKi pari a 7.0, rimuovendo i composti che presentavano un’attività vicino al valore della soglia di classificazione. Le molecole ottenute alla fine di questi processi sono state impiegate come “training set” per la creazione dei modelli di ML. Un primo test per verificare l’affidabilità dei modelli è stato eseguito tramite una cross-validation interna, tramite la quale sono stati ottimizzati gli iperparametri con lo scopo di rendere i modelli capaci di effettuare predizioni più accurate. Da questo punto ha inizio la seconda fase, che consiste nella validazione dei modelli generati con l’utilizzo dell’intero training set, la cui valutazione è stata eseguita impiegando un test set esterno costituito da composti con attività inibitoria misurata in IC50, trattati seguendo le stesse procedure impiegate in precedenza per il training set. Per ogni recettore sono stati costruiti 2 modelli impiegando due tipi diversi di rappresentazioni molecolari definite fingerprint. A seguito di un’attenta e scrupolosa analisi sono stati ritenuti più efficienti i modelli basati sui fingerprint di tipologia MACCS (Molecular ACCess System). Questi ultimi sono stati utilizzati nella terza ed ultima fase, costituita da un VS, con l’obiettivo di individuare nuovi potenziali inibitori. Il processo di VS è stato eseguito su un database di circa 4 milioni di molecole provenienti da vari database commerciali. I risultati del VS ottenuti sono stati analizzati verificando la similarità tra le molecole predette come potenzialmente attive dai modelli di ML e quelle appartenenti al training set di partenza. A seguito di ulteriori analisi le molecole saranno prese in considerazione per l’acquisto e la successiva esecuzione di saggi biologici al fine di verificarne l’effettiva attività. Il presente progetto di tesi ha permesso, tramite l’apprendimento del linguaggio di programmazione Python, la possibilità di approcciarsi al campo dell’Intelligenza Artificiale per la creazione di modelli di ML, destinati all’individuazione di nuovi possibili inibitori nei confronti dei due sottotipi recettoriali di ER, da utilizzare come punto di partenza per lo sviluppo di nuove molecole potenti e selettive, con lo scopo di attenuare il problema degli effetti estrogenici off-target dei farmaci attualmente in uso. I modelli sviluppati durante il progetto di tesi potranno essere integrati in una possibile futura piattaforma di Target Fishing, finalizzata alla scoperta di nuovi target a partire da molecole bioattive.
File