Sviluppo di una piattaforma bioinformatica

Coordinatore: Prof. Giorgio Valle – CRIBI-PADOVA

Obiettivi

La piattaforma bioinformatica rappresenta un aspetto importante del progetto. Con essa si vogliono infatti realizzare tre obiettivi principali:

  • In primo luogo dovrà servire ad elaborare i dati grezzi ottenuti dal sequenziamento genomico per tradurli in conoscenza sui geni e sulla loro annotazione strutturale e funzionale. Questo obiettivo sarà realizzato con l’ausilio di due piattaforme sviluppate nell’ambito del Progetto Genoma della Vite, la prima per la predizione della struttura genica e la seconda per l’annotazione funzionale basata sul confronto con sequenze di altri organismi.
  • Il secondo obiettivo generale della bioinformatica consiste nell’integrazione dei dati ottenuti dalle attività descritte nei moduli 1, 2 e 3, che riguardano rispettivamente la genomica strutturale, la genomica funzionale e le informazioni relative alle risorse genetiche e al breeding. In termini pratici questo obiettivo consiste nella realizzazione di un sistema integrato di gestione dati, basato per quanto possibile su standard già esistenti (a partire dal sistema GMOD/Gbrowse per la gestione e visualizzazione di dati genomici) e, dove necessario, su nuove strutture dati, adatte a soddisfare i problemi di questo specifico progetto.
  • Infine, il terzo obiettivo della piattaforma bioinformatica consiste nello sviluppo e implementazione di un sistema avanzato di interrogazione del database che possa servire da supporto per le attività dei “distretti” (moduli 5, 6, 7 e 8). La piattaforma bioinformatica dovrà inoltre fornire uno strumento adeguato per la gestione e l’integrazione dei dati biologici ottenuti dalle attività dei distretti, in modo da consentire una annotazione funzionale avanzata gestita direttamente dagli esperti dei diversi settori.

Attività previste

Le attività previste riguardano lo sviluppo e l’implementazione di diversi strumenti bioinformatici, nonché la realizzazione delle interfacce necessarie per l’accesso alle risorse tramite Internet. Le principali attività riguarderanno i cinque sottoprogetti descritti di seguito: piattaforma di predizione genica, piattaforma di annotazione funzionale, sistema integrato di gestione dati, sistema avanzato di interrogazione del database e supporto per annotazione esperta.

4.1. Piattaforma di predizione genica (UNIPD-CRIBI)
Una volta prodotta ed assemblata la sequenza genomica (Vedi Modulo 1) ci si trova con il problema di identificare gli elementi funzionali in essa contenuti. In primo luogo si tratta di identificare i geni e la loro struttura in introni ed esoni, nonché le corrispondenti regioni codificanti e le risultanti sequenze proteiche. La piattaforma messa a punto per il Progetto Genoma della Vite ha già dato risultati molto buoni. Essa si basa sull’integrazione di diverse evidenze, divisibili in tre classi principali:

  1. Allineamento di sequenze proteiche, ossia la potenzialità di codificare proteine simili a quelle di altri organismi filogeneticamente vicini;
  2. Allineamento di sequenze di trascritti, ossia la possibilità di allineare sequenze di cDNA dello stesso organismo o di organismi filogeneticamente vicini;
  3. Analisi intrinseca della sequenza genomica, ossia la predizione de novo della struttura genica, particolarmente importante per i geni nuovi, che non trovano riscontro in altre specie.

Nell’ambito del progetto Genoma della Vite abbiamo inoltre utilizzato le sequenze di cDNA ottenute con i sequenziatori di nuova generazione Illumina (Solexa) e Applied Biosystems (SOLiD) che si sono rivelati particolarmente interessanti per l’alto livello di copertura dei trascritti. In tal modo è stato possibile confermare sperimentalmente la maggior parte dei geni predetti ed è stato possibile identificare altri geni che altrimenti sarebbero sfuggiti alla predizione. La strategia basata sui sequenziatori di nuova generazione è ancora in fase di ottimizzazione e sarà ulteriormente perfezionata durante la realizzazione di questo progetto, in particolare per la predizione di siti di splicing alternativo. Utilizzeremo quindi queste nuove tecnologie di sequenziamento di cDNA per analizzare alcuni tessuti (in numero compreso tra 5 e 10) in modo da migliorare e validare le procedure di predizione genica.
Oltre alla predizione genica la piattaforma dovrà predire altri elementi funzionali presenti nella sequenza genomica: geni codificanti trascritti non tradotti, trasposoni, altre sequenze ripetute, sequenze regolatrici e quant’altro di interesse.

4.2. Piattaforma di annotazione funzionale (UNIPD-CRIBI)
Oltre all’identificazione dei geni e della loro struttura è necessario attribuire ad ogni gene un possibile ruolo funzionale basato sull’analisi bioinformatica delle sequenze. A tale scopo, utilizzando le competenze maturate nel corso del progetto Genoma della Vite, sarà realizzata una piattaforma che utilizzerà una serie di procedure bioinformatiche per trovare similarità di sequenza con geni noti, per identificare pattern di sequenza caratteristici di particolari funzioni molecolari o domini proteici e per predire il sorting intracellulare delle ipotetiche proteine codificate dai geni predetti.
Per la descrizione dei geni saranno utilizzati i termini della “Gene Ontology” che consentono di definire la funzione molecolare, di classificare i processi biologici in cui i geni sono coinvolti e di definire il compartimento cellulare in cui le corrispondenti proteine saranno localizzate.
Oltre alla Gene Ontology, dove possibile, i geni predetti saranno annotati anche con i termini della “Plant Ontology”, con cui saranno definite le nozioni relative alla struttura e allo sviluppo della pianta.

4.3. Sistema integrato di gestione e interrogazione del database (UNIPD-CRIBI)
Per la gestione dei dati sarà progettato e implementato un database relazionale simile a quello utilizzato per la gestione dei dati del Progetto Genoma della Vite. Il database sarà integrato con Gbrowse per consentire la navigazione sul genoma. Particolare attenzione sarà dedicata alla progettazione dell’architettura e dello schema del database che dovrà consentire l’integrazione dei dati di sequenza con i dati delle analisi funzionali.
Sarà inoltre sviluppato un sistema di interrogazione avanzata del database per consentire interrogazioni complesse e per garantire il recupero di informazioni potenzialmente utili anche nel caso di interrogazioni che non trovano risposte che soddisfino completamente le condizioni della richiesta.

4.4. Supporto per annotazione esperta (UNIPD-CRIBI)
L’annotazione automatica del genoma, realizzata mediante la piattaforma descritta precedentemente, è certamente un essenziale punto di partenza, ma non sarà l’annotazione definitiva del genoma dell’olivo. L’annotazione funzionale, così come è successo e succede per tanti altri genomi in corso di studio, sarà un processo che continuerà nel tempo e richiederà studi specifici e l’intervento esperto di diversi ricercatori nei loro specifici settori di interesse.
L’annotazione esperta si attuerà con due principali modalità di intervento, che riflettono la tipologia con cui le informazioni sono memorizzate nel database. Da una parte sarà possibile effettuare correzioni e integrazioni dei diversi campi del database. In questo modo sarà ad esempio possibile modificare l’inizio o la fine di un gene o di un esone, oppure modificare l’associazione ad un termine della gene ontology o inserire dati relativi ad un polimorfismo. In tutti i casi sopra citati si tratta di informazioni che modificano specifici campi del database. Quindi per questi interventi sarà utilizzato un sistema basato su un’interfaccia web che faciliterà l’accesso alle tabelle ed ai campi da modificare.
La seconda modalità di intervento riguarda la possibilità di associare ad un gene o a qualsiasi altra porzione del genoma un’annotazione di tipo testuale. Ad esempio le osservazioni relative ad un particolare esperimento che non potrebbero trovare facile collocazione nel sistema chiuso del database relazionale. Questa seconda modalità di intervento sarà realizzata sempre tramite web, ma si baserà sul sistema open source Wiki.
In entrambi i casi l’accesso al sistema di annotazione esperta sarà limitato agli utilizzatori autorizzati che avranno delle password personali. Il sistema sarà inoltre in grado di memorizzare la storia degli interventi di annotazione e gli autori delle modifiche. Le annotazioni saranno automaticamente associate agli elementi genetici a cui si riferiscono, in modo da poter essere richiamate con un semplice click sul genome browser.

2 pensieri su “Sviluppo di una piattaforma bioinformatica

  1. Pingback: Architettura dell’albero | Olive Genome Project

  2. Pingback: Resistenza agli stress (abiotici e biotici) | Olive Genome Project

I commenti sono chiusi.