Genomica strutturale

Coordinatore: Prof. Michele Morgante – IGA-UDINE

Obiettivi

Si perseguono i seguenti obiettivi:

  • la produzione di una sequenza di tipo draft del genoma, di annotarla dal punto di vista del contenuto in geni e in elementi ripetuti e di collegare la sequenza alla mappa genetica, onde renderla utilizzabile per l’individuazione di geni utili per il miglioramento genetico della specie;

  • l’identificazione di regioni genomiche che controllano caratteri di particolare interesse agronomico e metabolico.

Attività previste

 1.1. Sequenziamento del genoma

1.1.1. Caratterizzazione preliminare del genoma (IGA)

Un’informazione molto importante per decidere la migliore strategia di sequenziamento del genoma è il grado di eterozigosi presente a livello di sequenza nelle varietà di olivo. Per stimare la frequenza di polimorfismi di singolo nucleotide (SNP) e di varianti strutturali presenti entro la varietà prescelta per il sequenziamento si dovranno sequenziare 5-10 coppie di cloni BAC allelici, cioè rappresentanti ciascuno uno dei due cromosomi omologhi presenti. Sarà quindi necessario costruire una libreria BAC con una copertura di 5-10 genomi equivalenti, a seconda che sia costruita per frammentazione meccanica casuale o per digestione enzimatica parziale del DNA ad alto peso molecolare.

1.1.2. Produzione delle sequenze (IGA)

Se disponibile, sarebbe preferibile sequenziare non una varietà commerciale bensì un individuo diaploide, che, essendo completamente omozigote, eviterebbe tutti i problemi di assemblaggio della sequenza genomica derivante dall’eterozigosi a livello di sequenza.

Per sequenziare sono disponibili due approcci, uno ben collaudato e l’altro del tutto sperimentale.

Il metodo collaudato è quello del Whole Genome Shotgun (WGS), che è quello che più potrebbe risentire in senso negativo di livelli elevati di eterozigosi a livello di sequenza.

La dimensione del genoma aploide di O. europaea è stata stimata pari a circa 1500 milioni di paia di basi (1500 Mb). Di conseguenza, l’attività di sequenziamento deve prevedere il sequenziamento di circa 15 genomi equivalenti con metodo 454 (45 corse 454) e 60 genomi equivalenti con metodo Illumina (6 corse Illumina paired end). Le sequenze ottenute con metodo 454 saranno per metà ottenute con strategia paired end (utilizzando una varietà di genoteche con inserti da 3, 10, 40 e 100 kb) e per metà ottenute come single reads. Le sequenze ottenute con metodo Illumina saranno tutte sequenze ottenute con strategia paired end.

Il metodo alternativo e del tutto sperimentale, del quale è al momento difficile prevedere i risultati, prevede il sequenziamento di un campione casuale di BAC per una copertura pari a 4 genomi equivalenti tramite sequenziamento Illumina. Il metodo equivale al sequenziamento noto come BAC per BAC ma senza la costruzione di una mappa fisica e di un minimum timing path. Ogni BAC sarà sequenziato separatamente grazie ad una procedura di DNA bar coding che permetterà di sequenziare migliaia di cloni BAC in ogni corsa Illumina. Per ogni clone BAC si produrrà una copertura in sequenza di 20-30 cloni equivalenti, le sequenze entro ogni BAC saranno assemblate al fine di ricostruire la sequenza locale e le sequenze di tutti i cloni BAC saranno confrontate fra loro per ricostruire l’ordine dei cloni BAC nel genoma (ricostruzione della mappa fisica dei cloni).

1.1.3. Assemblaggio della sequenza (IGA, UNIPD-CRIBI)

Si procederà all’assemblaggio dell’intero genoma utilizzando l’esperienza e gli algoritmi messi a punto entro il progetto italo-francese di sequenziamento del genoma della vite. Se sarà scelto il metodo alternativo, gli algoritmi di assemblaggio dovranno essere costruiti ex novo.

1.1.4. Annotazione della sequenza (UNIPI-DBPA, CNR-IGV)

Una volta ottenuta e assemblata la sequenza nucleotidica del genoma, la sfida principale diventa l’interpretazione dei dati in termini di descrizione strutturale e di contenuto informativo del genoma. Questo riguarda la componente di geni che codifica per prodotti proteici (porzione codificante), la componente con ruolo di regolazione genica e la componente ripetuta, composta di svariate classi di elementi trasponibili e di retrotrasposoni, depositaria della maggior parte della variabilità genetica intra-specifica ed essenziale per comprendere l’evoluzione dei genomi.

Le tecnologie di risequenziamento possono essere applicate efficacemente sia per produrre dati di sequenza che si riferiscono alla porzione codificante, sia per caratterizzare le popolazioni di RNA di piccole dimensioni, sia per l’individuazione della componente ripetuta. Quindi procederemo al sequenziamento usando la tecnologia Illumina (o altra al momento disponibile) di mRNA estratti da diversi tessuti (5-10) della stessa pianta usata per il sequenziamento genomico al fine di fornire evidenze sperimentali che rinforzino le predizioni geniche. Grazie alla possibilità di produrre >1 Gbp di sequenze da mRNA per tessuto si è osservato in vite che si riescono a trovare evidenze sperimentali per la maggior parte dei geni predetti, con la possibilità di migliorare notevolmente l’annotazione delle regioni UTR e di predire geni che altrimenti non sarebbero stati predetti. Con la stessa tecnologia sequenzieremo anche da 3-5 tessuti la frazione di piccoli RNA (small RNA) per identificare small interfering RNA (siRNA) che sono in genere complementari a sequenze ripetute e quindi permettono di riconoscere i tratti ripetuti e microRNA (miRNA) che invece hanno una importantissima funzione regolante nello sviluppo e morfogenesi della pianta. Infine, mediante sequenziamento casuale di una frazione ridotta del DNA genomico e mediante confronto con i dati già disponibili sui retrotrasposoni di olivo, avremo informazioni su struttura, ridondanza e variabilità intragenomica delle sequenze ripetute.

Una volta disponibile, la sequenza del genoma verrà sottoposta ad analisi con appositi software per l’individuazione dei loci SSR (di-, tri-, tetra-, penta- ed esa-nucleotidici) e verrà allestito un apposito database. Verrà quindi effettuato uno studio della loro abbondanza e distribuzione nel genoma e verranno classificati sulla base delle loro caratteristiche (microsatelliti perfetti ed imperfetti, tipo di motivo ripetuto, numero di ripetizioni, ecc.). Verrà inoltre valutata la loro localizzazione (regioni intergeniche, UTR, esoni, introni) e la loro eventuale associazione con altri elementi ripetuti (es. retrotrasposoni) e regioni duplicate in genere. In seguito alla fase di identificazione e classificazione si procederà alla selezione di una serie di loci SSR per lo sviluppo di nuovi marcatori STMS. (CNR-IGV)

1.2. Mappatura genetica e identificazione di marcatori associati a caratteri agronomici

1.2.1. Costruzione di mappe genetiche mediante analisi con marcatori SSR e SNP (CNR-IGVPG, UNIBA)

Per la costruzione di mappe genetico-molecolare con strategie di pseudo-testcross a due vie attraverso l’utilizzo di marcatori sequence-based, sono previste le seguenti attività:

  • costruzione di mappe genetiche mediante analisi di progenie F1 con impiego di marcatori SSR (Simple Sequence Repeats) e SNP (Single Nucleotide Polymorphisms);

  • costruzione di una mappa consensus per la specie;

  • identificazione di marcatori molecolari QTL associati a caratteri di particolare rilevanza;

  • validazione dei marcatori identificati.

Tenuto conto che per l’olivo non sono disponibili al momento né popolazioni F2 né derivanti da reincrocio, per il mapping saranno utilizzate le progenie F1 derivanti da incroci intervarietali già disponibili, costituite da almeno 100 individui.

Le popolazioni segreganti potranno essere utilizzate da tutte le Unità di Ricerca coinvolte nell’attività per mappare tutti i marcatori molecolari attualmente disponibili e quelli sviluppati nel corso del progetto per realizzare una mappa dell’olivo di riferimento a livello internazionale.

In particolare, per l’avvio dei lavori sarà messa a disposizione del progetto una popolazione F1 costituita da 180 individui segregante per i caratteri: i) precocità di entrata in fruttificazione, ii) portamento dell’albero, iii) resistenza alla verticilliosi (Verticillium dahliae), iv) capacità rizogena (moltiplicazione per talea).

Potranno altresì essere utilizzate altre popolazioni derivanti da incroci intervarietali, come, ad esempio, quelle dei genotipi presenti nelle collezioni del CNR-IGV-PG, UNIBA e CRA-OLI, e quelle generate tra varietà e olivi selvatici, in corso di allevamento e valutazione.

L’uso delle popolazioni menzionate e di altre che potrebbero essere messe a disposizione da altri Partner sarà regolamentato mediante specifici agreement tra i gruppi e finalizzate all’esclusivo scopo di genetic mapping.

Si procederà alla costruzione delle mappe per ciascuna coppia di varietà parentale e della mappa consensus mediante analisi delle relative progenie con marcatori SSR e SNPsusando la strategia di mappatura two-way pseudo test-cross.

Saranno usati i seguenti marcatori:

  • SSR: circa 300, 100 (gSSR) già identificati (Sefc et al., 2000; Cipriani et al., 2002; Carriero et al., 2002; de la Rosa et al. 2002; Diaz et al., 2006; Sabino Gil et al., 2007) e 200 (EST-SSR) derivanti dalle informazioni di sequenze genomiche ed EST. Le diverse forme alleliche per ciascun parentale di questi marcatori, oltre ad ancorare le mappe, potranno contribuire alla localizzazione di loci di interesse fenotipico;

  • SNP su geni candidati o EST, per un totale di almeno 1500.

Per la selezione degli SNP si lavorerà sia su EST espressi in foglia e frutto in diverse fasi di maturazione, attualmente in corso di sequenziamento, sia su sequenze codificanti già identificate in olivo, con particolare riferimento a quelle coinvolte nell’accumulo dell’olio, nel metabolismo delle sostanze fenoliche del frutto, nei meccanismi di resistenza ai patogeni, nella percezione dei fattori ambientali e nel controllo della regolazione dello sviluppo.

1.2.2. Integrazione della mappa fisica e genetica (IGA, CNR-IGV)

Con l’obiettivo di procedere all’ancoraggio dei contigs di BAC alla mappa genetica, si procederà alla mappatura dei contigs e/o cloni BAC sviluppati nel Modulo 1 sulla mappa consenso di riferimento descritta in precedenza. Marcatori gSSR ed EST-SSR con posizione di mappa nota saranno utilizzati per identificare e assegnare i cloni BAC a specifici gruppi linkage del genoma di olivo.

1.2.3. Identificazione di QTL (CNR-IGV-PG, UNIBA)

Nelle diverse progenie sarà valutata la segregazione di: caratteri morfologici (es. forma e dimensione delle foglie e dei frutti), caratteri riproduttivi (es. grado di autofertilità, allegazione), metaboliti (es. composizione in acidi grassi dell’olio, polifenoli, composti volatili, ecc.), portamento dell’albero, resistenza a patogeni e parassiti, tolleranza a siccità, salinità, freddo.

Questa analisi consentirà di identificare regioni genomiche co-segreganti o strettamente associate (< 3 cM) con i caratteri di interesse (QTL).

Allo stesso fine potranno essere realizzati esperimenti di Bulk Segregant Analysis (BSA) con marcatori SNP (Hazen et al., 2005; Kim et al., 2008) usando pool di individui con fenotipo contrastante (es. resistenti e suscettibili ad un patogeno) attraverso diversi possibili approcci (Baird et al., 2008; Salathia et al., 2007; Zhu e Salmeron, 2007).

I QTL identificati in questa fase potranno essere utilizzati per gli approcci di association mapping, consentendo di circoscrivere le regioni candidate da sottoporre ad analisi di Linkage Disequilibrium.

Tutti i dati generati in questo Modulo saranno opportunamente assemblati e organizzati in una banca dati nell’ambito del Modulo 4 – Piattaforma Bioinformatica.