160 likes | 306 Views
La “Gene Ontology”. Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali Le categorie sono le “classi supreme di ogni predicato possibile, con cui poter catalogare tutta la realtà”
E N D
La “Gene Ontology” • Ontologia: studio dell’essere in quanto tale, e delle sue categorie fondamentali • Le categorie sono le “classi supreme di ogni predicato possibile, con cui poter catalogare tutta la realtà” • In pratica: la “gene ontology” è un tentativo di “catalogare la realtà” di tutti i geni noti sulla base delle informazioni che abbiamo sulla loro funzione o attività • La catalogazione deve essere effettuata in modo non ambiguo utilizzando una nomenclatura pre-definita e in modo da permettere confronti e analisi delle informazioni disponibili sui geni
“Gene Ontology” • Consideriamo un gene, e la rispettiva proteina codificata • Per “catalogare” il gene possiamo cominciare a chiederci: • Dove è localizzata la proteina, una volta sintetizzata? • Nucleo? Citoplasma? Membrana? Secreta fuori dalla cellula? • Qual è la funzione molecolare della proteina, ovvero, “cosa fa”? • Si lega al DNA? Ad altre proteine? A determinate molecole? Ecc. ecc. • In quale “processo biologico” è coinvolta la proteina? • Regolazione della trascrizione? Ciclo cellulare? Metabolismo? Pathway? Ecc. ecc.
Gene Cellular Component (CC) “Localizzazione” Molecular Function (MF) Biological Process (BP)
GO • I termini (o “attributi”) associati a un gene sono quindi raggruppati in tre categorie principali • Gli attributi associati a ciascuna categoria sono organizzati in modo gerarchico, dal più generico al più specifico • Gli attributi sono pre-definiti in modo da evitare ambiguità
GO • Esempio: un gene codifica per una proteina che agisce da fattore di trascrizione • I fattori di trascrizione legano il DNA regolando (attivando/bloccando/modulando) la trascrizione dei geni ad opera della polimerasi • I fattori di trascrizione sono attivi nel nucleo della cellula • E quindi, per definire un fattore di trascrizione tramite GO:
Gene CC MF BP Nucleus Binding Regulation Nucleotide Binding Regulation of Cell Cycle DNA Binding
Molecular function ontology Nucleic acid binding is a type of binding. is_a is_a DNA binding is a type of nucleic acid binding.
Biological process ontology Adaxial/abaxial pattern formation is a type of pattern specification. Adaxial/abaxial pattern specification is a part of adaxial/abaxial pattern formation
Cellular component ontology nucleus is part of the intracellular domain is_a membrane- bound organelle is a type of organelle part_of
function component process
is_a part_of
GO • Oltre che a catalogare in modo uniforme, non ambiguo e gerarchico le annotazioni disponibili per i geni e i loro prodotti, la GO serve ad analizzare insiemi di geni cercando proprietà condivise e caratterizzanti • Analisi di dati di espressione • Confronto due condizioni diverse: estraggo i geni che mostrano differenze significative di espressione nei due esperimenti • Confronto più condizioni: “raggruppo” i geni in due o più gruppi sulla base della similarità nella variazione dell’espressione nelle diverse condizioni • I gruppi (“cluster”) così formati possono contenere centinaia di geni: che cosa hanno in comune i geni di ogni “cluster”? • Determino su scala genomica tutti i geni “target” di un dato fattore di trascrizione (centinaia o migliaia) • Di quali processi o pathway biologici il fattore sembra essere un regolatore fondamentale?
GO • Immaginando di avere un insieme di geni, di cui vogliamo determinare se esistano caratteristiche/proprietà comuni, ci possiamo chiedere: • Esiste un “nodo” nella gerarchia GO - ovvero una annotazione - che è associato ai geni dell’insieme - se non proprio tutti a un numero significativo di geni? • Ovvero - esiste una annotazione di qualsiasi tipo che è condivisa da un numero significativamente alto dei geni dell’insieme? • La risposta dipende da • N: numero di geni del genoma • M: numero di geni del genoma con una data annotazione GO “A” • n: numero di geni del “campione” studiato (es: cluster di espressione) • m: numero di geni del “campione” con l’ annotazione GO “A”
GO • Dati N,M,n,m si calcola un “test di Fisher” per determinare “la probabilità che - selezionando n geni a caso su N - si trovino m geni con l’annotazione A” • Si ripete il test per ogni possibile annotazione della gerarchia della Gene Ontology • Si considerano le annotazioni con una probabilità tel test di Fisher BASSA
GO • Esistono “tool” bioinformatici che fanno proprio questo: • Prendono come input una lista di identificativi di geni • Esplorano tutta la gerarchia completa delle annotazioni GO alla ricerca di nodi (annotazioni) con un numero significativamente alto di geni - e un rispettivo “p-value” (valore di probabilità) che ne misura la significatività: più il p-value è basso, più l’osservazione NON è casuale (come nel caso dell’E-value del BLAST)