590 likes | 792 Views
Uma plataforma computacional para análise de expressão diferencial múltipla. Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto
E N D
Uma plataforma computacional para análise de expressão diferencial múltipla Israel Tojal da Silva Orientador: Prof. Wilson Araújo da Silva Jr. Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Doutorado em Ciências com ênfase em Genética
Introdução Expressão Gênica
Introdução Expressãogênica • Dogma Central da Biologia Molecular
Introdução Expressãogênica • Por que estudar o transcriptoma? Um ponto de partida para a compreensão das desordens moleculares associadas com a fisiopatologia de um dado fenótipo. (Murray et al., 2007) Busca no PubMed por palavra chave
Introdução Expressãogênica • Análise dos perfis de expressão gênica
Introdução Expressãogênica • Medida da Expressão Gênica • Real Time quantitative RT-PCR • Microarray (Schena et al., 1995) • Serial Analysis of Gene Expression (SAGE) (Velculescu et al., 1995) • Massively Parallel Signature Sequencing (MPSS) (Brenner et al., 2000) • Proxima geração de sequenciamento (Rusk & Kiermer, 2008) • 454 Roche • Illumina Solexa • SOLiD system
Introdução Banco de dados biológicos • NCBI - National Center for Biotechnology Information
Introdução Estado da arte
Introdução Estado da arte • Análise da Expressão Diferencial – ED • Questões : • Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ?
Introdução Estado da arte • Análise ED C T • Teste Fisher Exato • X2 • Audic-Claverie (Audic & Claverie, 1997) • teste tw(Baggely et al., 2003) • teste log-t(Lu et al., 2005) • SAGEbetaBin (Vencio et al., 2004), etc C T (1) Teste (2) C < T C < T (3) p < cutoff (4) T<T c/ p < cutoff
Introdução Estado da arte • Ferramentas web para análise ED
Introdução Estado da arte • Análise da Expressão Diferencial Múltipla – ED • Questões : • Sejam duas amostras biológicas C e T, quais os genes que estão hiper ( > ) ou hipo ( < ) expressos em relação ao controle( C ) ? T1 T2 T3
Introdução Estado da arte • Análise EDM A B C A B B C (1) Teste Teste (2) A < B B > C A < B > C (3) p < cutoff p < cutoff (4) B > C c/ p < cutoff A < B c/ p < cutoff • Erros de estimação • A, B : A B ; • A, B, C : A B ; B C (Romualdi et al., 2003) (5) A<B AND B>C A < B > C
Introdução Objetivos
Introdução Objetivos • Geral • Desenvolver uma plataforma computacional para análises de EDM; A B C P robFAST Gene1 Gene2 Gene3 Gene4 Gene5 …. GeneN Análises Hipótese Conhecimento a priori Medidas Interpretação
Introdução Objetivos • Geral • Desenvolver uma plataforma computacional para análises de EDM; A B • Específicos • Estabelecer uma métrica de avaliação e verificar o desempenho do método em relação às demais abordagens por meio de um estudo simulado; • Criar uma plataforma (ProbFAST) que permita análises globais associando aos resultados informações funcionais; • Avaliar um conjunto de dados de expressão gênica pelo ProbFAST. P robFAST Gene1 Gene2 Gene3 Gene4 Gene5 …. GeneN Análises Hipótese Conhecimento a priori Medidas Interpretação
Material e MétodosModelagem • Método para análise EDM e ED 100 E X P R E S S Ã O 50 10 3 A B C CONDIÇÃO BIOLÓGICA • Beta(a,b) (Chen et al., 1998; Baggerly et al., 2003; Vëncio et al. 2003; Zuyderdyn, 2007) • P (A < B > C) • P ( (A < B ) AND (A>C) ) • …
Material e Métodos Modelagem • Como funciona ? + A > B < C +
Material e MétodosAvaliação do método - Análise simulada • MAQC- MicroArray Quality Control • Affymetrix (AFX); • ~ 1000 genes validados ( TaqMan ) • 2 amostras de RNAs: • Universal Human Reference RNA (UHRR) • Human Brain Reference RNA (HBRR) • 4 pools: • A: 100% UHRR • B: 100% HBRR • C: 75% UHRR e 25% HBRR • D: 25% UHRR:75% HBRR (Shi et al .2006)
Material e Métodos Estudosimulado – préprocessamento • Gerando as tags virtuais • Affymetrix (AFX) • 4 test site • Atualizada a anotação • spot c/ maior intensidade • Excluir probes repetidos • TaqMan 1) A1,A2,A3,A4 > B1,B2,B3,B4 2) A1 > C1 > D1 > B1
Material e MétodosAvaliação do método - Análisesimulada • Curva ROC (ReceiverOperatingCharacteristic) (Fawcett 2006) TP/(TP+FN) 1 – TN/(FP+TN) • Verdadeiro positivo - TP , Verdadeiro negativo - TN • Falso positivo - FP , Falso negativo - FN
Material e MétodosAvaliação do método - Análisesimulada • Construindo a curva ROC Corte TP TN FP FN X Y 70 179 105 414 22 0.80 0.89 71 178 106 413 23 0.80 0.89 72 178 109 410 23 0.79 0.89 73 178 109 410 23 0.79 0.89 74 178 120 399 23 0.77 0.89 75 178 120 399 23 0.77 0.89 76 178 120 399 23 0.77 0.89 77 177 125 394 24 0.76 0.88 78 177 125 394 24 0.76 0.88 ... 100 176 131 388 25 0.75 0.88 + TaqMan + Cortes (limiar de decisão)
Material e MétodosPlataforma de desenvolvimento – ProbFAST • Linguagem de Programação • R • PERL • Interface de Aplicação • CGI + Apache • DBI • Sistema de Gerenciamento de Banco de Dados • MySQL • Sistema Operacional • Linux Red Hat • DBDesigner, CPAN, BioPERL
Material e MétodosModeloentidaderelacional - ProbFAST • Dados Biológicos • Informações funcionais • KEGG • BIOCARTA/CGAP • Gene Ontology • Dados de expressão gênica • GEO • (Gene Expression Omnibus) • Anotação • Unigene – Gene • Tag - gene
Material e MétodosAplicação – Análise com dados reais • Efeito da radiação na expressão gênica • Grupos biológicos
Resultados e Discussões Estudosimulado • Análisedacurva ROC • A1,A2,A3,A4 > B1,B2,B3,B4 (ProbFAST x Baggerly x BetaBin x log-t ) F =1E6 F =1E8 F =1E7
Resultados e Discussões Estudosimulado • Análisedacurva ROC • A1,A2,A3,A4 > B1,B2,B3,B4 (ProbFAST x Baggerly x BetaBin x log-t ) F = 1E6
Resultados e Discussões Estudosimulado • Análisedacurva ROC • A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC ) A1 C1 C1 D1 (1) D1 B1 (2) A1 >C1 C1 > D1 D1 > B1 (3) p < cutoff p < cutoff (4) p < cutoff D1 > B1 c/ p < cutoff C1 > D1 c/ p < cutoff A1 > C1 c/ p < cutoff (5) A1 >C1 AND C1>D1 AND D1>B1 ( A1>C1>D1>B1 )
Resultados e Discussões Estudosimulado • Análisedacurva ROC • A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC ) F = 1E7 F = 1E6 F = 1E8
Resultados e Discussões Estudosimulado • Análisedacurva ROC • A1>C1>D1>B1 ( ProbFAST x Fisher x Chi2x2 x AC ) F = 1E7
ResultadosProbFAST - Arquitetura ProbFAST – Probabilistic Functional Analysis System Tool http://gdm.fmrp.usp.br/probfast
Resultados e discussõesProbFAST – interface web Analysis Creating Question Visualize Analysis
Resultados e discussõesProbFAST – interface web Analysis Creating Question Visualize Analysis
Resultados e discussõesProbFAST – interface web €€€ Analysis ProbFAST– Workflow web Creating Question Visualize Analysis
Resultados e discussõesProbFAST – interface web Analysis Creating Question Visualize Analysis
Resultados e discussões Aplicações
Resultados e discussõesAplicações • Efeito da radiação na expressão gênica • Lee et al. (2005) • GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h) • ProbFAST - questões avaliadas relacionadas ao tempo de exposição • Quais os genes que foram ativados ( CT < 2h < 6h ) • Quais os genes que foram desativados ( CT > 2h > 6h ) • EIF5 (eukaryotic translation initiation factor 5) • Li et al. (2004) indução apotose – cancer de pulmão • Taylor et al. (2004) protegeu células a entrarem em apoptose X • PTMA (prothymosin, alpha) • Ojima et al (2007) células suscetíveis a apotose
Resultados e discussõesAplicações • Efeitodaradiaçãonaexpressãogênica • Lee et al. (2005) • GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h) • ProbFAST - questõesavaliadasrelacionadasao tempo de exposição • Quaisosprocessosqueforamativados ( CT < 2h < 6h ) • response to oxidative stress (GO:0006979) • defense response (GO:0006952) • induction apoptosis (GO:0006917) • (EIF5) • Quaisosprocessosqueforamdesativados( CT > 2h > 6h ) • transcription(GO:0006350) • (PTMA)
Resultados e discussõesAplicações • Efeito da radiação na expressão gênica • Lee et al. (2005) • GSM66698 (CT), GSM66712 (2h) e GSM66714 (6h) • ProbFAST - questões avaliadas relacionadas ao tempo de exposição Apoptose EIF5 PTMA
Resultados e discussõesAplicacões • Alteraçãodaexpressão entre amostras dos tecidostumoral e normal • Cólon(GSM755,GSM756 > GSM728,GSM72) • ProbFAST – Avaliarosprocessosbiológicosmaisexpressosnasamostrastumorais • translation, GO: 0006412 • cellcycle, GO:0007049 • transcription, GO:0006350 • cellproliferation, GO:0008283 • intracellularsignalingcascade, GO:0007242