550 likes | 1.02k Views
2008 년도 성과 평가. 상호작용 정보에 기반한 단백질 기능 분석 환경 개발. 2009. 5. 6. 한 동 수 Intelligent Service Integration Lab. Korea Advanced Institute of Science and Technology. 발표 순서. I . 제안 내용 설명 Ⅱ. 사업 목표 및 실적 Ⅲ. 연구 내용 Ⅳ. 수행 체계 및 지적사항 보완 Ⅴ. 사업비 집행 VI . 차년도 계획 및 참여기관 소개. I. 제안 내용 설명.
E N D
2008년도 성과 평가 상호작용 정보에 기반한 단백질 기능 분석 환경 개발 2009. 5. 6. 한 동 수 Intelligent Service Integration Lab. Korea Advanced Institute of Science and Technology
발표 순서 I . 제안 내용 설명 Ⅱ. 사업 목표 및 실적 Ⅲ. 연구 내용 Ⅳ. 수행 체계 및 지적사항 보완 Ⅴ. 사업비 집행 VI . 차년도 계획 및 참여기관 소개
단백질 기능 분석 시스템 정의 상호작용 예측 기법 상호작용 네트워크 상의 단백질 기능 연관관계 유추 단백질 관련 1차 DB 단백질 기능 분석 시스템 “정보의 홍수 ” –다량으로 보고되고 있는 단백질 관련 1차 데이터 “전략적 정보” –다양한 정보의 가공을 통하여 신약 개발등과 같은 연구 분야에 즉시 적용될 수 있는 정보 창출 대사경로 예측 및 보완 단백질 상호작용 DB 데이터 마이닝 기법 • 분산된 단백질 관련 1차 데이터에 다양한 가공 기법을 적용하고 • 이를 바탕으로 단백질 기능 및 기능의 유기적 관계로 이루어지는 • 대사 경로의 예측을 수행하는 시스템 • 단백질과 관련된 생물학적 지식과 정보통신 분야가 유기적으로 연계된 • 다학제간(Inter-disciplinary) 학문인 Bioinformatics 분야의 신규 시스템 • 현재 단절되어 있는 상태인 단백질 관련 1차 데이터와 대사경로와의 관계를 • 유기적으로 유추하여 관련 분야에 폭넓게 활용될 수 있는 “Bioinformatics”의 • 기반 시스템적 성격을 지니고 있음
상호작용 정보에 기반한 단백질 기능 분석 환경 개념도 분석 시스템의 동작 및 중요 기술 개념도 SPIN • Web에 산개한 단백질 및 단백질 상호작용 데이터의 추출 및 통합 • - 단백질 상호작용 예측 기법 및 문헌 정보를 이용한 차등 신뢰도 부여 • - 단백질 상호작용 네트워크 구성 및 topology 분석을 통한 기능 연관관계 분석 • - 대사경로의 대량 예측 및 기존에 알려진 대사 경로의 검증 및 수정 기능
사업 목표 (기술개발측면) 상호작용 정보에 기반한 단백질 기능 분석 방법 고안 및 응용 소프트웨어 개발 • 공개된 단백질 상호작용 1차 데이터베이스, 자체 보유한 단백질 상호작용 예측 툴, • PubMed와 같은 문헌정보 등을 이용하여 정제된 단백질 상호작용 네트워크를 얻어내고 • 이를 기반으로 미지의 대사경로 및 단백질 기능을 예측하는 “상호작용 기반 단백질 • 기능 분석 환경”구축 • 단백질 상호작용 네트워크의 • 시각화, topology 분석, • 기능 흐름 분석 방안 연구 • 대사 경로의 예측 , 재구성, • 확장 방안 연구 • 기존의 1차 데이터베이스를 적절하게 통합하는 방안 연구 • 단백질 상호작용 예측 기법 및 데이터 마이닝을 통한 통합 데이터 베이스의 신뢰도 확보 방안 연구
사업 목표 (인력양성측면) 생물학적 지식과 IT 구현 능력을 보유한 고급 인력 양성 • 단백질 상호작용 위상 정보를 통한 단백질 기능 분석을 위하여 관련 분야의 • 전문 지식 습득 유도 • 참여연구원 중 석,박사 급 인력에 대하여 지역 내 연구소와의 교류 및 연구 성과 • 발표 등을 통하여 관련 분야의 지속적인 연구 활동을 유도 • 각종 학술 대회 및 세미나 • 참여 유도를 통하여 다양한 • 교류 체험 제공 • 참여 구성원 간의 정기적인 • 회의를 통하여 실무 수준의 • 능력을 보유한 인재 양성 • 연구 인력 1인 1분야 이상의 전문 능력을 보유하도록 유도 • 과제 수행 내용의 연구 결과를 논문화 하도록 하여 석사급 이상의 연구 인력 양성
최종 사업 목표 최종 사업 목표의 정량적 분석(2007.5.1 – 2010.4.30)
2차년 사업 목표 및 성과 인력양성 및 산학 협력 2014-09-25 10
2차년 사업 목표 및 성과 논문 실적 2014-09-25 11
2차년 사업 목표 및 성과 논문 실적 * no. 12~13 : 한국정보과학회 추계 학술대회 우수논문선정, 논문지 게제예정 2014-09-25 12
2차년 사업 목표 및 성과 논문 실적 * no. 15 : Acknowledgement 누락됨 2014-09-25 13
2차년 사업 목표 및 성과 기술 개발 2014-09-25 14
2차년 사업 성과 기타 한국정보과학회 추계학술대회 우수논문 선정 및 제 28회 학생논문경진대회 입상 2014-09-25 15
2차년 사업 성과 기타 아시아 최대 규모 학회 GIW2008 Student Bursary Award 및 Oral/Poster 발표 2014-09-25 16
2차년 사업 성과 기타 개발 기술에 대하여 특허 출원 추진중 상세 내용 별첨 참조 2014-09-25 17
통합된 상호작용 네트워크 및 관련 데이터를 이용하여 네트워크 토폴로지 분석 단백질 기능 및 대사경로 예측을 위한 기능흐름모델 구성 및 검증 단백질 복합체 예측 틀의 검증, 적용 및 정확도 향상 단백질의 상호작용에 있어 특정 도메인 조합에 대한 기여도 측정 및 검증 기능흐름모델, 단백질 복합체, 단백질 분자기능은 향후 대사경로 예측의 기반이 됨 2차년도 연구 내용 단백질 기능 및 대사경로 예측을 위한 상호작용 네트워크 분석 PreSPI의 개량을 통한 상호작용 상세 분석 지원 2014-09-25 19
PreSPI 개량을 통한 상호작용 상세 분석 지원 • 단백질 상호작용에 있어, 가장 큰 기여를 하는 도메인 조합을 찾아내는 것은, 단백질의 기능이 어떠한 형태로 나타나는가에 대한 중요한 단서가 될 수 있음 • PDB에서 나타난 crystal structure (PDB ID:1wOy, TF7A_3771 complex)의 예에서와 같이 도메인이 그룹으로 상호작용에 영향을 끼치는 경우가 발견됨 ? ? ?
PreSPI 개량을 통한 상호작용 상세 분석 지원 • Approach : 특정 단백질에 포함된 도메인이 같은 기능을 위하여 존재할 가능성을 all-confidence로 계산한 후, 단백질 조합에서 나타날 수 있는 모든 도메인 조합 쌍에 대하여, 상호작용 영향력을 구분하여 계산함. • 이때, 각 도메인 조합 쌍의 상호작용 기여도는 전체 단백질 상호작용 쌍에서의 출현 빈도에 따라 차등 계산됨 • 예측 결과, 상호작용 정확도 Sensitivity: 64%, Specificity: 94% 수준을 보여 주었으며, PDB에 보고된 다중 도메인 상호작용 50여개를 예측함 • 본 연구는 제 28회 정보과학회 학생 논문 경진대회 입상작으로, 현재 논문 투고를 위한 보충 실험 중에 있음 (2차년도 실적에 미포함)
단백질 기능 흐름 모델 개발 • 신호 전달 경로와 같은 대사 경로 예측은 기존의 단백질 쌍에 대한 연구에서 의미 있는 서브네트워크의 탐색으로 확장이 필요 • PPI 네트워크에서 단백질 쌍들은 일반적 기능의 선후 관계 혹은 패턴을 보여줌 • Tong, et al., “Global mapping of the yeast genetic interaction network”, Science, 2004. • Correlated interacting genes with GO annotations (~12% of interacting genes had exact annotations; 27% had very similar annotations). • Mehmet E Turanalp and Tolga Can, “Discovering functional interaction patterns in protein-protein interaction networks”, BMC Bioinformatics, 2008. • Found functional patterns from PPI network, and compared them to random patterns respect to MIPS and KEGG respectively.
단백질 기능 흐름 모델 개발 A4D1K5, Q99835 Q68DJ6, Q9ULC3 Q13635, Q9Y6C5 Q14623, Q43323, … (4) P98164 LRP2 SHH (HPE3, HLP3) PTCH2 RAB23 SMO (SMOH) GO:0015485, GO:0005113, GO:0043237 GO:0005515, GO:0004872, GO:0004888 GO:0005515, GO:0005515, GO:0004872 Unknown activation binding/association inhibition dissociation • 신호 전달 경로와 같은 의미 있는 단백질 상호작용 경로에는 단백질 기능 사이에 특징적인 흐름이 존재함 • 특징적인 단백질 기능 흐름을 보이는 단백질 사이의 관계(예: activation)는 동일한 기능 흐름을 보이는 또 다른 단백질 쌍에도 동일하게 적용됨 • 단백질의 여러 일반적 기능 중, 특정 상황에서 나타나는 기능은 선택적으로 결정되며 이는 이전 단계의 단백질 기능에 따름 그림. Hedgehog 신호 전달 경로에서 일부 단백질 사이의 기능과 상호작용 관계
단백질 기능 흐름 모델 개발 • KEGG에서 KGML형태로 제공되는 12개의 reference model에서 H. sapiens 종을 포함하는 11개의 functional flow model을 생성 (특정 기능을 중심으로 방사형으로 뻗어있는 형태) Hedgehog Ko04340 ErbB Ko04012
단백질 기능 흐름 모델 개발 where N is the number of components (items or test lets), is the variance of the observed total test scores, and is the variance of component i. • 생성된 모델의 내적 일관성 평가 • Chronbach’s alpha 계수는 한 개념을 많은 항목으로 측정했을 때, 각 항목들에 대한 일관성이나 동질성 평가 • Alpha 계수가 높을 수록 항목들 간의 내적 일관성이 높음 • (0.8-8.9: 높은 신뢰도, 0.7-0.8: 적당한 신뢰도, 0.6-0.7: 수용 가능한 신뢰도) N : 해당 신호 전달 경로에서 추출된 단백질 기능 흐름의 총 개수 : 해당 신호 전달 경로내의 총 단백질 기능 흐름의 총 분산 : 특정 단백질 기능 흐름의 총 11개 신호 전달 경로에 대한 분산
단백질 기능 흐름 모델 개발 • 평균 0.67의 신뢰도 측정됨, 전체 기능 흐름 1023개 중 0.6이상 765개 검출 • Protein binding과 같은 추상적인 기능이 많이 포함 될 수록 기능 흐름의 conflict가 많이 발생한다는 가정하에 GO term의 root로부터의 평균거리를 측정한 결과 alpha 계수와 비슷한 양상을 보임 • Distance가 클 수록 GO term의 의미는 specific함 • 본 연구는 2008 한국정보과학회 추계 학술대회 우수논문으로 선정됨
Dynamic Protein Interaction Network Interaction dynamics: PPIN상 상호작용간의 동적/정적 관계 Stable protein complex prediction과 path routing 에활용 Dynamic activation Stable complex Pathway 순차적으로 활성화되는 상호작용간의 동적 연결 PPIN 가능한 모든 상호작용을 정적으로 나타낸 네트워크 PPIN + Interaction dynamics => finding pathway
Interaction Dynamics 의 구성 Mutually Exclusive Interaction (MEI) 구조적 상호작용면(structural interface) 정보를 이용하여 추출 한 단백질의 동일한 표면에 붙는 두 단백질은 해당 단백질과 동시에 상호작용 할 수 없다. P1 상호작용면 공유 P2 P3 P1 P1 P2 P3 P2 P3 +PDB의 3D 구조 정보 이용하여 Domain-Domain interface (DDI) 추출 +domain은 protein의 하위 구조체 이므로 DDI를 PPI로 확장 PPIN Interaction dynamics
Stable Protein Complex Prediction X X YDL008w YDR118w X YFR036w A. YNL172w YGL240w YLR127c YFL039c YBL084c YKL022c YHR166c +Clustering on Dynamic Protein Interaction network+Interaction dynamics를 적용하여기존 예측 틀의 노이즈 제거 X Protein Complex 기존의 예측 틀 제안된 예측 틀
Stable Protein Complex Prediction 기존의 클러스터링 기법 MCODE, LCMA 활용 PPIN 기반 vs. dynamic network 기반 실험으로 검증된 MIPS 단백질 복합체와 비교 Dynamic _LCMA Dynamic _MCODE Number of match complexes Overlapping Score threshold Overlapping Score threshold +노이즈가 올바르게 제거되어 향상된 정확도를 가짐 +Conditionally accepted in Oxford Bioinformatics
Routing Rule for Pathway Prediction 선행 상호작용(way-in)이 주어질 경우, 후행 상호작용(way-out)을 결정하는 규칙 (차년도 연구) Dynamics 정보가 제한되어 있더라도 활용 가능 본 연구는 2008 한국정보과학회 추계학술 대회 우수논문으로 선정됨 + 하나의 interface에 상호작용은 세포 내에서 같은 역할을 한다. ( Sol, Genome Bio., 2007) + 즉 선행 상호작용과 MEI 관계에 있는 상호작용들은 후행상호작용이 될 수 없다. X X X X X X What’s next?? Is there Routing Rule? X X
참여기업 연구 내용 • Protein PPI / Localization 통합을 위한 기본 분석 시스템 개발 • PPI 분석을 위한 텍스트 마이닝 툴 개발 • 주관기관 요구 사항에 따른 통합 Database의 제공 Protein information public source database PPI public source database Localization public source database UniProtKB GO KEGG DIP BIND INTACT MINT PSORTdb WoLF PSORT Local Database: Public PPI 정보, 단백질 Localization 정보, 저널 추출 PPI정보 STRING eSLDB DBSubLoc Text Mining Tool: PubMed 초록파일에서 PPI정보 추출 PPI-Localization Viewer: Localization정보에 따라 단백질 PPI정보를 가시화
Text Mining 툴의 개요 Locus Link: gene info PubMed 유전자 이름 Local DB UniProt DB 유전자 및 동의어 SOAP: 초록 추출 사용자 정의 Word Viewer of PPI in considering localization : localization 정보를 포함한 PPI 가시화 및 TEXT mining 결과 적용 사용자 정의 Pattern TEXT mining Tool: PubMed 초록 정보를 정의된 word및 pattern분석 Local PPI DB: Public PPI정보의 검증 및 추가 PPI정보 제공 가시화 및 검증 결과 저장
Text Mining을 통한 PPI 예측 개요 • PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez/)초록 추출 • 전체 Flat파일의 이용은 불가 • HTTP를 이용한 SOAP(Simple Object Access Protocol)를 이용하여 word검색 결과 다운 가능 • 해당 유전자 및 단백질 이름 정의-동의어 처리 • Locus link정보 이용 : Gene2pubmed, gene_history, gene_info 파일 이용 • UniProt DB로 부터 유전자 이름, 동의어, ORF 이름 추출 • 해당 pattern 정의 및 검색 • Interaction관련 동사 선택:act, activate, affect, bind, coevolute, coexpress, compose, consist, contact, contribute, control, depend, effect, encode, enhance, form, function, generate, impact, increase, decrease, influence, inhibit, interact, inactivate, repress, synergize, translocate, associate, … • 각 동사들의 변형되는 형태를 이용한 pattern 생성 • Interaction 명사형 선택: : interaction of A (with/and) B, interaction (between/among) A and B, bind of A to B, bind between A and B, association of A (with/and) B … • Parse Tree를 이용한 검색(http://nlp.stanford.edu/software/lex-parser.shtml) • 각 문장을 품사별로 구분하여 interaction정보 추출
PPI 검색 결과 리스트 및 PPI Viewer • PPI 리스트를 트리 형식으로 보여줌 • 파일로 Open 혹은 DB연결한 부분을 동시에 보여줄 수 있게 Open 혹은 DB연결한 모든 리스트를 한꺼번에 보여줌 • 해당 PPI를 선택하면 PPI viewer탭에서 해당 PPI가 예측된 결과를 보여줌
참여기업 제공 DB 단백질 상호작용 및 Localization 관련 주요 데이터베이스 통합
추진 전략 및 체계 연구 추진 체계 주관기관 한국정보통신대학교 과제책임자 한 동 수 주관기관 한국정보통신대학교 과제책임자 한 동 수 한국정보통신대학교 한동수 외 5 명 참여기관 스몰 소프트 박기정 외 2 명 한국정보통신대학교 한동수 외 6 명 참여기관 스몰소프트 이광희 외 1 명 • 상호작용 통합 DB 구성 • 상호작용 네트워크 구성 및 기능 분석 • 대사 경로 재구성 및 하위 대사 경로 추가기술 • 도메인 분석 기반 상호작용 분석 시스템 • 프로모터 분석 기반 상호작용 분석 시스템 • 시스템 실용화 및 상용화 • 상호작용 통합 DB 구성 • 상호작용 네트워크 구성 및 기능 분석 • 대사 경로 재구성 및 하위 대사 경로 추가기술 • 도메인 분석 기반 상호작용 분석 시스템 • 프로모터 분석 기반 상호작용 분석 시스템 • 시스템 실용화 및 상용화 • 한국정보통신대학교(ICU) 및 스몰소프트와의 산•학 체계를 구축 - 대학은 연구 위주로 인력양성에 치중하고, 기업은 연구결과의 구현 및 사업화에 치중 • 한국정보통신대학교(ICU)와의 산•학 체계를 구축 - 대학은 연구작업 위주로 인력양성에 치중하고 기업은 연구결과의 구현 및 사업화에 치중 2014-09-25 39
추진 전략 및 체계 연구 추진 전략 정휘성 현보라 시각화 개발팀 단백질 복합체 예측 방법 고안 및 틀 작성 팀 위상분석 과 상호작용면 정보 제공 동적 제약조건을 수용하는 상호작용 네트워크 생성 툴 제공 정석훈, 장우혁 정석훈, 장우혁 단백질 기능 흐름 모델 구축 설계 팀 Metabolic Pathway 검증 및 재구성 상호작용 네트워크 위상 분석 및 동적 상호작용 분석 팀 위상분석 과 상호작용면 정보 제공 구현 위주의 작업을 해당 팀에서 전담 단백질 상호작용 네트워크 생성 팀 (텍스트 마이닝 및 ProNet 구현) 김판규, 서화정 • 세부 연구 내용별 전문화 팀 구성 - 해당 문제에 대한 모듈 별 팀 구성으로 연구 수행이 병렬적으로 진행되도록 추진함 • 한국정보통신대학교(ICU)와의 산•학 체계를 구축 - 대학은 연구작업 위주로 인력양성에 치중하고 기업은 연구결과의 구현 및 사업화에 치중 2014-09-25 40
주관기관 사업비 집행 중간보고서 제출 시점(3월 말 현재) 2014-09-25 43
주관기관 사업비 집행 2014-09-25 44
참여기관 사업비 집행 2014-09-25 45
참여기관 사업비 집행 2014-09-25 46
개발된 기술의 통합을 통한 신호 전달 경로 검증 및 예측 상호작용 기여도 도메인 조합 쌍 예측을 통한 단백질 상호작용 쌍의 기능 발현 예측 Mutually Exclusive 관계의 단백질 상호작용 쌍 발견을 이용한 PPI routing rule 고안 KEGG의 단백질 신호전달 경로 학습을 통하여, 신호전달 경로의 특정한 기능적 Rule 추출 전체적인 통합을 통한 신호전달 경로 재구성 및 MAPK 신호전달 경로를 이용한 검증 개발된 기술의 특허 등록 및 제품화 방안 마련 3차년도 연구 계획 1, 2차년도를 통해 완성된 기술의 통합을 통한 신호 전달 경로 예측 상호작용 네트워크 routing rule 고안 신호전달 경로 예측 SPIC X PreSPI X KEGG상의 신호전달 경로 Rule 추출(ILP) [Rule 9] [Pos cover = 23 Neg cover = 0] fflow(A,B) :- featureofprotein(A,non_ter), keywordofprotein(B,kw_microsome). X X X X X X 2014-09-25 48
3차년도 연구 계획 차년도 연구 목표의 성공적 수행을 위한 참여기관 변경 • 상품화 실적 미진에 따른 실태조사 지적과, 현 참여기관 의견 및 3차년도 연구 방향에 대한 주관기관 책임자의 판단에 따라 차년도 참여기관 변경 예정 • 1, 2차년도 참여기관 연구 내용의 연계를 위하여 통합 DB 전반에 대한 주관 기관 이전 수행 • 바이오인포매틱스 관련 상품화 및 연구 수행 능력이 탁월한 ㈜엔솔테크를 차년도 참여기업으로 염두하고, 주관기관의 석사과정 연구원 2인을 약 한달간 파견함 • ㈜엔솔테크에서 기보유한 바이오인포매틱스 관련 기술 및 상품화 경험과, 파견 인력의 경과 보고등을 종합한 결과 차년도 과제 수행에 차질이 없을 것으로 예상됨 2014-09-25 49
㈜엔솔테크 엔솔테크는 혁신적인 생명정보분석기술을 기반으로 바이오 신 물질을 발굴하는 바이오테크놀로지 전문 기업. 엔솔테크의 핵심 기술은 ‘생명정보학’, ‘생물정보학’, ‘바이오인포매틱스’, ‘in silico biology’기술로 불리는 BT + IT 융합 기술임. ‘in silico’기술은 생물학, 화학, 물리학, 전산학, 수학 및 통계학 등 다양한 학문적 이론과 원리들을 융합(convergence)하여 생명공학 연구개발, 문제 해결 및 응용에 적용하는 첨단 생명과학 기술로 평가됨.