70 likes | 189 Views
タンパク質データベース. アミノ酸配列データベース. SWISS-PROT ( SIB ) http://www.expasy.org/sprot/ タンパク質一次構造情報であるアミノ酸配列 DB の代表 専門家の手による質の高いデータ タンパク質の機能や構造に関する DB との相互参照情報を重視( 60 種類もの DB を対象) タンパク質単位のカタログ 同じタンパク質情報は1つのエントリーのまとめ、異なる配列が存在する場合は注記として記述 信頼度の高い情報がコンパクトにまとまっているのでホモロジー検索では、優先して検索することが推奨される
E N D
アミノ酸配列データベース • SWISS-PROT(SIB) http://www.expasy.org/sprot/ • タンパク質一次構造情報であるアミノ酸配列DBの代表 • 専門家の手による質の高いデータ • タンパク質の機能や構造に関するDBとの相互参照情報を重視(60種類ものDBを対象) • タンパク質単位のカタログ • 同じタンパク質情報は1つのエントリーのまとめ、異なる配列が存在する場合は注記として記述 • 信頼度の高い情報がコンパクトにまとまっているのでホモロジー検索では、優先して検索することが推奨される • 関連の情報の豊富さと質を重視する場合の利用に適している ・ 翻訳後修飾情報 ・ ドメイン、部位 ・ 二次構造 ・ 四次構造 ・ 他のタンパク質との類似 ・ 配列の矛盾、多様性 ・ タンパク質内部の異常が原因である疾患
アミノ酸配列データベース • GenPept(GenBank),TrEMBL(EMBL) • 塩基配列DBの翻訳配列をアミノ酸配列DBとして提供している • 速報性と網羅性を優先 • TrEMBLは以下を分けて提供している • SP-TrEMBL(SWISS-PROTに登録される) • REM-TrEMBL(SWISS-PROTに登録されない) • PIR(日(JPID)、米(NBRF)、欧(MIPS)の共同開発) • http://pir.georgetown.edu/ • 塩基配列DBの翻訳+文献からのデータ • SWISS-PROT、GenPept、TrEMBL、PDBを統合し、重複を除いたPIR-NREFを開発 • 配列の多さを重視する場合の利用に適している • IPI(EBI)/http://www.ebi.ac.uk/IPI/ • ヒトとマウスのタンパク質カタログとして充実
タンパク質ファミリー、機能部位データベースタンパク質ファミリー、機能部位データベース • 生命現象を担う分子であるタンパク質の多様な機能を生み出す構造を決定することは、ゲノム中の未知遺伝子の探索や同定に不可欠 • タンパク質機能ドメインDB • PROSITEhttp://kr.expasy.org/prosite/ • 文献から情報を収集 • InterPro(EBI)http://www.ebi.ac.uk/interpro/ • バイオインフォマティクスの発展により出現した、アミノ酸配列のマルチプルアラインメントや予測プログラムの解析結果を蓄積した様々なDBをまとめたDB • 予測手法の違う複数のDBを一括に検索し、それぞれのDBのサイトを参照することができる • タンパク質ファミリー • InterPro、SWISS-PROT、 KEGG KO(http://www.genome.ad.jp/kegg/kegg2.html)で調べることができる
立体構造データベース • PDB(タンパク質立体構造DB) • 主としてX線構造回折のデータを蓄積 • 研究者が登録した解析データからなる • 国際協力によりデータの収集が行われている • ChimeやRasMolによる立体画像表示 • 人工的なタンパク質や複合体なども含まれ、複数の人工変異体が登録されているタンパク質もあり、冗長である • タンパク質研究のために整理されたDB • SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/) • PDBのデータを、研究者が構造を確認しながら、構造、ファミリー、スーパーファミリーごとに分類 • CATH(http://www.biochem.ucl.ac.uk/bsm/cath_new/index.html) • 複数のドメイン抽出プログラムにより自動的にタンパク質構造を階層化
立体構造データベース • NMRによる解析結果 • 主としてBMRB(http://www.bmrb.wisc.edu/)に蓄積されている • DNA、RNA立体構造DB • NDB(http://ndbserver.rutgers.edu/) • RNABase(http://www.rnabase.org/) • 計算機の高機能化により、3次元画像や高速計算が身近になっているため、モデリングやドッキングシミュレーションなどがますます盛んになることが予想される
ゲノムに対する構造アサインメント ゲノム配列データに構造/機能の注釈を付加していく段階の作業が重視 されている現在、ゲノムにコードされている全タンパク質の立体構造解析 を行うのは現実的な解決策とはいえない • 構造ゲノムプロジェクト • 実験による解析ではなく、計算機的手法により、全ゲノム配列由来のタンパク質に立体構造を提供する構造アサインメントの流れに沿って展開 • ゲノムにコードされている全タンパク質の立体構造モデル提供の効率化を図る • 立体構造既知のタンパク質と相同なものは実験対象から除外 • 構造未知のタンパク質ファミリーに実験の対象を絞り込む • 予測対象であるタンパク質の既に推定された立体構造を、構造予測の結果、あるいは立体構造既知のタンパク質との相同性検索の結果などをDB化したものの中に見出すことができるかもしれない • 全体の5~6割程度のORFについて立体構造の推定がなされている生物種ゲノムもあり、ゲノム中のORFの2~3割は膜タンパク質が占めると考えると、ゲノムにコードされている水溶性タンパク質のかなりの割合のものに対して、立体構造モデルが既に何らかの形で提供されていると考えてよいのかもしれない