320 likes | 454 Views
学生実習. 配列決定から構造へ. 現在、ゲノムを中心とした塩基配列決定法は急速な発展をし、短時間で膨大な配列を読むことが可能となり、ゲノム等の配列決定が容易になってきている。 塩基配列が決定されると、遺伝子の予測が可能となり、タンパク質のアミノ酸配列が予測可能となる。アミノ酸配列を用いてタンパク質の機能予測が可能となり、最終的にはタンパク質の立体構造をも推定することが可能となる。. 今回の実習では、塩基配列の決定から、遺伝子予測、タンパク質の機能予測、立体構造予測までの解析の流れを例題等を用いて計算機実習をする。. 1 . 現在の配列解析の流れと実習の流れ. ゲノム.
E N D
学生実習 配列決定から構造へ 現在、ゲノムを中心とした塩基配列決定法は急速な発展をし、短時間で膨大な配列を読むことが可能となり、ゲノム等の配列決定が容易になってきている。 塩基配列が決定されると、遺伝子の予測が可能となり、タンパク質のアミノ酸配列が予測可能となる。アミノ酸配列を用いてタンパク質の機能予測が可能となり、最終的にはタンパク質の立体構造をも推定することが可能となる。 今回の実習では、塩基配列の決定から、遺伝子予測、タンパク質の機能予測、立体構造予測までの解析の流れを例題等を用いて計算機実習をする。
1. 現在の配列解析の流れと実習の流れ ゲノム 実習の内容 配列決定法 0. 文献検索の紹介と実習 塩基配列 1. 配列決定法の紹介 遺伝子推定法 遺伝子の推定 2.遺伝子推定法の紹介 類似性推定法 3.機能予測 4. ホモロジー検索 5. 機能ドメインの検索 の紹介と演習 遺伝子・タンパク質の機能推定 立体構解析法 タンパク質の立体構造 6. 立体構造解析の紹介と実習 ネットワーク解析法 ゲノムの機能 6. ネットワーク解析
0. 文献検索の紹介と実習 PubMed検索 米国国立医学図書館: National Library of Medicine (NLM) にある NCBI が開発・提供する文献データベース検索システム – 利用費用:無料! – 収載範囲:1946年以降の医学論文+電子ブック さらに古い文献(1880-1961年)もIndexCatにある。 http://indexcat.nlm.nih.gov/ – 収録件数:約2,100万件(毎日2,000-4,000件追加) – 収載雑誌:現行約5,600誌(61言語-英語91%) 日本発行168誌(Keio J Medicineほか);日本語73誌 – 索引語:Medical Subject Headings (MeSH)
PubMedの文献登録数は? http://www.ncbi.nlm.nih.gov/ NCBI のトップで all [filter] を検索してみよう。(大文字小文字問わず、スペースもなくてもいい) 横断検索を利用したので、塩基配列等、NCBIの全データベースの登録数も表示される。 現在、PubMed には2,200万報近い文献が登録されている。 そのうち約1/10は PubMed Central で全文が無料提供されている。 その他、学内からアクセスする限りは、九大が購読している雑誌も全文を読める。 [] はフィールドタグ。ここでは “all” をフィルターとして指定した。
PubMedへのアクセス http://www.ncbi.nlm.nih.gov/entrez/ NCBI のトップの“Popular Resources” にあるリンクからも入れる。 または「pubmed」をgoogle検索。 URL 直打ちならpubmed.govから入ると簡単。 何も考えず NCBI のトップの検索窓をそのまま使っても PubMed に繋がっている。
検索方法 検索窓にキーワードを入力する。 キーワードは医学用語、著者名、雑誌名等何でも。 例: 「tumor」「virus」「genome」「human」「Escherichia coli」「Nature」「Kuhara S」 ・検索語の大文字小文字は区別されない AIDS=aids, Kuhara=kuhara ・記号は基本的に省略 ‘!?%$ など。ハイフンはスペースに。 ・ギリシャ文字は読みで α→alpha, β→beta, γ→gamma ・ローマ数字はiやvに Ⅲ→iii, Ⅶ→vii, Ⅸ→ix 簡単に検索してみるには、キーワードをいくつでもスペース区切りで並べるだけでよい。 (おまかせ検索) 例: kuhara microarray 2008 kyushu university
「Kuhara S」を検索してみよう 新しい順に列挙される。 九大農学部の久原哲教授だけでなく、 他のKuhara S さんも挙がる。 実際に検索された語はこれ。 自動マッピング機能により 著者名として検索された。
書誌事項 タイトル 著者 無料公開の印 誌名、発行日、巻号ページ 関連論文 free articles が PMC にある場合は ここにリストされる。 登録状況 in process や as supplied by publisher だと 登録されたてでデータ整備中かも? IDからでも検索できる
抄録 PNAS と PMC に全文がある。 「LinQ」は表示されていますか? 検索結果の10番目 太平洋クロマグロの全ゲノムシーケンシング Abstract (要旨) 有料の文献でも要旨だけは読める 関連論文や、論文中で引用された 参考文献もリストアップされる。 共同研究なので著者が多い! 年代によっては数人以上は et al. (その他)になってしまう。
九大版PubMed 図書館HPのトップからPubMedを選ぶか、 「PubMed LinQ」等の語でgoogle検索するとここに来る。 「PubMed(九大版)」のリンクから九大版 PubMed へ。 図書館を経由せず直接飛ぶには、 http://www.ncbi.nlm.nih.gov/pubmed?otool=ijpkullib
雑誌リンク PubMed Central (常にフリー) エルゼビア ワイリー スプリンガー オックスフォードジャーナル 大手出版社 それぞれ多数の雑誌を出版。 フリーの表示がなくても九大がまとめて 購読している可能性が高い。 中小でも雑誌単位で購読があるかも。 九大版 PubMed と通常版の違い きゅうとりんきゅー:九大図書館のリンクサービス。 出版社を意識せず閲覧可能な電子ジャーナルに飛べる。 電子化されていない、購読していない、等で読めない場合でも、 図書館や全国他大学での所蔵確認や、有料の文献複写依頼ができる。 一度九大版を使えばブラウザに情報が記録され、 しばらくは通常版からの検索でもLinQアイコンがつく。
LinQの利用 検索結果の10番目 太平洋クロマグロの全ゲノムシーケンシング 「LinQ」のアイコンをクリック
このリンクが消えない場合は additional resources へ。 ここから全文のPDFやHTMLに アクセスできる。 オンライン版がなければ、ここから 他大学の蔵書検索や複写依頼(有料)に。
フィールドタグ ・著者名からの検索 姓と名のイニシャルを入力する。大文字小文字は区別せず。例) Kuhara S たいてい自動認識されるが、明示的には [au] タグを付ける。例) kawasaki[au] カワサキさんを検索したくても、タグ無しでは川崎病等も引っかかる。 ・タイトルからの検索 キーワードを入力する。明示的には [ti] を付ける。例) tuna[ti] tuna(マグロ)の論文を検索したくても、人名の Tuna さんも引っかかる。 ・雑誌名からの検索 誌名、略誌名、ISSN(国際標準逐次刊行物番号)のいずれかを入力する。 例) The Journal of Biological Chemistry (正確に入力) J BiolChem (略誌名も登録されている通りに) 0028-4973 (ハイフン区切りのISSN) 明示的には [ta] または [journal] をつける。例) Nature[ta] 特に1語の誌名はそのままでは普通名詞として全体から検索されてしまう。 他にもさまざまなフィールドタグがある。
著者名の序列(authorship) 著者が多数いる場合、順序には意味がある。 First author: 筆頭著者。普通は論文を書いた本人。最も重要。 Second, Third, 4th, ... : 概ね頑張った順だけどあまり意識されない? Second-to-last auther: 最後から2番目。准教授や共同研究先のボス等。 Last author: 最終著者。ボス。誰の研究なのか分かるので重要。 その他、Corresponding author もいる。学生ではなくずっと連絡がつく人。 フィールドタグには [first author] と [last author]が用意されている。 こちらはジョーク
フィールドタグの例 主なフィールドは検索窓の下の “Advanced” からも指定可能。
掛け合わせ 掛け合わせたいキーワードを検索窓に並べる。 human genome human AND genome “human genome” 該当数の変化は? フレーズとして検索したい場合は””でくくる。 「かつ」「または」「除く」のような検索には論理演算子を用いる。演算子は大文字。 スペース区切りでは、”human genome” OR (human AND genome) のように広く検索される。 実際に使われたワードは検索画面右の Search details にある。(自動マッピング機能) [MeSH Terms] については後述。
Advanced search 検索窓の下にある できた検索式 検索履歴を後から組み合わせて再検索できる。 フィールドを指定できる。 検索履歴
MeSH (Medical Subject Headings) 例: 癌の論文を探したい 癌を表す単語はいくつかあって、論文ごとに表記がバラバラ。 cancer(癌) だけでなく tumor(腫瘍), neoplasm(新生物) 等も検索したい。 ↓ 癌全体を表す見出し用語 Neoplasms[MeSH] で検索すればよい。 MeSH term を知っていれば検索範囲を正確に指定できるが、 知らなくても自動マッピング機能が働きMeSH term も検索されるようになっている。 PubMed(MEDLINE) にはMeSHと呼ばれるシソーラス(類語辞書)があり、 各論文には類語に共通する見出し用語MeSH term が付与されている。
ストップワード、前方一致 ・ストップワード a, and, by, for, if, no, of, on, the, to, with など約100語はストップワードと見なされ、検索語として入力しても無視される。 ただし、掛け合わせのための AND/OR/NOT は生かされる(そのためにも大文字で)。 quality of life のようなフレーズも生かされる。 ・前方一致 検索語の後ろに*(アスタリスク)をつけると語尾に変化があっても検索される。 例) bacter* → bacteria, bacterium, bacteroides, bacteriophage, ... 語尾変化が600種類以上ある場合、警告のうえで600種類までが検索される。 なお、前方一致を使うと自動マッピングは行われない。
MeSHの応用 例: 「口腔に転移した肺癌」についての検索 口腔癌・肺癌・転移を AND 検索した中にも目的のものは含まれるが、今ひとつ。 肺に転移した口腔癌や、肺と口腔に重複した癌等も含まれてしまう。 右の図は mouth neoplasms の副標目「secondary(二次性)」まで指定した検索。 “Mouth Neoplasms/secondary”[MeSH] AND lung neoplasms MeSHの副標目や下位概念を使うことできめ細かな検索が可能
MeSHデータベース 例: 胃癌を表すMeSH term とその副標目を知りたい。 データベースとしてMeSHを指定し、 適当に思いついた単語で検索。 これだろう
MeSHデータベース 副標目のリストがでてくる
MeSHデータベース 類語のリスト 「胃癌」の様々な表現
MeSHデータベース Stomach Neoplasms という概念はどう分類されているか。 検索に用いた語だけでなく下位概念も使用される。 上位概念にある語を検索しても Stomach Neoplasms が含まれる
MeSHデータベース 文献検索に使うには副標目を選択して Add to search builder ボタンを押す。 search builder 窓に検索式が生成される。 Search PubMed ボタンを押せば、 それを使って文献検索開始。
ジャーナルデータベース PubMed トップの More Resources / Jounals in NCBN Database から入る。
ジャーナルデータベース Science 誌を検索してみよう。 候補がいくつもでてくるので、 Science (New York, N.Y.) を選ぶ。 ただの Science ではヒット多数。 正確に打たねばならないため、 候補から選ぶのが無難。
出版社や出版形態等、 いろいろな情報がでてくる 電子ジャーナルへのリンク 検索した1報だけではなく、 最新号等、雑誌単位でまとめて読める。
おまけ: Google scholar http://scholar.google.co.jp/ Google のサービスなので、使い方は通常のweb search とほぼ同じ。 ライフサイエンスに限らず、あらゆる分野で収集されている。 例えばShakespeare のHamlet や Macbeth もある。
おまけ: Google scholar human genome で検索すると 電子ジャーナルのリンク ヒトゲノム解読の論文 (セレラ社, Science 2001) アイコンはないがLinQ 同時期の Human Genome Project 側の論文(HGP, Nature 2001) ヒトゲノム解読が発表された最初の論文が上位にくる。 ある意味便利だが、時系列ではなく Google 独自のスコアで並ぶのが分かりにくい。
課題 • PNAS (Proceedings of the National Academy of Sciences of the United States of America) の最新号の目次をプリントせよ。目次の1枚目だけでよい。 • Green という姓だが名はわからない著者がLast author の論文で、 2007年発行の Nature 誌に載ったものを検索せよ。 検索式と検索ヒット数、書誌事項を報告(プリントアウト)せよ。 • 白色脂肪細胞の生理機能について述べられている論文は 何報あるか? MeSH database の副標目を用いて検索せよ。 用いたMeSH term も報告せよ。 • 自分の姓名(イニシャル)で同名著者の論文を検索せよ。 Abstract を1ページあたり5件表示する設定にして、 その画面をプリントせよ。(ヒットがなければKuhara S) 50件目までのうち好きな1報を選んで Abstract を和訳せよ。 (元の文も添付)