ヒトミトコンドリアゲノムの解析
E:\Bioinfo\HumanMTのingori.al、xxx2.bat、disttbfast2.exe、 dndpre.exe、dvtditr.exe、tbfast2.exe、dloop.bat、analyze.bat、 calc.xlsの合計9つのファイルをCDからマイドキュメント(Zドライブ)に移動する。方法はエクスプローラーで、CD上のBioinfoフォルダ内のHumanMTのフォルダを開く(ダブルクリック)。その中のCopy1.batをダブルクリックする。
黒地に白文字の画面が現れ、何かキーを押してくださいと表示されるので、enterキーをクリックする。これでコピーは完了です。
bioeditを用いて、ingori.alを開き、配列がきれいに並んでいないことを確認する。方法は、マイドキュメントフォルダ内のbioeditフォルダ内のbioedit.exeをダブルクリックし、メニューのfile->open、必要ならファイルの場所をマイドキュメントに変更し、ingori.alを選択。(必要なら、ファイルの表示できる種類を変更し、”All Files”を選択。そうするとその画面上にingori.alというファイルが出てくるのでダブルクリック。)
bioeditのメインの画面に塩基配列が表示される。これは”ミトコンドリアゲノムの多様性と現代人の起源(和題)“Nature 408 708-(2000)において、使われたデータである。
画面左側に各塩基配列の由来が書かれている。
>Aust オーストラリア先住民
>Bamileke アフリカ
>Biaka アフリカ 中央アフリカ
>Buriat ロシア、シベリア、バイカル湖
>Chukchi ロシア、極東、チュクチ
>Effik アフリカ、ナイジェリア
>Evenki ロシア、シベリア、中央シベリア高原
>Ewondo アフリカ、カメルーン
>Georgian グルジア
>Guarani アメリカ先住民、バラグアイ
>Hausa アフリカ、ナイジェリア
>Ibo アフリカ、ナイジェリア
>Khirgiz キルギス
>Kikuyu アフリカ、ケニア
>Lisongo アフリカ、中央アフリカ
>Mandenka アフリカ、セネガル
>Mbenzele アフリカ、中央アフリカ
>Mbuti アフリカ、中央アフリカ
>Mkamba アフリカ
>Piman アメリカ先住民、アリゾナ
>PNGCoast パプアニューギニア
>PNGHigh パプアニューギニア
>Saami ラップランド
>Samoa 南太平洋、サモア
>San アフリカ、カラハリ砂漠
>SibInuit ロシア、シベリア、イヌイット
>Tatar クリミア、トルコ系
>Uzbek ウズベキスタン
>Warao アメリカ先住民、ベネズエラ
>Yoruba アフリカ、ナイジェリア
B. 配列の整列(アライメント)を行う
同じヒトの配列でも、おのおの異なっていることを実感してみよう。塩基の挿入や欠失により同じヒトのミトコンドリアでもずれが生じるのでそれを整列する。このようなことをアライメントと呼ぶ
mafftによりアライメントを行う。方法は、マイドキュメント(Zドライブ)上で、xxx2.batをダブルクリック。画面が現れて、進行状況を表示します。画面が自動的に消えれば終了。
自動的に消えるまで待つこと
。
preという名前のファイルに結果が書き込まれるのでbioeditで確認する。方法は、先に行った方法と同様にpreというファイルを開く。
配列間の相違部分だけを強調する。方法:下図の白黒の縞のボタンをクリック。
まずは画面上で、どれぐらい各配列に違いがあるが眺めてみる。次に、ミトコンドリアゲノムのどこが変化しているか見てみる。まずはマイドキュメントのdloop.batをダブルクリックする。そうするとdloopというファイルができるのでそれをワードかワードパットで開く。1行目と2行目の数字がアライメント上でのdloop領域の始まりを終わりを示している。dloopの部分に変異が多いことを確認する。
C. 系統樹をかいてみよう。ここではMEGAというソフトを使用する。
次に系統樹を描くソフトをコピー。CDROM上のBioinfo\HumanMTにあるMEGA2フォルダをマイドキュメント(Zドライブ)にコピーする。方法は、CDROM上のBioinfo\HumanMTにある、Copy2.batをダブルクリック。
マイドキュメント(Zドライブ)のMEGA2フォルダの中にあるMega2.exeをダブルクリックする。以下の画面が現れる。
メニュのFile->Convert to Mega formatを選択。以下の画面が出てくるので、フォルダの絵をクリックし、マイドキュメント(Zドライブ)のファイルpreを選択。次に、Data formatの右のメニューからfastaを選択。
最後に画面中央下のOKを選択。
小さな画面が出てくるが、OKを選択。
Text File editorという画面に(左下にしまわれている場合があるので注意すること)、pre.megが表示される。ファイルがまだ保存されてないので、file->Saveを選択する(下図)。
注意 このアプリケーションのSaveは、ファイルにデータを付け足していくため、2回以上Saveをすると次のステップでエラーが生じる。その場合は、pre.megをいったん削除してから、5から繰り返す。
この画面はそのままで、もとのMolecular…とかかれたファイルに戻る。
そこから、File->Open Dataを選択(下図)。ファイルの選択画面に来るので、マイドキュメントに新しく作られた、pre.megを選択する。小さな画面が出てくるのでOKを選択する。さらに、また画面が出てくるのでYesを選択する。また画面が出てくるのでOKを選択する。
メニューからData->Setup/Select Genes/Domains をクリックする。新しい画面が出てくる。
その画面のFromの下の1をクリックし(上図)、そうすると1の横に…というボタンが現れるのでそれをクリックする。
下図の小さな画面が出てくるのでそこの1と書いてある部分にDloopの領域の5‘側の値(592)をタイプする。そしてOKをクリックする。
そうすると画面が消える。
次に16の画面に戻って、1の右でToの下の16589(
16の画面
)の横に…というボタンがあるのでそれをクリックし、小さな画面が出てくるのでそこにDloopの領域の内側の値をタイプする。そこにも同様にDloopの領域の3‘側の値(16043)をタイプする。そしてOKをクリックする。
最後にGenes/Domains画面のIndependentsの横をクリックしてチェックをはずす。そして、画面下のCloseをクリックする。
系統樹を描く、メニューのPhylogenyをクリックする。そしてNeighbor joiningをクリックする。そうすると小さな画面が出てくるので再び、OKをクリックする。そうすると系統樹の画面(Tree Explorer)が現れる。
系統樹をプリントアウトする。Tree Explolerという画面のメニュのFile->Printを選択し、OKを選択する。
系統上の各配列がそれぞれどこの大陸由来、各配列の上に示した地域情報から考えてみよう。そこから人類がどこからどのようにして、世界中に広まったかを考えることができる。
分岐の年代をしらべてみよう。
Tree Explorerの画面で、メニューのCompute->linearized treeを選択すると、下にゲージが現れる。
メニューからView->optionを選択すると、小さな画面が現れる。そこでScale barを選択し、Minor tickの値の5の部分を1に変える
そうするとしたのゲージが0.0001刻みになる。
よって、系統樹の一番古い部分と現在との差が数字となって現れる。
ヒトのミトコンドリアDNAは、1年間に1塩基あたり0.000000017の確率で突然変異が起こるという報告がある。枝の長さは1塩基辺りの置換数になっているので、例えばゲージが0.002なら0.002/0.000000017とすれば、その分岐年代を求めることができる
D. 塩基の変異が多いDNA領域をしらべる。
アライメント上でどの部分に塩基置換が起ったかを調べる。方法:マイドキュメントのanalyze.batをダブルクリックすると、自動的に計算を行う。
結果は、マイドキュメント内のvariation.xlsへに書き込まれる。
このファイルをダブルクリックし、エクセルで開くと以下の画面が現れる。
CDS、COMPCDSはタンパク質をコードする領域を示しているので、コドンの1番目、2番目、3番目ごとに変異があるサイトを示してある。
variation.xlsの列C、列E、列I、列K、列M の各データをコピーペーストを用いて、calc.xlsに貼り付ける。variation.xlsの列C、列Eについては1行目から39行目まで、列I、列K、列Mについては27行目から39行目までを、おのおの、calc.xlsの列E、列Fの2行目から40行目まで、列J、列L、列Nの28行目から40行目までに、貼り付ける。方法は、variation.xlsの列Cの1行目にマウスを移動し、左ボタンを押しながらマウスを列Cの39行目に移動する。そこでマウスのボタンを離して、メニューの編集からコピーを選択する。次に、calc.xlsの列Eの2行目をクリックし、メニューの編集から貼り付けを選択する。そうするとデータのコピーを作ることができる。これを順次行う。
データがコピーできれば、自動的に計算が行われ、黄色の部分に書く領域のサイトあたりの変異の割合が計算される。
Dloop、トランスファーRNA, リボゾームRNA, タンパク質の1st、2nd、3rdについて、変異の割合を比較する。値が大きい領域ほど変化しやすいと考えられるが、どの領域が変化しやすいか。それはなぜか。