バイオインフォマティクス(bioinformatics)を勉強する際に役立つ書籍・ツール紹介

バイオインフォマティクスについて最近勉強し始めました。 ケムインフォに比べるとかなり日本語の書籍が充実しているのもあって、参入障壁は若干低くなっているかなと思います。 そこでこの記事では、バイオインフォについて勉強した際の書籍や覚えておいた方が良さそうなツール等について紹介していこうかと思います。 (随時更新予定です)

一覧を見たい方

書籍

バイオインフォマティクス入門

バイオインフォマティクス入門」は日本バイオインフォマティクス学会が出している公式教科書です。 この書籍はバイオインフォマティクスを学ぶ上で必要な背景の基礎固めに特化していて、実践的なこと(プログラミング等)についてはほとんど触れられていません。 内容としては、学部生レベルの生命科学や計算化学のエッセンスを触れた後に、配列解析、構造解析、遺伝・進化解析、オミクス解析と幅広い分野について展開されています。 前書きにもあるように、この本は”バイオインフォマティクス入場チケット”なので、バイオインフォを1から勉強したい方にはおすすめです。

バイオインフォマティクス: Pythonによる実践レシピ

バイオインフォマティクス: Pythonによる実践レシピ」はタイトルの通りPythonを用いたかなり実践的な内容の書籍になります。 原著者はBiopythonの開発者の1人であり、本書籍のおそらく1/3ほどは実際のpythonスクリプトが記載されています(GitHubでサンプルコードも公開されています)。 扱っているテーマも、次世代シーケンスデータ解析、ゲノミクス、集団遺伝学、進化系統樹、タンパク質データ解析とバイオインフォに関する主要なものがカバーされています。 こういうことをしたい!と思った時にこの書籍があれば、どのツールや手法を使うのが適切かということを調査するコストがかなり削減されるかと思うので、実際にバイオインフォをやりたいという人は手元に置いてあると便利かと思います。 それぞれのテーマについては、背景知識があること前提で即実践編という内容なので、背景知識がない方は上述の「バイオインフォマティクス入門」等で背景知識の勉強をすることをおすすめします。

バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究

バイオインフォマティクスデータスキル ―オープンソースツールを使ったロバストで再現性のある研究」は、主に配列データを主な題材に、”自由に大規模なデータセットを探索するために必要な計算ツールとデータスキルを教えること”を中心に書かれた書籍です。 この書籍は、単にアプリケーションやライブラリを使いこなせることを目的にしておらず、実際に研究をする上で重要な研究の質の維持やGitを用いたコードの管理、Unix、R、Pythonを用いた配列データのハンドリングについてかなり詳細にまとめられている。 特に他の書籍と違うと感じた部分は、Unixの使い方にかなり力を入れて解説されているところかと思います。 これはコマンド・シェルスクリプトの使い方だけではなく、初心者の多くがつまづくであろうファイルの管理やリモートサーバーでの作業までフォローされているのでかなり好印象でした。 (ただ最低限のUNIXの知識は持ってないとついていけない感はあります)

ツール

※ここに載せてない重要なツールはたくさんあると思います。自分が把握でき次第、随時追加していこうと思います。

Biopython

BiopythonはケムインフォにおけるRDKitのような、バイオインフォマティシャンになるためには扱えることが必須のPythonライブラリです。 バイオインフォで扱うデータの主要なファイルフォーマットの対応はもちろんのこと、上記書籍で紹介したテーマを行う上で使える機能が豊富に実装されています。

PyVCF, pysam

PyVCFpysamは配列解析をする際のファイル処理の際に用いるライブラリです。 (VCS: Variant Call Format, SAM: Sequence Alignment/Map format)

HTSeq

HTSeqは次世代シーケンサーで得られるようなハイスループットシーケンシングデータのハンドリングに用いるライブラリです。

simuPOP

simuPOPは集団遺伝学シミュレーションを行うためのライブラリです。

DendroPy

DendroPyは進化系統樹解析を行うためのライブラリです。

ブログ・ウェブサイト

biopapyrus

biopapyrusはバイオインフォ関連のことを調べる際によくヒットするサイトです。 生物統計、生物情報(バイオインフォ)、農業情報についてよくまとめられていて、用語辞典としても便利ですし、簡単なプログラムについてもよくまとめられています。

終わりに

ケムインフォと比べてバイオインフォはかなり日本語の書籍が充実していて初心者でも勉強しやすい環境が揃っているなという印象です(裏を返せばそれだけ研究者人口が多いということだとは思いますが。。)。 扱うデータサイズもかなり巨大になるので、本格的にやるとなると生命科学だけでなく計算機そのものへの理解というのも重要になってくるかと思います。 まだまだ初心者に毛が生えた程度の知識・経験量で、浅い紹介になっているところもかなり多いので、随時更新していこうかと思います。

それでは。