基因组数据库注释及分析开发程式调研

了解基因组数据库的建立方法，开源基因组数据程式调研，基因注释方法，分析比对方法调研。

英文名字解释：

biology， bio 生物学；

gene 基因：是指控制生物性状的遗传信息，通常由DNA序列来承载。基因也可视作基本遗传单位，亦即一段具有功能性的DNA或RNA序列; Genome 基因组。

RNA：核糖核酸（缩写为RNA，即Ribonucleic Acid），存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。 RNA由核糖核苷酸经磷酸二酯键缩合而成长链状分子。

DNA: 脱氧核糖核酸（英语：deoxyribonucleic acid，缩写：DNA）又称去氧核糖核酸，是一种生物大分子，可组成遗传指令，引导生物发育与生命机能运作。主要功能是信息储存，可比喻为“蓝图”或“配方”。DNA是一种长链聚合物，组成单位称为核苷酸，而糖类与磷酸借由酯键相连，组成其长链骨架。

了解基因组数据库的建立方法，开源基因组数据程式调研，基因注释方法，分析比对方法调研。

基因组测序

Illumina： 全世界的生物学家都将加利福尼亚 Illumina 公司创造的 DNA 测序仪广泛用于基因组学应用，包括全基因组测序。该公司在 AWS 上构建其 BaseSpace 工具，以支持研究人员直接向云中上传用于分析的大量数据集并使用 Amazon Glacier 长期存储实验结果。查看Ruby SDK: https://github.com/basespace/basespace-ruby-sdk

PacBio: PacBio Sequel系统可用于高确信度地表征异构体多样性,分析人类转录组的全面复杂性，发现新的基因、异构体和基因融合事件,研究动植物的转录本多样性，以改进基因组注释和基因发掘 https://www.pacb.com/cn/applications/rna-sequencing/

参考：植物生物学基因组数据库汇总：http://www.sohu.com/a/164341318_732029

基因组注释

见：百科解释

基因组注释主要包括四个研究方向：重复序列的识别；非编码RNA的预测；基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。
注释之前首先得构建基因模型，有三种策略：同源预测(homology-based prediction), 从头注释(di novo prediction)和基于转录组预测(transcriptome-based prediction)，然后才是功能注释，蛋白功能域注释，基因本体论注释，通路注释。

处理

下图提供了注释过程的概述。基因组序列被掩盖（灰色），并且转录物（蓝色），蛋白质（绿色）和RNA-Seq读数（橙色）与基因组对齐。如果可用于注释的生物体，则策划的RefSeq基因组序列也是对齐的（粉红色）。然后进行基于转录和蛋白质比对的基因模型预测（棕色）。在RefSeq和预测模型中选择最好的模型，命名和加入（紫色）。最后，注释产品被格式化并部署到公共资源（黄色）。

一个整合植物基因组学工具和资源的网站： <http://www.plantgdb.org/>
给出了一套完整的注释流程以及每一步的输入和输出情况：<http://bioservices.usd.edu/gsap.html>

线粒体基因组分析工具： http://www.zilhua.com/1173.html

长序列注释软件：LoReAn（Long Read Annotation）软件，是一种利用短和长读取cDNA测序，蛋白质证据和从头预测的自动化注释流水pipeline，以生成准确的基因组注释。基于对两种真菌和两种植物基因组的注释，证明LoReAn通过整合从PacBio或MinION测序平台产生的单分子cDNA测序数据，并正确预测基因结构并捕获其他注释pipeline漏掉的基因，更加优于目前流行的注释工具。

完整的植物比较基因组学和数据库合集： http://www.lifeomics.com/?p=24759

常用的基因组注释软件：

常用的比对可视化工具：

http://tools.bat.infspire.org/circoletto/

线粒体圈图绘制工具：

http://ogdraw.mpimp-golm.mpg.de/

GBrowse

GBrowse是个开源的基因组浏览器；是一个图形化展示基因组数据；与Ensemble、UCSC Genome Browser、mapviewer等同属一类，但其目的是开源工具本身，注重工具的易用性，可配置性，文档等，如果你也想展示自己的数据，GBrowse是最好的选择。包括数据的制备、多种数据库的支持、灵活而强大的配置语法、可以定制的插件库、完善的文档教程等等；
wiki: http://gmod.org/wiki/Gbrowse

接触过基因组学的同学想必都知道UCSC Genome Browser，在那里可以像看书一样浏览数十种物种的基因组，包括编码序列，调控序列，ChIP-chip数据，芯片数据，EST序列，保守序列等等; 可以指定要看的位置，比如Human chrX:151,073,054-151,383,976，随意放大缩小，展开或收起数据。

但是如果你想要浏览的物种不在UCSC Genome Browser，你应该试试GBrowse！GBrowse是个开源的基因组浏览器框架，你只需要导入特定格式的数据，就可以在GBrowse的图形界面里浏览你的基因组了。GBrowse的界面到底什么样子？可以看看FlyBase或WormBase.

BioRuby

http://bioruby.org/

BioRuby提供了一套完整的免费开发工具和生物信息学和分子生物学图书馆，用于Ruby编程语言。BiouRube具有用于序列分析、通路分析、蛋白质建模和系统发育分析的组件；它支持许多广泛使用的数据格式，并提供方便地访问数据库、外部程序和公共Web服务，包括BLAST、KEGG、GenBank、MEDLINE和GO。

BioRuby附带教程、文档和交互环境，可以在shell中使用，也可以在Web浏览器中使用。

Ruby UCSC API

https://github.com/misshie/bioruby-ucsc-api/

Ruby UCSC API是一个使用Ruby编程语言访问UCSC基因组数据库的程序库。API是作为一个BioRuby插件设计的，构建在ActiveRecord 3框架上进行对象-关系映射，使得不需要编写SQL语句。当前版本API支持UCSC基因组数据库中的所有生物，包括人类、哺乳动物、脊椎动物、后口动物、昆虫、线虫和酵母。当查询基因组区域时，API使用二叉树索引（若可行）。API也支持使用本地下载的*.2bit文件进行基因组序列查询，它们没有存储在官方MySQL数据库中。API纯粹用Ruby编程语言实现，可以通过RubyGem获得。