了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。
英文名字解释:
biology, bio 生物学;
gene 基因:是指控制生物性状的遗传信息,通常由DNA序列来承载。基因也可视作基本遗传单位,亦即一段具有功能性的DNA或RNA序列; Genome 基因组。
RNA:核糖核酸(缩写为RNA,即Ribonucleic Acid),存在于生物细胞以及部分病毒、类病毒中的遗传信息载体。 RNA由核糖核苷酸经磷酸二酯键缩合而成长链状分子。
DNA: 脱氧核糖核酸(英语:deoxyribonucleic acid,缩写:DNA)又称去氧核糖核酸,是一种生物大分子,可组成遗传指令,引导生物发育与生命机能运作。主要功能是信息储存,可比喻为“蓝图”或“配方”。DNA是一种长链聚合物,组成单位称为核苷酸,而糖类与磷酸借由酯键相连,组成其长链骨架。
了解基因组数据库的建立方法,开源基因组数据程式调研,基因注释方法,分析比对方法调研。
基因组测序
Illumina: 全世界的生物学家都将加利福尼亚 Illumina 公司创造的 DNA 测序仪广泛用于基因组学应用,包括全基因组测序。该公司在 AWS 上构建其 BaseSpace 工具,以支持研究人员直接向云中上传用于分析的大量数据集并使用 Amazon Glacier 长期存储实验结果。查看Ruby SDK: https://github.com/basespace/basespace-ruby-sdk
PacBio: PacBio Sequel系统可用于高确信度地表征异构体多样性,分析人类转录组的全面复杂性,发现新的基因、异构体和基因融合事件,研究动植物的转录本多样性,以改进基因组注释和基因发掘 https://www.pacb.com/cn/applications/rna-sequencing/
参考:植物生物学基因组数据库汇总:http://www.sohu.com/a/164341318_732029
基因组注释
见: 百科解释
基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。
注释之前首先得构建基因模型,有三种策略:同源预测(homology-based prediction), 从头注释(di novo prediction)和基于转录组预测(transcriptome-based prediction),然后才是功能注释,蛋白功能域注释,基因本体论注释,通路注释。
处理
下图提供了注释过程的概述。基因组序列被掩盖(灰色),并且转录物(蓝色),蛋白质(绿色)和RNA-Seq读数(橙色)与基因组对齐。如果可用于注释的生物体,则策划的RefSeq基因组序列也是对齐的(粉红色)。然后进行基于转录和蛋白质比对的基因模型预测(棕色)。在RefSeq和预测模型中选择最好的模型,命名和加入(紫色)。最后,注释产品被格式化并部署到公共资源(黄色)。
一个整合植物基因组学工具和资源的网站: <http://www.plantgdb.org/>
给出了一套完整的注释流程以及每一步的输入和输出情况:<http://bioservices.usd.edu/gsap.html>
线粒体基因组分析工具: http://www.zilhua.com/1173.html
长序列注释软件:LoReAn(Long Read Annotation)软件,是一种利用短和长读取cDNA测序,蛋白质证据和从头预测的自动化注释流水pipeline,以生成准确的基因组注释。基于对两种真菌和两种植物基因组的注释,证明LoReAn通过整合从PacBio或MinION测序平台产生的单分子cDNA测序数据,并正确预测基因结构并捕获其他注释pipeline漏掉的基因,更加优于目前流行的注释工具。
完整的植物比较基因组学和数据库合集: http://www.lifeomics.com/?p=24759
常用的基因组注释软件:
- https://bigdata.dongguk.edu/gene_project/AGORA/#modal_login
- http://megasun.bch.umontreal.ca/cgi-bin/mfannot/mfannotInterface.pl
- http://mitos.bioinf.uni-leipzig.de/index.py
常用的比对可视化工具:
http://tools.bat.infspire.org/circoletto/
线粒体圈图绘制工具:
http://ogdraw.mpimp-golm.mpg.de/
GBrowse
GBrowse是个开源的基因组浏览器;是一个图形化展示基因组数据;与Ensemble、UCSC Genome Browser、mapviewer等同属一类,但其目的是开源工具本身,注重工具的易用性,可配置性,文档等,如果你也想展示自己的数据,GBrowse是最好的选择。包括数据的制备、多种数据库的支持、灵活而强大的配置语法、可以定制的插件库、完善的文档教程等等;
wiki: http://gmod.org/wiki/Gbrowse
接触过基因组学的同学想必都知道UCSC Genome Browser,在那里可以像看书一样浏览数十种物种的基因组,包括编码序列,调控序列,ChIP-chip数据,芯片数据,EST序列,保守序列等等; 可以指定要看的位置,比如Human chrX:151,073,054-151,383,976,随意放大缩小,展开或收起数据。
但是如果你想要浏览的物种不在UCSC Genome Browser,你应该试试GBrowse!GBrowse是个开源的基因组浏览器框架,你只需要导入特定格式的数据,就可以在GBrowse的图形界面里浏览你的基因组了。GBrowse的界面到底什么样子?可以看看FlyBase或WormBase.
BioRuby
BioRuby提供了一套完整的免费开发工具和生物信息学和分子生物学图书馆,用于Ruby编程语言。BiouRube具有用于序列分析、通路分析、蛋白质建模和系统发育分析的组件;它支持许多广泛使用的数据格式,并提供方便地访问数据库、外部程序和公共Web服务,包括BLAST、KEGG、GenBank、MEDLINE和GO。
BioRuby附带教程、文档和交互环境,可以在shell中使用,也可以在Web浏览器中使用。
Ruby UCSC API
https://github.com/misshie/bioruby-ucsc-api/
Ruby UCSC API是一个使用Ruby编程语言访问UCSC基因组数据库的程序库。API是作为一个BioRuby插件设计的,构建在ActiveRecord 3框架上进行对象-关系映射,使得不需要编写SQL语句。当前版本API支持UCSC基因组数据库中的所有生物,包括人类、哺乳动物、脊椎动物、后口动物、昆虫、线虫和酵母。当查询基因组区域时,API使用二叉树索引(若可行)。API也支持使用本地下载的*.2bit文件进行基因组序列查询,它们没有存储在官方MySQL数据库中。API纯粹用Ruby编程语言实现,可以通过RubyGem获得。
GenBank
https://www.ncbi.nlm.nih.gov/genbank/
GenBank®是NIH基因序列数据库,注释公开的所有公开的DNA序列。
Ruby on Gen 资源
一篇基于Ruby的基因组大规模数据分析统计: http://journal.embnet.org/index.php/embnetjournal/article/view/753/1113
来自Mazhaorong的邮件回复:
1. 基因组数据库就是NCBI和EBI呀
https://www.ncbi.nlm.nih.gov/genome
https://www.ebi.ac.uk/genomes/
2. 业界最流行的软件流程是啥我不清楚,不过你可以看看NCBI的:
https://www.ncbi.nlm.nih.gov/genome/annotation_euk/process/
还有就是你可以看看各种 genome paper 的 Methods 章节。
随便举个例子:比如草莓:https://www.nature.com/articles/ng.740
顺便推荐个权威生物信息学社区: https://www.biostars.org
一些结论:
Predicting correct organelle rRNA gene structures is indeed a remaining frontier, due to their enormous variability and accelerated rate of evolution
预测正确细胞器rRNA基因结构确实是一个艰巨而前沿的任务,由于它们的巨大的变异性和加速的进化速度导致未来的变化不可预期。