之初信息学学者生物(生物序列信息学引物软件)「生物信息学之父是谁?」

1、初学者part1说起生物信息学,好多未踏入此行的感觉好难,经常会问:有没有入门的资料呀,怎么学习生物信息学呀,我又没有计算机基础......记着读11年读本科的时候,上了一门生物前沿课程,初步结识了生物信息学这一领域,但当时对其中的一些概念,一片迷糊。
印象最深刻的就是那个Read的了。
什么意思呀,读书?阅读?查了查词典,没其他意思呀,但就是搞不明白。
无奈糊里糊涂度过了本科,以致于对那个时候正在火热的二代测序了解甚少。
虽然二代了解的少,但对于一代,小编我当年还是可以的。
现在谈生物信息学,好多人直接就定义为高通量测序了,实际上生物信息学的根还是在一代Sanger测序分析上,所以学学习生物信息学,一代相关知识是必须要了解的。
记着当年我大一下学期的时候进入了一个重点实验室学习做实验,算是我的生物信息学入门之处吧。
在那里跟着学长学姐们学习提取DNA、RNA、质粒,然后PCR,跑胶等等的,学了好多实验东西(以致于小编在大四的时候写了一本新手入门的实验操作手册,不少内容小编前面已经发过,嘻嘻),同时也接触到了第一个生物信息学软件--引物设计软件primer premier 5.0。
实际上这个软件就涉及到了好多生物信息学知识,其中比较主要的就是比对的思想了。
一条引物能够结合到模板的什么位置,主要就是通过比对实现的。
哪个地方跟我这个引物最像,我这个引物就可能结合到这个地方。
但同时我们又了解到我们设计的引物虽然跟这个地方很像,但又有一定的错配率和空缺率,这实际上就是比对算法中的错配(比对算法中常引入identity这个定义来衡量序列的相似性)和gap(gap意思就是匹配的区域模板多了个碱基,然后咱的引物序列在对应位置形成一个空位,称为gap;反之亦成立,只不过gap是位于模板上了)。
说了这么多比对方面的东西,那个时候可能我根本没想这么多,一心可能只想通过反复的点点点,找个最佳的引物。
引物设计对于做实验的小伙伴们一般都非常熟悉。
但其上游的东西,比如我的模板怎么来的,好多小伙伴可能就不熟了。
因为获取模板序列这一部分是比较重要的,我们的老师们给咱提前弄出来了,我们实际过程中可能就不需要做此步了。
但那个时候的我为了把我的的宏伟著作(哈哈)丰富了,我不断查阅文献,基本了解到了序列是怎么来的--NCBI。
NCBI是啥东东,查了查资料,真有不少介绍(小编之前有推送,请输入NCBI查看),其中我需要了解的就是从NCBI如何下载已知序列。
查到了一篇别人写的方法(http://wenku.baidu.com/view/87d1dded551810a6f52486e2.html),比较详细,照着做终于会下序列了,那个时候感觉很兴奋。
下载的序列后缀名是.fasta格式,对于没有接触生物信息学的我首先就查了查用什么软件打开这种格式的文件。
软件很多,但实际上.fasta后缀名并不是我们普通认为的像.doc .xls,.mp4这样后缀名需要专业的不同的办公软件打开,他其实是一种文本文件,简单说就是.txt文件。
包括还有的一些常用的生物信息学格式文件如fastq、gff3、sam,bed文件都是文本文件,可以用常用的办公软件打开,标注不同的后缀名主要是基于里面内容格式的不同,文件的文本属性没变。
像fasta以>开头,fastq为四行一个单位,主要是二代测序原始数据的格式。
扯了这么多序列下载完,然后接着要做多序列比对找同源区域设计引物。
多序列比对见老师用clustalw,看相关文献MUSCLE也挺好,于是我就下MEGA软件(里面内置了MUSCLE),准备比对。
这里就涉及多序列比对和两序列比对了。
多序列比对是找所有序列的最大交集,引申到生物学上就是找所有序列都保守的部分,这段序列在所有序列中可能是固定不变得,因而在无参考基因组条件下用此段序列当做模板设计引物效果会较好。
两序列比对就是找两个序列最相似的部分,不能保证所有基因都有这段相似的部分。
设计好引物就开始P吧。
P出来就要送去Sanger测序了。
Sanger测序可谓黄金测序(消息框输入”一代“即可以查看一代测序相关资料,这些资料中出现的问题,小伙你可懂?懂了,二代测序中问题也是一样的),其测序读长也就一千来个碱基,所以基因长的就需要测两端然后拼接才能形成咱最终的想要的序列了。
拼接的原理是什么,那就是overlap了(通俗说就是借助相同的序列把两端序列连在一起)。
二代测序也就测个100多bp,相比一代短的要命,一个读长所读的序列就是前面所说的read了。
为啥测得这么短,主要还是酶不给力。
虽然短,但是二代测序普遍是高通量的(测个几十、几百个G bp很正常)就能够弥补短带来的缺点。
当然现在三代读长十几个Kb,比一代还长,但引入错误也相对较对,需要增加数据量利用多序列比对来纠正错误,也还是可以的。
拼完序列就要注释一下,简单方法就是NCBI在线blast(消息框输入blast获取用法)。
blast原理要大体明白,其目的就是找相似的部分,判断我的序列与人家的已发表的序列相似性,具体原理生物信息学书都有介绍。
总之小编此篇主要意思是首先把一代每个环节搞清楚,相关的window软件会操作,理解一些其中的参数及输出结果,然后再搞二代就轻松了。
后面小编再介绍生物信息学之初学者-升级版。
2、初学者part2回顾上一次主体还是讲了比对的一些基本原理在一代测序中的应用,这是整个生物信息学最基础的部分,这次小编我先不讲二代,因为二代就是昨天发的Linux 命令敲代码,可能好多人一下子接受不了。
小编这次主要讲生物信息领域中的网络资源。
生物信息分析也可以称为大数据分析,而提大数据那就可以进一步延伸到数据库了,不断地数据积累做成了数据库,其中大家比较熟悉的就是NCBI了。
那么了解这些数据库的用法,挖取对自己有用的数据那便成了关键。
因此对于生物信息学初学者首先要认识的就是我要了解有哪些数据库,知道如何去用。
罗静初老师那次来讲课介绍了他们北大的一个网站abc bioinformatic(http://abc.cbi.pku.edu.cn/),介绍了好多我们初学者需要了解的网站。
对于生物信息学我们初学者应该就像这网站名,要从abc一点一滴开始去学习。
废话不多说,小编在此列出几个重要的网站,希望大家能够去了解:jNCBI:工具集+数据集网址:https://www.ncbi.nlm.nih.gov/kEBI:工具集+数据集网址:http://www.ebi.ac.uk/serviceslExPASy:工具集网址:http://www.expasy.org/mOmics Tools:工具集网址:https://omictools.com/nCBS :工具集网址:http://www.cbs.dtu.dk/services/oCABRI:工具集网址:http://www.cabri.org/pSMA:工具集网址:http://www.bioinformatics.org/sms2/index.htmlqEnsemble:工具集+数据集网址:http://asia.ensembl.org/index.htmlrSoftberry:工具集网址:http://linux1.softberry.com/berry.phtml 每个网站有各自的特点,资源含金量都相当高。
对于我们初学者来说当我们遇到问题首先知道有这些资源我们可以去查,并且更重要的还要熟悉这些网站的用法。
纳闷如何来熟悉网站用法?或者说如何使用在线工具(避开敲Linux代码)?这对于我们入门至关重要。

小编认为学会使用一个东西必须要动手,不能只看,而是带着问题去解决,去学习。

比如说,一篇做基因家族分析的文章,首先他说从NCBI找到了300已知的MAPKKK基因家族成员,把他下载下来了。
简单的一句话但这里面需要我们学习的很多,假设我们要模仿他做,那么我们就想这些已知的是如何在NCBI 中下到的,我们就去查,查到可以在nucleotide数据库中下到我们就输入MAPKKK结果出来了一大堆,联想是做植物的我们就只过滤植物的,加一步过滤选项,结果就OK 了,在这个过程中我们学会了如何使用NCBI 的nucleotide数据库,而不是漫无目的的看这个数据库的用法,总之一点我们要按需来学习,多去实战,在实战中学习,我们会进步很快。
再有就是我们要做结构域预测,文献中说是这两个网站(CDD:https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi和Pfam: http://pfam.xfam.org/),那么我们就挑个序列上去戳弄戳弄,用不了多少时间我们就搞明白了用法,理解了结果,这样一来我们后面批量操作本地版本的结构域预测软件就容易了,知道如何输入输出,如何设置参数。
最后就是好多初学者不知道用什么工具分析,或者就是相同的工具有好多个不知道选用哪个,这个就要根据你的研究目的来选,因为每个工具都有他侧重的一面,建议大家看最新发的工具,往往他会有跟前面工具的对比,顺便提到各工具的适用性。
3、初学者part3本期小编主要介绍一些入门书籍,并有电子版可供下载。

基因组学相关的书籍:j基因组学概论这本书比较全面系统的介绍了 DNA、蛋白质序列和结构、基因组、蛋白质组、转录组和系统生物学内容,也分别对原核生物、真核生物、人类基因组结构和特性进行了介绍和比较,并将基因组变化和进化联系起来。
下载地址:https://pan.baidu.com/share/link?uk=1208225235&shareid=404590447生物信息分析相关的书籍: Liunx操作系统:生物信息分析大多数软件都是在Liunux系统下运行,因此必须学会Linux操作系统。
k鸟哥的Linux私房菜《鸟哥的Linux私房菜》第3版是最具知名度的Linux入门书,该书全面而详细地介绍了Linux操作系统,生物信息入门优先可以看第三部分,该部分主要介绍 Shell Script以及文字编辑器Vim,当然如果想进阶的话可以学习其它几部分。
下载地址:FTP地址:ftp://ftp1.linuxidc.com用户名:ftp1.linuxidc.com密码:www.linuxidc.com在 2016年LinuxIDC.com\2月\鸟哥的Linux私房菜-基础学习篇(第四版)高清完整书签PDF版\计算机语言: 目前比较盛行python,但perl仍然也经常用,一些生物信息学软件也都是用perl写得。
小编因此推荐以下两本:lLearn Python The Hard Way此书翻译过来是笨方法学python,不用说绝对是入门好教材。
下载地址:http://vdisk.weibo.com/s/FNWd70pFyC8SmPerl 语言入门《Perl 语言入门》第六版,也就是大家所称道的“小骆驼书”。
学完这本书基本可以满足生物信息的分析的需求,如果还需要进阶,推荐阅读俗称“大骆驼书“的《Perl高级教程》。
下载地址:FTP地址:ftp://ftp1.linuxidc.com用户名:ftp1.linuxidc.com密码:www.linuxidc.com在 2014年LinuxIDC.com\8月\Perl语言入门 第六版中文清晰PDF生物信息常常需要大量的数学统计分析,且大部分结果需要已图形的方式展示,这就需要有一定的统计能力和画图能力,目前用的最广且开源的语言就是R语言。
nR语言编程艺术《R语言编程艺术》,该书从最基本的数据类型和数据结构开始,到递归和匿名函数等高级主题,由浅入深,讲解细腻,读者完全不需要统计学的知识,甚至不需要编程基础。
下载地址:FTP地址:ftp://ftp1.linuxidc.com用户名:ftp1.linuxidc.com密码:www.linuxidc.com在 2016年LinuxIDC.com\4月\R语言编程艺术 中文完整清晰书签版PDF\各种生物数据分析软件:o常用生物数据库分析软件《常用生物数据库分析软件》作为生物信息学经典图书,本书罗列了一些常用的生物数据分析软件,从安装到运行都有具体说明,非常适合入门级使用。
下载地址:http://wenku.baidu.com/link?url=6orr9Fdqfgkk14KB3__yd93-1x5LaqRC3_hl7etM91EhtUmc1yJVCDzI_bDXP2laAk-ijdyEJGYLXLSZyKeaQOK7GTu8gV3_sxOTV_G-8Wy总之,上面的书籍都是入门的工具书,可以边用边学,会有助于你迅速入门。
同时大家也应该积极阅读一些文献,尤其是一些protocol,这样能够及时掌握目前流行的分析内容及好的工具。
4、初学者part4其实妨碍大家进行生物信息学学习的一个比较关键的地方就是编程了。
生物信息学是大数据科学,这就要求必须具备一定的编程思想,会采用计算机程序从庞大数据中挖掘有效信息。
这就要求我们会基础编程,并且更重要的需要我们精通的是会安装和使用生物信息学软件。
首先计算机编程这一块有时候也是比较重要,毕竟不能手工进行处理庞大的数据吧。
其实编程这一块主要是为了结果过滤,毕竟软件出来的往往并不能满足自己想要的结果,这就需要对软件出来数据进一步深挖过滤,拿到真正对自己有用的数据。
编程这一块有人推荐学perl,有人推荐Python,无所谓了,关键看你周围的人用什么编程,方便在遇到问题时能够及时的解决。
如果你对perl感兴趣,我们前天发过Linux与perl的推送,相信这将是非常有用的资料,快速掌握Linux与perl。
编程虽重要,但小编认为对于初学者软件使用更重要。
大家都是生物狗,软件一些参数用法结合一下生物学意义相对来说容易理解,但是可能对大家比较困难的是软件用之前的工作--软件安装。
由于不同的软件需要的依赖(包括种类和版本)不同或者使用的是公用计算机集群你根本无权限安装,导致软件安装不成功。
稀奇古怪的报错信息,对于生物狗们真好似一头雾水。

好不容易有个好软件但是不能用。

所以大家需要掌握一些软件安装的技巧与方法。
本处主要讲你没有权限安装方法,即安装到自己目录下面方法:jperl模块安装我们运行一些Perl程序时经常出现找不到某个module。
对于这种报错,缺哪一个就下载哪一个或者看看软件包有没有此模块直接给路径添加即可。
首先下载所需要的模块,像本处为Keith module,这样我们谷歌或者CPAN(http://search.cpan.org/)上下载Keith.pm即可。
运行命令:perl Bin/trf_wrapper.pl报错信息:Can't locate Keith.pm in @INC (you may need to install the Keith module) (@INC contains: /share/nas2/genome/biosoft/perl/current/lib//5.20.0/x86_64-linux-thread-multi /share/nas2/genome/biosoft/perl/current/lib//5.20.0 /share/nas2/genome/biosoft/perl/current/lib/)at Bin/trf_wrapper.pl line 13.BEGIN failed--compilation aborted at Bin/trf_wrapper.pl line 13.解决方案:只需要在trf_wrapper.pl中调用的Keith模块(use Keith;)之前加入下面红色部分即可,其中PATH为模块Keith.pm所在的目录。
BEGIN{push (@INC,\"PATH/\");}use Keith;kR包安装我们运行一些R语言程序时经常出现找不到某个package。
对于这种报错,缺哪一个就下载哪一个。
首先下载所需要的package,像本处为ggplot2,这样我们谷歌或者bioconductor (http://www.bioconductor.org/) 或者CRAN (https://cran.r-project.org/) 上下载ggplot2即可。
运行命令:Rscript heatmapV2.R报错信息:Error in library(ggplot2) : there is no package called 'ggplot2'解决方案:下载到ggplot2_2.2.1.tar.gz,然后用下面命令(针对无管理员权限,安装自己目录下)安装即可。
R CMD INSTALL ggplot2_2.2.1.tar.gz注意安装log:installing to /home/xxx/R/x86_64-unknown-linux-gnu-library/3.1/ggplot2_2.2.1/libs安装完成后添加环境变量:export LD_LIBRARY_PATH=/share/nas2/genome/biosoft/hdf5/1.8.9/lib/:$LD_LIBRARY_PATHlPython包安装注意使用的python版本,Python2与Python3差别较大,因此安装时注意python版本。
运行命令:/Python/3.5.2/bin/python suppa.py报错信息:Traceback (most recent call last): File \"suppa.py\", line 9, in <module>import fileMerger as joinFiles File \"/share/nas1/SUPPA-master/fileMerger.py\", line 11, in <module> import pandas as pdImportError: No module named 'pandas'解决方案:找到对应版本的pandas下载即可,文件格式一般为后缀名为.tar.gz:pandas-0.20.1.tar.gz 安装步骤:tar zxvf pandas-0.20.1.tar.gzcd pandas-0.20.1python setup.py install --user安装完成后注意在.bashrc中添加环境变量,PYTHON_PATH=/home/xxx/.local/lib/python3.5/site-packages/:$PYTHON_PATHmC包无root权限的linux系统上安装软件时候遇到的lib××× not found的问题.参见此博文:http://blog.shenwei.me/solve-lib-not-found-in-linux/更多生信分析需求请加微信:13120220117
之初信息学学者生物(生物序列信息学引物软件)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息