赤拟谷盗基因组中microRNA的生物信息学预测与进化分析

(整期优先)网络出版时间:2010-04-14
/ 3

赤拟谷盗基因组中microRNA的生物信息学预测与进化分析

周学①,王昊炜②,薛峰③

周学①;王昊炜②;薛峰③

①南京师范大学泰州学院商学院,泰州,225300;

②南京工业大学理学院,南京210009;

③盐城工学院化学与生物工程学院,盐城224003

摘要:本文通过计算机编程技术以及预测miRNA的RNAfold和Triplet-SVM软件在赤拟谷盗基因组中预测了43个miRNA。进一步对预测的miRNA进行长度统计以及保守性分析。

关键词:赤拟谷盗;基因组;microRNA;生物信息学;进化分析

中图分类号:Q752文献标识码:A文章编号:1006-4311(2010)11-0207-02

0引言

昆虫是地球上种类最多,分布最广的动物类群。不但对于生物学基础研究非常重要,而且昆虫对于人类健康和农业经济也有重要意义。然而昆虫microRNA的研究却远远落后于哺乳动物、线虫和植物[1]。随着许多昆虫全基因组测序的进行及完成,昆虫microRNA研究迎来了一个新的发展阶段。正在从生物信息学预测、高通量克隆、特定microRNA的功能研究等几个方面迅速展开。而这也将为揭示microRNA在昆虫生长发育中的作用奠定基础。赤拟谷盗作为一个新的模式昆虫,对它们的研究有利于进行农业害虫防治以及人类疾病治疗。本研究工作利用计算机技术以及RNAfold和Triple-SVM算法预测赤拟谷盗基因组中的miRNA,结果总计预测了43个miRNA。在所预测的miRNA中,发现其中有14个miRNA成簇存在,有些miRNA存在于基因间区或内含子中。根据NCBI数据库中提供的编码基因的注释信息,利用计算机编程技术提取了赤拟谷盗基因的3′UTR序列,并构建了本地的UTR数据库,通过miRanda软件预测这些miRNA基因作用的靶标。同时进一步对这些预测的miRNA基因做了家族进化分析。

1材料和方法

1.1数据来源从UCSC数据库下载了赤拟谷盗的基因组数据(http://genome.ucsc.edu/)。同时从miRBase数据库(版本11.0)中下载了果蝇中已报导的152条miRNA成熟体序列(BDGP5.0)(http://microrna.sanger.ac.uk/cgi-bin/sequences/browse.pl)。从NCBI的GenBank数据库下载了赤拟谷盗的mRNA序列,并利用自编的Perl程序根据基因组注释信息提取了mRNA的3′UTR序列,并构建本地数据库。

1.2赤拟谷盗基因组中miRNA的预测流程总体实验分析流程利用自己编写的Perl程序提取已公布的152个果蝇miRNA基因的2-8位的种子序列,并利用这些种子序列扫描赤拟谷盗基因组,扫描过程中允许种子序列完全匹配,并向两边延伸截取长度为22个核苷酸的候选序列做下一步分析。接下来利用PatScan软件对从赤拟谷盗基因组中截取到的22个核苷酸的候选序列与果蝇中已知的miRNA序列做同源比对,参数设置为允许二个错配(mismatch)、一个插入(insertion)、一个缺失(deletion)。将符合条件的22nt同源序列利用Perl程序将其完全匹配到基因组上,接下来采用以下方法截取可能的miRNA前体序列:分别截取该序列两侧的75个碱基的序列(60+15bp或65+10bp)。然后利用RNAfold软件分别计算其二级结构的自由能[2],这里将自由能界限设为ΔGfolding≤-18kcal/mol,如果每个序列所对应的四个前体都符合条件,保留自由能最低的那条前体做下步分析。接下来进行miRNA的初步预测,利用本地版的Triplet-SVM软件[3],其原理是根据已公布的miRNA的特征,对要分析的miRNA进行特征识别,从而确定可能的miRNA。最后筛选出43个可能的miRNA。

1.3赤拟谷盗基因组定位和成簇分析利用自己编写的Perl程序,对miRNA在赤拟谷盗每个Scaffold上的分布进行统计。miRNA在赤拟谷盗的基因组上并非均匀分布,而是存在很多热点(hotspot),本研究工作对一个miRNA分布较多的ChLG3进行分析。结果发现有11个miRNA存在于这个Scaffold上,并且发现了三个miRNA簇。此外,还对所有miRNA在基因组上的成簇进行分析,采用的标准为miRNA在基因组上两两之间距离小于500碱基的,认为是同一个簇。

1.4赤拟谷盗miRNA的靶标分析利用自己编写的Perl程序根据现有的基因的注释信息提取赤拟谷盗已有的mRNA的3′UTR序列,并建立本地的UTR序列数据库,利用Windows版本的miRanda软件(版本1.0b)预测miRNA作用的靶标。将预测的赤拟谷盗的miRNA序列和mRNA序列作为输入序列采用DOS界面运行程序,参数设置:分数值(Score值)设为80,能量值设为-20kca/mol,其他的参数保持缺省。对预测出来的结果利用自编的Perl程序提取结果,其中包括miRNA作用的靶标的基因登陆号以及简单的基因描述。

1.5赤拟谷盗同源miRNA的分析根据前体序列以及二级结构的相似性,43个miRNA可以分为36家族,其中包括29个在Rfam数据库(版本8.1)中已经报道的miRNA家族。将其中的部分家族的前体序列利用CLUSTALX软件进行比对,取比对结果中共有的部分利用MEGA(版本3.1)构建系统进化树,参数设置:邻接法(Neighber-joining)以及Kimura-2参数模型。最后构建的系统进化树利用Treeview软件进行可视化显示(版本1.6.6)。

2结果与讨论

2.1赤拟谷盗基因组miRNA的预测利用计算机编程的技术以及预测miRNA的软件在赤拟谷盗基因组中总计预测出了43个miRNA基因。通过跟miRBase数据库(版本11.0)中已注册的赤拟谷盗miRNA进行比较发现其中有12个miRNA基因是新预测出来的,目前数据中还未报道。首先,提取果蝇已知的152个miRNA的2-8位的种子序列,去除冗余后总计得到了126个miRNA的种子序列库。然后利用Perl程序用这些种子序列去扫描赤拟谷盗基因组,允许完全匹配,并两边延伸总计15个核苷酸长度的碱基,将得到的候选的22个核苷酸序列与果蝇原来的152个miRNA利用PatScan软件进行同源比对,最后得到了355个潜在的miRNA序列,接下来将这些序列匹配到赤拟谷盗基因组上以截取潜在的前体序列,并对这些前体序列进行二级结构预测,以及利用Triple-SVM软件进行识别,最后得到了43个真实的miRNA序列,其中有21个miRNA基因与已发表的数据一致。对这些预测的miRNA进行长度分析,发现绝大多数的miRNA的长度都在22-23左右,这跟miRNA的一般特性还是很吻合的,也进一步说明了预测结果的真实性。

2.2赤拟谷盗miRNA在基因组上的位置分布因为目前为止,尚未有整合的赤拟谷盗精细图发表,所以我们将已鉴定的赤拟谷盗miRNA与已知的scaffold进行了比对与定位。与其他物种报道的一样,赤拟谷盗的miRNA也并非在基因组上均匀分布,一些scaffold上包含多个miRNA,而有些scaffold目前未发现miRNA存在。这里以一个miRNA存在热点以ChLG3为例,在这个scaffold上分布着11个miRNA。此外还在赤拟谷盗基因组上寻找可能的成簇的miRNA,在这里发现了三个miRNA簇,例如已报道的miR-12和miR-304簇也存在于该scaffold上,其中果蝇中miRNA-2家族被证实与胚胎发育和细胞凋亡相关,在这里也发现了该家族的部分基因。将miRNA与已知的蛋白编码基因在相应scaffold上位置进行分析,发现有10个miRNA存在于编码基因的内含子区。随着赤拟谷盗基因组精细图以及基因注释的完成及完善,内含子区域的miRNA数目仍有可能继续增加。

2.3赤拟谷盗miRNA的家族进化分析根据序列和结构的相似性,预测的43个miRNA可以分为36个家族,其中有些家族含有多个成员,比如:mir-iab-4家族由四个miRNA组成;mir-2、mir-9、mir-46家族各由两个成员组成,其中mir-46家族的两个成熟体miRNA位于同一个前体的两个臂上。绝大多数赤拟谷盗中miRNA家族只含有一个成员,而且有些miRNA家族目前在Rfam数据库中还未有记载。我们选择了其中mir-46家族做保守性分析,并构建了系统进化树。进化树显示,mir-46家族主要存在于昆虫中,而且在所有果蝇和线虫物种中都存在两个成员,而在家蚕(Bombyxmori)、意大利蜜蜂(Apismellifera),冈比亚按蚊(Anophelesgambiae)和赤拟谷盗(Triboliumcastaneum)中只存在一个该家族的成员,并且发现赤拟谷盗的tca-mir-281与家蚕的bmo-mir-281基因相似性较高,属于同一分支。

2.4预测的miRNA的靶标分析miRNA可以通过切割信使RNA或抑制其翻译这两种转录后机制,实现下调靶基因表达的作用。利用生物信息学方法预测miRNA的靶基因,并通过初步筛选,挑选所要研究的基因是目前研究miRNA功能的重要方法。本文中,我们下载了数据库中赤拟谷盗的全长基因,利用Perl程序根据基因注释信息,提取了基因的3′非翻译区,利用靶基因预测软件miRanda,预测了miRNA作用的靶基因,参数设置Score值为80。结果显示有些miRNA可以作用多个基因,或在同一个基因上有多个作用位点,例如:tca-miR-184作用了四个基因,其中在hth基因上有三个作用位点。另外一种情况是,有些基因可以同时被多个miRNA作用,例如基因基因abdominal-B同时被七个miRNA作用,其中包括tca-bantam基因,在果蝇中发现,Bantam基因对细胞程序性死亡基因是一种负调控。

3讨论

自两个最早的miRNA基因Lin-4和Let-7在线虫中发现以来,科学家们通过分子克隆和生物信息学等方法,已在各种动植物、病毒甚至单细胞的衣藻等生物体中鉴定出来8000多种miRNAs。研究发现miRNA参与生命过程中一系列的重要进程,包括早期发育、细胞增殖,细胞凋亡、细胞死亡、脂肪代谢和细胞分化。相对于植物和其他动物,昆虫的miRNA研究相对滞后,而且主要集中在果蝇等主要的模式昆虫中。昆虫与农业生产和人类健康息息相关,昆虫不但是地球上最大的动物类群,而且其极强的适应能力以及复杂的发育变态都引起科学家的广泛关注。鉴定昆虫的miRNA成为研究昆虫的独特习性和发育变态的重要方面。本文通过生物信息学的方法在赤拟谷盗基因组中预测了43个miRNA。这些新预测的赤拟谷盗miRNA对于昆虫miRNA的鉴定和功能研究打下了良好的基础。

大规模基因组和蛋白质组的研究为我们更好的认识理解昆虫的生长发育、激素调控、行为生理提供了可能。尽管昆虫中miRNA的研究刚刚起步,但是相信随着包括家蚕、蚊子、蜜蜂、赤拟谷盗在内众多昆虫基因组测序的完成以及功能研究的深入,昆虫miRNA研究必将为基础生物学以及应用昆虫学提供新的动力,研究miRNA在昆虫进化、昆虫行为以及昆虫与植物、昆虫与微生物相互关系等也将成为miRNA在昆虫学中研究热点。

参考文献:

[1]BehuraKS.InsectmicroRNAs:Structure,functionandevolution.insectBiochem.Mol.Biol.2007,37:3-9.

[2]Hofacker,I.L.,Fontana,etal.FastfoldingandcomparisonofRNAsecondarystructures.MonatshChem1994,125,167-188.

[3]Xue,C.,Li,F.,He,T.,etal.ClassificationofrealandpseudomicroRNAprecursorsusinglocalstructure-sequencefeaturesandsupportvectormachine.BMCBioinformatics2005,6,310.