基于D3的关联基因可视化系统研究

(整期优先)网络出版时间:2022-05-16
/ 2

基于 D3的关联基因可视化系统研究

段晓瑞 1 赵凯朦 1 李岩松 1 范镇业 1 杨文颖 1 董素芬 1*

河北农业大学 信息科学与技术学院 河北保定 071001

摘要:在生命科学领域由于基因与基因之间存在关联性,导致对基因序列所反映的功能作用的研究受到了阻碍,研究基因关联效应成为了生命科学领域的重要手段。但是由于基因序列体系庞大,在面对大量关键基因数据分析时,面临着数据结果难以整合,以及不能高效解读关键结果的问题,新兴的可视化技术,以直观简洁的优点使其更加适用于数据繁多复杂的场景,采用可视化技术展示基因数据之间的关联效应可以极大提高科研人员对关键基因的解读速度和准确性。

关键字:基因关联性;D3力导向图;可视化平台;


1 项目背景

近几年生命科学领域发展迅速,随着对基因组序列的深入研究,发现基因之间存在某种未知的联系,正是这种联系的存在使得我们从来未停下过对基因序列的研究。基因世界十分神奇且多样,这也就导致了基因数据的庞大和独具其特色的复杂性。对于基因之间关联的研究成为了当前生命科学领域的一个巨大挑战,传统技术已无法解决现实需求,迫切需要新兴技术的注入来推动基因关联效应的研究[1],为此引入了可视化技术,所谓“一图胜前言”,用可视化的方式展示数据,使得数据直观且易于理解,进而变成看得见的财富为人类所利用,使其具有深刻的现实意义。


2基于D3的关联基因可视化平台

基于D3的关联基因可视化平台主要包括搭建web交互式平台、利用D3可视化编程工具展示数据、建立信息表搭建图像重绘功能、导出可视化图像高分辨率图像以及所选数据等等。系统主要功能框架见图1。



Shape1


2.1搭建web交互式平台

平台框架的搭建采用的是PHP开发框架,平台搭建成功后,用户可以上传本地数据,或者采用系统预设的测试数据,对数据进行预处理。预处理部分首先对数据中的噪声数据进行剔除,并将有用信息进行格式化处理。在数据采集方面,用户可将实验数据整个上传,除此之外平台上还提供实时数据爬取和个性化数据录入,可满足用户多方面需求,尽量覆盖适用各种各样数据类型,满足生物信息领域研究方向的实验要求。


2.2 D3可视化编程工具展示数据

以往生命信息领域在可视化方面的应用一般是采用韦恩图来表达基因之间的关系,因为韦恩图的局限性,很难展现数据集中每个基因的关系。本平台将采用了D3中力导向网络图进行可视化展示。

基因与基因之间的关系存在很强的的关联性,导致单研究一类基因序列并没有什么实际效应,但研究多类型基因数据时,往往找不到其关联节点和其价值切入点,进而找不到如何去破解数据背后的奥秘。力导向图的出现对我们理清浩如烟海的数据关系有着很好的实用性。

基于力导向图基本框架进行优化延伸,置入数据发掘算法和机器学习算法,除此之外还融入一定的决策支持。例如:Apriori算法、聚类分析算法、结构化决策、非结构化决策、半结构化决策等等。

Apriori算法:融入数据挖掘中算法中的关联规则挖掘算法Apriori算法,用于挖掘大量基因数据之间的关联关系。

聚类分析算法:k-means聚类算法、层次聚类算法。对大量基因数据进行划分成簇,便于找出各类基因中簇中心基因,使其通过对比批量基因差异表达KEGG和GO的分析结果,从而实现探索各实验数据中关键候选基因节点的目的,然后对数据进行整合,并进行整合结果进行多角度展示,满足各个实验结果的需求。

结构化决策:在对基因数据整合过程中对不同的数据用确定的模型和合适的数据挖掘和机器学习算法产生决策方案,并从中找出最优的决策方案,通过力导向图展现。

非结构化决策:在有些数据无法用确定的模型和算法进行描述时,就随机选取决策方案对数据进行展示。

半结构化决策:介于以上两者之间,将会选取在几类算法分析中某一优化算法,使其产生最后结果置入力导向图中进行可视化展示,也就是选取了较为优秀的算法。

采用以上两类算法和三类决策是为了不再是单一的整理数据进行展示,而是使得数据的价值被充分挖掘并选取最优结果进行可视化展示,是实验数据得到真实有据的实践支撑。

2.3建立信息表搭建图像重绘功能

信息表内容包括展示基因通路及代谢路径、改变基因节点颜色形状、展示基因名称、高亮突出显示等等。

2.3.1展示基因通路及代谢路径

除关注基因序列本身所产生的作用之外,本系统还导入了KEGG代谢路径和GO数据库。

KEGG被称为基因破译方面的数据库,可以获取该基因从基因组到细胞层次一次整合性连接,展示所研究基因的整个代谢路径,便于了解研究基因从根本到更高层次的功能。

GO数据库:从细胞组学、分子功能、生物过程三个层次展示基因的功能。

置入两大数据库是为了方便使用者使用,需要查看基因其他功能时不需再去一个个查看。在本系统上将满足使用者全部需求。

2.3.2基因节点重绘操作

力导向图通过一个节点展示一个基因数据,在数据量庞大时也会存在一些弊端,例如:所有数据节点在算法分析时进行“抱团”,也就是关联效应很强的数据会在一系列算法分析下全部归于一类。

针对某些数据出现的特殊现象系统采取了对图像进行重绘的功能,实现节点之间的差异包括颜色、形状和字体差异,对关键基因节点进行突出显示,以此来避免大数据处理中的“毛球”现象。

2.4导出可视化图像高分辨率图像以及所选数据

对于生成的图形可以进行下载为便携式网络图形(PNG)和课缩放矢量图形(SVG)文件,SVG图形可以转换为高分辨图像,以供科研工作者在分析数据时使用。

除此之外还方便其进行多数据图形进行对比。

3 技术难点

如何将数据挖掘算法和机器学习算法与图像进行结合起来?

由于基因组数据及其庞大,在数据分析时会存在为得到分析结果之间将数据点对点,线对线之间进行展示,可能会导致数据展示时产生冲突导致系统崩溃。

针对以上问题,在数据分析时采用算法实时处理方式,图像展示进行延时操作,为加快分析速度,在系统测试时,对目前比较普遍的数据类型进行算法分配,选取最优决策将算法与该数据类型进行匹配,给以便于后期用户上传数据符合规定数据类型时直接采用该算法,不需再去各类算法中选择合适的。

还有多用户使用时,如何进行多用户数据分析?

多用户同时请求使用系统时,可采用分布式实时数据库系统中事务并发控制策略,并行时为用户服务。

4 小结

数据本身的价值只有经过处理分析才能展现,随着基因数据数量和种类的增加,对基因关系与其表达产物的研究越发重要,该系统基于php技术搭建平台框架,采用D3力导向图将关联基因进行可视化处理与展示,为相关人员的工作提供了便利。

未来科技仍在发展,更多新算法与技术的应用会让关联基因研究在现有成果的基础上获得更多未知的科学信息。建立结合现实的综合性应用平台,结合其他方法手段进行跨领域的研究等实现平台的拓展应用未来值得期待。



参考文献:

  1. 周琳,孔雷,赵方庆.生物大数据可视化的现状及挑战[J].科学通报,2015,60(Z1):547-557.

  2. 柳玲,刘水清,王宇. 基于SVG的WebGIS的设计与实现[J]. 重庆大学学报(自然科学版),2007,(04):108-112.

  3. 刘贯山;龚达平;李凤霞.烟草基因组学的发展现状与趋势[D].2013.

  4. 蒋刈;戴朴;韩东一.单核苷酸多态性在人类基因组学发展中的应用[J].中华耳科学杂志,2017,(02):239-244.

  5. 富贵,刘玉萍,苏旭.基于转录组数据的密花香薷SSR位点特征分析[J].西北植物学报,2021,41(04):654-663.



通讯作者:董素芬(1982-),女,河北省邯郸市人,硕士,副教授,主要从事大数据可视化方向研究,本项目由河北农业大学大学生创新创业训练项目(2022236)、河北省引进留学人员资助项目(C20190336)、河北省引进留学人员资助项目(C20190344)和河北省引进留学人员资助项目(C20190343)共同支持。