江苏省医疗器械检验所,江苏省南京市, 210019
摘要:近年来我国在生物医学方面已经开始逐渐向着大数据的方向发展,尤其是在启动人类基因组计划之后,新一代测序技术、质谱技术等各种组学技术快速的进步和发展,促使了基因组、表观遗传组、蛋白质组方面海量数据信息的生成、大量指数级增长,采用大数据技术可以通过机器学习、人工智能等技术措施增强医学影像方面、分子影像方面的分析能力,创建高通量的生物医学实验技术,从传统的基因组PB两级医学数据转变成为多组学融合EB量数据。下文就研究生物医学大数据发展的新挑战,提出未来的趋势,旨在为增强生物医学领域中大数据技术的应用效果和发展水平提供帮助。
关键词:生物医学;大数据发展;新挑战;趋势
我国在深入性、广泛性的开展生物医学研究工作、进入到大数据发展时代的背景下,生物医学的临床数据信息增长量开始提升,增长速度很快,但是,面临着质量控制方面、来源管控方面的新挑战,因此在未来发展的进程中,应该重视生物医学大数据时代发展的分析和研究,在严格控制质量的同时改善当前的发展现状,充分发挥大数据技术在生物医学领域中的价值作用。
1 生物医学大数据发展的新挑战
近年来我国生物医学大数据发展的过程中,由于临床数据信息量较为庞大,增长的速度也很快,在应用大数据技术的过程中,很难进行质量的有效控制,而且数据信息的来源非常繁琐复杂,很难创建标准化的数据系统、结构化的数据模式。而且对于生物医学研究数据信息来讲,具有种类繁多的特点,内部结构有着高位复杂的特征,其中存有十分丰富的内涵,数据信息也具备分散性、交汇共性难度高的特征,很难进行各种生物医学数据信息的整合处理与分析处理,无法更好地利用大数据技术挖掘生物医学数据信息中潜在的、高价值的内容。我国的生物医学领域中,尚未创建关于数据汇交方面的机制和模式,经常会有数据信息存储碎片化的问题,管理工作较为分散,甚至还会有流失损耗的现象。而且在数据信息方面缺少良好的安全保障,没有设置国际化交流的窗口,很难通过大数据技术高效化、高质量地执行其中各种任务。在我国的生物医学大数据领域发展期间,也存在缺少数据共享平台的问题,其中的标准化管理方式和模式非常混乱,存有质量参差不齐、难以控制的现象,在开放共享的方面也很容易受到国际政策、国内政策还有技术条件方面的限制性影响。我国在生物医学研究工作方面,正在向着数据密集类型的第四科学范式领域中深入改革,合理的从“组学”到相关临床数据信息、健康人群数据信息方面进行生物医学大数据内容的交汇处理、综合管理、综合利用与共享等成为首要解决的问题,同时还面临着将大数据信息内容快速转变成为新知识的挑战,因此在未来发展的进程中,应结合生物医学大数据特点、时代发展特征等,全面分析各种挑战问题,针对性地开展各项管理工作、协调工作与控制工作。
2 生物医学大数据发展趋势
我国的生物医学大数据未来发展的进程中,应结合其特点与发展规律等,科学化的进行数据存储、共享、挖掘等等,应对新挑战的同时促使生物医学大数据技术与平台的良好发展进步。主要的发展趋势为:
2.1 数据存储的发展趋势
上个世纪八十年代到九十年代,美国、欧洲、日本就已经创建了国际化的生物数据中心系统,在美国主要建设了NCBI信息中心,欧洲建设了EBI研究所,日本建设了DDBJ的相关DNA数据库系统,在多年来发展的过程中,这几个数据中心都已经拥有十分完善的数据汇交技术模式,无论是基因组方面、蛋白质组方面还是转录组方面,都有着一定的影响力,我国的相关机构目前也开始建设PROX、GSA等基因组数据中心、蛋白质组数据中心、微生物资源组数据中心,而且在我国健康医疗大数据中心领域中已经建设了相应的医疗数据信息系统与管理系统,各种数据中心的建成在一定程度上实现了生物科学、临床医疗等生物医学大数据信息的采集性能,但是,近年来在数据规模增多、信息量增加的情况下,很难快速性、有效性地进行数据信息的采集利用,传统的数据组织措施、数据模型措施等不能符合海量数据结构、数据信息快速增长的具体管理要求,很难结合具体状况动态性地开展调整工作。因此,在我国的生物医学大数据领域中,应该打破传统性的数据平台、数据中心建设模式,利用多元化的方式建设相关的数据库系统,例如:应用新型仓储类型的数据仓库系统,在底层区域的数据结构方面,将数据整合当做是导向,结合样本信息、宿主信息与环境信息的状况,将其与时间数据信息、空间数据信息、预留数据信息之间相互联系,争取可以打造具有一定弹性特色的数据结构,便于动态性地调整数据内容和信息内容,实时性、准确性地开展数据存储工作,为后续开展集成处理、整合处理等各项工作提供基础性的保障[1]。
2.2 数据共享的发展趋势
有关的数据平台和中心中的数据递交服务方面,存有数量较多的数据资源和信息内容,可以利用网络平台对其进行共享,目前我国在EBI方面、NCBI方面已经能够全面采集和存储生物序列数据、分子结构数据、遗传信息数据等,共享的效果较为良好,在合理共享此类数据信息和资源的情况下,能够为生命科学研究、生物医学研究等提供基础保障,产生推动性的作用。而且在对第三方递交数据信息、数据资源进行共享处理的基础上,还能将大型的科研项目数据信息作为基础,分级性地开展数据共享的工作,这样不仅能够为各种科研工作提供相对应的数据信息和资源,还能在中小型科研机构的支持下创建种类较为丰富、规模具有层级性、质量符合标准的数据库系统、知识库系统等,为生物医学研究工作提供数据查询服务、下载服务和浏览服务,甚至能够在线进行数据信息的分析和处理。在未来发展的过程中,生物医学大数据系统能够取得良好的成绩,可以根据类型设置基因组系统、转录组系统、蛋白质组系统,按照物种分成人类数据库系统、脊椎动物数据库系统、微生物数据库系统等,根据研究目的划分成为转录因子系统、遗传变异系统与调控网络系统,在这些系统的帮助下不仅可以丰富有关的生物医学大数据信息内容,还能起到良好的数据共享作用。但是当前在数据类型不断增加、数据规模有所拓宽的情况下,在各个平台、生物医学数据研究中如何进行数据的存储、访问存放、组织管理等成为首要解决的问题,在此情况下,为了能够应对和解决问题,可以通过可发现的方式、可访问的方式、互操作的形式、重用的形式等处理,将此类原则当做是基础部分,在大数据平台中利用搜索引擎技术打破传统主题性的数据库建设、发展局限性,统一性的开展EBI数据中心、NCBI数据中心各类数据资源的检索,真正意义上将搜索引擎当做是核心部分,整合各种数据信息,满足用户在一站式数据共享方面的需求和要求。在生物医学大数据未来发展的进程中,不仅需要科学应用检索技术,还需对数据信息进行可视化处理,完善在线分析的相关服务功能,例如:将新型的Web展示技术等设置在大数据平台领域,应用在大分子展示方面、分子影像方面、基因组浏览器方面等等
[2]。除此之外,应该将数据库系统的分子序列、分子调控等数据信息当做基础部分,结合数据库系统的特点,采用在线分析工具开展序列与多序列的对比工作、结构相似性比较操作、网结构分析操作等,最高程度上提升数据信息的可交互性。而且在未来发展的进程中,构建生物医学大数据系统与平台,应该结合TB量级具体数据信息的下载需求,合理开展数据的下载操作、数据共享操作等,在原本主题组织数据信息的基础上,积极运用垮库检索引擎技术、可视化技术、在线分析技术等完善数据的在线交互处理功能,利用较为精确、准确的对用户数据访问结果进行返回的方式,增强共享的效果、保证数据共享的有效性。
2.3 数据挖掘的发展趋势
从医学大数据的分析角度而言,其中涉及到生命科学研究、临床医学等数据信息,在生物信息学学科、计算生物学学科、系统生物学学科的帮助下,目前已经开始研究开发出较为成熟的将基因组数据、转录组数据、代谢组数据、蛋白质组数据为主要部分的生命科学数据分析方式,在生物医学大数据领域中已经开始普及相关的分析流程,有着较高的推广价值、应用意义。在此过程中,我国临床医学数据信息统计技术、建模技术、机器学习技术快速发展,开始逐渐广泛应用SAS等各种语言分析工具与技术,数据处理效果较高。但是目前在相关领域中组学数据挖掘的性能较低,难以与目前快速增长的数据产出情况相互适应,尤其在数据信息数量较多、传输速度很快、压缩分析方式逐渐繁琐、维度增高的情况下,数据挖掘期间精确性、有效性的降维成为重要的工作。为了有效应对数据挖掘问题,可以将图形处理器技术、现场可编程陈列技术当做是基础部分,对于传统性的生物信息分析手段来讲,应不断优化其中的限速步骤算法,广泛性运用序列对比、分子对接等形式。同时也可以将人工智能技术当做基础部分,高效化地挖掘医学影像数据信息,对高纬度的数据进行降低维度处理,保证数据挖掘效果。另外,也可以通过区块链技术在大数据挖掘期间进行去中心化的处理,形成良好的数据挖掘作用、数据共享处理作用[3]。
2.4 严格进行数据标准管理和质量的控制
我国生物医学大数据未来发展期间应该重点开展数据标准方面与质量方面的管控工作,尤其是术语集标准、数据与综合标准,应统一相关的管理要求和规范,保证标准科学化管控的同时,不断增强各项数据标准的管理效果和优化性。质量管理的工作中也需要注意,对于生物医学大数据,其中数据信息的质量很容易受到数据产出因素、分析因素的影响,因此在未来发展的进程中,应结合产出特点和分析特点等严格进行各种大数据内容的质量控制,针对性地设置蛋白质组、基因组与其他数据信息的质量控制标准和要求,在严格开展数据信息质量管理工作、协调控制工作的同时,有效规避和防止发生相关数据质量缺陷和不足[4]。
结语:
综上所述,目前我国在生物医学大数据发展期间,面临着数据挖掘方面、存储方面与管理方面的新挑战,如果不能严格开展各项处理工作和管理工作,将会导致生物医学大数据技术和数据信息的质量降低。因此在未来发展的进程中,应结合生物医学大数据特点,完善数据挖掘系统、分析系统和存储系统,保证大数据技术的良好应用和发展,满足基本性的数据应用需求。
参考文献:
[1]文雯.生物医学大数据的现状与发展趋势研究[J].中国保健营养,2019,29(8):41-67.
[2]张国庆,李亦学,王泽峰, 等.生物医学大数据发展的 新挑战与趋势[J].中国科学院院刊,2018,33(8):853-860.
[3]徐满茗.生物医学大数据的现状与发展趋势研究[J].科技与创新,2018,11(2):88-89.
[4]闫佳.生物医学大数据的现状与展望[J].新晋商,2020,23(3):79-80.
作者简介:高静贤(1980-),性别:女,民族:汉,籍贯:江苏常熟,职务/职称:生物安全评价中心主任/高级工程师,学历:本科, 研究方向:生物医学工程