近年来,大规模人群基因组学研究项目方兴未艾,相关成果陆续发布,标志着生命科学产业和精准医学,正式进入了基因大数据时代。
但庞大的基因数据也带来了前所未有的挑战,一个大科学、大数据、大合作的时代正在加速到来,未来,基因大数据将给人类带来哪些巨大影响?
1、要做好精准医学,最重要的是做好大数据分析。
我们知道精准医学是近年来最热门的话题,通过精准医学的手段使我们的治疗准确性更高,治疗的副作用更小,治疗的效果更好,我想这是精准医学的目标。
简单的举个例子,过去我们得到肺炎的时候可能用广谱抗菌素,糊里糊涂把肺炎治好了,到底是哪种细菌引起的不知道。今天的手段可以通过基因组学的方法了解得到肺炎这个病原菌是什么样的病原菌,它是哪个类型我们可以确定下来。根据确定的特点我们对它进行治疗。就像新冠的发生,就是这样检测到的。这就是精准医学的核心要义,知道它是什么样的东西。这是感染疾病,同样其他的疾病也是这样,要想把精准医学做好,最重要的前提就是要做好大数据的分析。尤其是在基因组学跟精准医学的关系上,大数据就更加重要了。
2、数据奠定了基因精准诊断的基础。
生命健康会产生一个很大量的数据大概10个TB的数据。一个人一生的基因数据,包括基因组学的数据、转录组、表观组、宏基因组等等很多,如果把生命拉开来看,从出生到终老的周期来看,这个数据量更大,这是非常庞大的数据。如何对这个数据进行更有效的分析?这是一个非常难做必须要做的事情。
从基因的领域来说,基因要进行测序,要进行一些分析,会产生大量的数据。我们仅仅从今天的生命健康、肿瘤防控、感染疾病的领域来说,产生的数据量还比较少。比如说华大基因产生的生育的数据今天也就是2个PB,产生的肿瘤数据也就是1.2PB,我们感染的数据更少一点,未来的数据量很大。就这样的数据奠定了我们今天从事基因精准诊断的基础,这是非常重要的领域。
基因大数据有什么特点?未来数据量都是以PB级的等级来说的,基因数据量有一个特点就是体量大、分析复杂、需要的工具也要求比较高,还有就是汇集比较难。要把它形成一个统一可分析的数据才能够往下做下去。那么就需要大科学的方法完成这个事,需要一个很好的平台完成它。在这个平台上才能汇总大数据。
这里面涉及到基础研究的内容,成为生物医学、基因组学开展研究的很重要内容,还涉及到健康领域如何归纳基因大数据才能推动我们对生命的准确理解。
从临床应用来说,在出生缺陷、肿瘤防控、感染方面做到更为精准。我们说“精准总在路上”。
3、基因数据助力精准医学。
基因组学大数据要做的话,怎么才能做好?我们总结几条:一是汇数据,二是洗数据,三是管数据,四是用数据。
汇数据就是要设立一个数据的管理中心,包含数据源的配置、数据源监控、字段血缘管理、元数据管理等等。洗数据就是在数据中心里面,对数据的合规、配置、数据的批量处理进行完整的处理过程。管数据方面,在数据中心里面对数据管理的权限、人员角色管理、基因数据文件、数据看板、统计分析等等做一系列的处理。用数据,包括项目文件的管理、文件管理、数据管理、任务管理等等。
4、大数据管理是很重要的事情。
既然涉及到基因数据,现在大数据管理是很重要的内容,涉及到隐私、安全、规范,我们从三个大的方面做这方面的管控。
一是安全隐私包括安全技术、隐私保护;二是保障制度。三是标准规范的建设。
这些管理的依据就是国家的信息安全的三大基本法,《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》。
现在即将发布的是网络数据的安全管理基因数据助力精准医学,我们在保障里面包括要做一些技术加密,怎么使数据更安全,不外泄;还要做一些平台保障,有一些很好的防护措施。还有权限的分级,哪些数据可以看到,哪些数据是不应该看到的,包括数据的隐私、数据的公开,哪些可以公开,这些都是需要处理的。严格记录,总的目标就是使数据能够别人进不来,并且进来看不懂,拿不走,走不脱,我们要实现数据的管控。
5、树立基因组学大数据发展目标。
我们基因组学大数据发展目标在哪里?我们对它做了一些勾勒,以这些目标作为我们的发展方向。
一是对于大数据平台的建设,我们还是要基于汇数据、洗数据、管数据、用数据做好它,将来要使业务数据化、数据资产化、数据要服务化。构建成基因领域的数据分析和科研平台,并且是现在出生缺陷、肿瘤、传感染疾病等数据全覆盖。
二是各个数据库也有独立的目标,妇幼卫生的终极目标就是要通过标准化的数据库建设解决统一的问题,还有结构化的数据以及提高基因数据可解读的效率,促进行业的标准化发展。我们能够提供更好的挖掘的价值。
肿瘤方面的数据库,我们要通过收集海量的癌症数据,打造肿瘤数据的百科全书,实现数据在线来进行分析;还要完成可视化的快速关联分析,我们要培训更多的临床医生来和我们共完成这方面的事情。
病原微生物方面,我们要实现3D病原数据库,总体目标就是综合生命大数据、评价个体与环境自身遗传特性的关系,从数据的代表性、算法的高效性、多重数据融合性方面完善病原3D数据库存的建设和支撑。
公司地址:尖沙咀海洋中心
邮箱:info@joinlab.vip