【先知基因点评】阿里发明的基于AI模型的基因检测方案,实现了通过低深度的基因数据进行特征提取以及检测的操作,不仅保证了基因检测结果的精确度,并且还有利于降低基因检测所需要的数据处理资源和成本,较为有效地提高了这种基因检测方法的实用性。
基因测序是一种新型的基因检测技术,能够从血液或唾液中分析测定基因全序列,预测罹患多种疾病的可能性、个体的行为特征的合理性。同时,基因测序技术还能锁定个人病变基因,以便于基于个人病变基因提前进行预防和治疗。
其中,基因序列由大量的reads片段组成,reads片段是指一段特定长度的DNA片段,这种的特定长度取决于测序仪的读长,每一条read片段中的信息可以包括:碱基序列、质量序列、正负链等等,这些碱基序列和质量序列一一对应。
对于人类而言,Reads片段覆盖了23对染色体,共计超过30亿的碱基对,可见,如果要对数量如此庞大的数据进行分析,其耗费的人力物力则相当可观。例如,做一次全基因组测序就需要几万块钱。
虽然近年来随着测序技术的持续发展,基因测序的费用有了一定的降低,但是还是一笔不小的开支。因此,如何降低基因检测的成本成为该技术能否落地的一个难题。为此,阿里巴巴在2021年6月10日申请了一项名为“基因检测方法、模型训练方法、装置、设备及系统”的发明专利(申请号:202110649698.X),申请人为阿里巴巴新加坡控股有限公司。
在该专利中,发明了一种代价低、效果好的基因检测方案,根据目前公开的相关资料,让我们一起来看看这项技术方案吧。
如上图,为该专利中发明的基因检测方法的场景示意图,基因检测装置通常为在网络虚拟环境中提供基因检测服务的设备,其可以利用网络进行信息处理和基因检测操作。待处理的基因数据存储在特定的装置中,该装置可与基因检测装置进行网络连接,以获取待处理的基因数据。
基因检测装置在接收到待处理的基因数据后,会将待处理基因数据输入至特征生成网络层进行特征提取操作,从而获得与待处理基因数据相应的基因特征和与基因特征相对应的增强后特征。通过将待处理基因数据和增强后特征输入至基因识别网络层进行基因检测操作后,就可以获得检测结果,从而实现了通过低深度的基因数据(即基因样本中每个位置的基因片段小于预设阈值)进行特征提取操作,不仅可以保证基因检测结果的精确度,而且可以降低数据处理的成本。
其中,在对基因数据进行特征提取前,还要依赖于模型训练装置对基因数据进行学习训练以得到能够实现基因检测操作的基因检测模型。该模型主要依赖于参考基因结果(21类基因型预测信息、合子性预测信息、第一条等位基因变异长度信息以及第二条等位基因变异长度信息)和基因特征进行学习训练,从而获得与基因样本相对应的基因特征和与基因特征相对应的增强后特征,以用于AI模型的生成。
如上图,为适用于上述装置的基因检测方法的流程示意图,检测的内容主要有:基因稳定性检测、基因可变性检测等。首先,系统需要获取待处理的基因数据,其中,每个待处理基因数据中每个位置所对应的基因片段均小于预设阈值,在每个基因片段中包含有碱基信息(A、C、G、T)、映射质量、正负链(A、C、G、T、A‑、C‑、G‑、T‑,其中后四种为负链,前四种为正链)等信息。
其次,将待处理的基因数据输入至特征生成网络进行特征提取,例如使用支持向量机或者神经网络等算法。最后,在获取到增强后特征之后,即可将待处理基因数据和增强后特征输入至基因识别网络层,基因识别网络层会基于待处理基因数据和增强后特征进行基因检测操作,从而获得基因检测的结果。
以上就是阿里发明的基于AI模型的基因检测方案,该方案实现了通过低深度的基因数据进行特征提取以及检测的操作,不仅保证了基因检测结果的精确度,并且还有利于降低基因检测所需要的数据处理资源和成本,较为有效地提高了这种基因检测方法的实用性。
公司地址:尖沙咀海洋中心
邮箱:info@joinlab.vip