新的计算机程序学习识别导致疾病的马赛克突变

导读 基因突变导致数百种未解决和无法治疗的疾病。其中,一小部分细胞中的 DNA 突变,称为镶嵌突变,由于它们存在于极小部分细胞中,因此极难

基因突变导致数百种未解决和无法治疗的疾病。其中,一小部分细胞中的 DNA 突变,称为镶嵌突变,由于它们存在于极小部分细胞中,因此极难检测。

当前的 DNA 突变软件检测器在扫描人类基因组的 30 亿个碱基时,不太适合识别隐藏在正常 DNA 序列中的镶嵌突变。医学遗传学家通常必须通过肉眼检查 DNA 序列,以尝试识别或确认镶嵌突变——这是一项耗时且充满错误可能性的工作。

加州大学圣地亚哥分校医学院和拉迪儿童基因组医学研究所的研究人员在2023 年 1 月 2 日的《自然生物技术》杂志上写道,描述了一种使用人工智能方法教计算机如何发现马赛克突变的方法,称为“深度学习。”

深度学习,有时也称为人工神经网络,是一种机器学习技术,它教会计算机做人类自然而然的事情:通过实例学习,尤其是从大量信息中学习。与传统的统计模型相比,深度学习模型使用人工神经网络来处理视觉表示的数据。这些模型以类似于人类视觉处理的方式运行,具有更高的准确性和对细节的关注,从而导致计算能力的重大进步,包括突变检测。

“尚未解决的疾病的一个例子是局灶性癫痫,”资深研究作者、加州大学圣地亚哥分校医学院神经科学 Rady 教授和 Rady 儿童基因组医学研究所神经科学研究主任 Joseph Gleeson 医学博士说。

“癫痫影响了 4% 的人口,大约四分之一的局灶性癫痫发作对普通药物没有反应。这些患者通常需要手术切除大脑短路的局灶性部分以停止癫痫发作。在这些患者中,马赛克突变脑内可引起癫痫病灶。

“我们有许多癫痫患者,我们无法发现病因,但一旦我们将我们称为“DeepMosaic”的方法应用于基因组数据,突变就会变得明显。这使我们能够提高 DNA 测序的灵敏度在某些形式的癫痫中,并导致了指向治疗脑部疾病的新方法的发现。”

Gleeson 说,准确检测镶嵌突变是医学研究开发多种疾病治疗方法的第一步。

共同第一作者和共同通讯作者、Gleeson 实验室的博士后学者 Xiaoxu Yang 博士说,DeepMosaic 在基因组中对近 200,000 个模拟和生物变异进行了训练,直到“最后,我们对其检测能力感到满意来自它以前从未遇到过的数据的变体。”

为了训练计算机,作者提供了可信赖的镶嵌突变示例以及许多正常的 DNA 序列,并教计算机分辨差异。通过用越来越复杂的数据集反复训练和再训练,并在十几个模型之间进行选择,计算机最终能够比人眼和以前的方法更好地识别马赛克突变。DeepMosaic 还在几个它从未见过的独立的大规模测序数据集上进行了测试,表现优于之前的方法。

“DeepMosaic 在检测基因组和外显子序列的嵌合性方面超越了传统工具,”共同第一作者 Xin Xu 说,他曾是加州大学圣地亚哥分校医学院的本科生研究助理,现在是诺华公司的研究数据科学家。“深度学习模型拾取的突出视觉特征与专家在手动检查变体时所关注的非常相似。”

DeepMosaic 可供科学家免费使用。研究人员说,它不是一个单一的计算机程序,而是一个开源平台,可以让其他研究人员训练他们自己的神经网络,以使用类似的基于图像的设置实现更有针对性的突变检测。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!