基因检测服务伴随检测技术的飞速进步和检测成本的大幅度降低,逐渐走进民众视野。然而尽管基因检测技术已达到临床普及应用的水平,但基因数据计算却成为其最大瓶颈。对生物基因组的测序工作通常涉及高达TB级数据的处理,对数据处理与分析技术提出了极高要求。AI对处理海量基因数据具备明显优势,已在基因指标定量分析、基因药物数据库建设、基因疾病知识库构建、基因检测报告数据解读等环节有广泛应用。随着AI与基因检测技术的深度融合应用,有望帮助基因检测服务实现基因解析的自动化、批量化和个性化,提高基因数据的解析准确度和速度。
①肿瘤筛查(个体化用药/伴随诊断)②新药研发③遗传病检测④心血管疾病⑤生殖健康(新生儿疾病筛查/胚胎植入前检测/无创产前筛查)⑥药物基因组学⑦医学基础研究
①聚合酶链式反应(PCR)②单分子测序③高通量测序技术(NGS)④基因芯片
机器学习:利用机器学习技术来识别大量遗传数据集中的模式,用于预测个体发展某些疾病的可能性或帮助获取潜在治疗设计。
深度学习:具有CNN、RNN等多种网络模型,可被应用于鉴别基因的不同成分,比如外显子、内含子、启动子、增强子、剪接位点、非转录区等。
区块链:利用去中心化的共识方式,存储基因大数据,为数据贡献者、基因科学工作者、技术开发者、社区生态参与者提供价值量化和权益回报的网络。
数据挖掘:可用于研究基因表达的相关性,如表达与甲基化的相关性、表达与突变的相关性、表达与SNP位点的相关性、表达与DNA拷贝数的相关性等。
据前瞻网数据,2007-2017年,中国基因测序行业市场规模增速高于全球整体水平,年均复合增速达47.5%。2018年全球基因测序市场规模在117亿美元左右,其中国内基因测序行业市场规模达到80亿元,估计到2020年将达到98亿元。2017年5月科技部《“十三五”生物技术创新专项规划》提到发展新一代基因测序技术,重视单分子技术在其中的应用和测序数据的分析解读。2017年7月国务院发布了《新一代AI发展规划》,提出基于AI开展大规模基因组识别、蛋白组学、代谢组学等研究和新药研发。
科研级基因检测:覆盖研究方案设计、基因测序、数据挖掘、功能验证等多个模块的解决方案。
临床级基因检测:包括微生物、遗传疾病、肿瘤3类检测,服务于用药指导、治疗方案决策等。
消费级基因检测:包括祖源分析、酒精代谢能力、营养代谢、皮肤特性、健康风险等检测项目。
Emedgene——AI助手:该公司开发了一种自然语言处理(NLP)引擎,可以自动读取新发布的科学文献,将其纳入Emedgene的总知识库中。Emedgene基因组学AI助手的工作是自动收集解读遗传案例时所应用的逻辑,将这种逻辑纳入AI助手中,当输入新的遗传信息时,AI助手会寻找类似的案例进行同逻辑解读。当AI助手识别到新的致病变体后,Emedgene基因组研究部门则会开发出致病变体的逻辑算法,然后将这些新算法添加到AI助手中,并在下次出现类似情况时显示。
志诺维思——智能基因云(iGenomeCloud):这是一个企业级肿瘤免疫基因组大数据分析平台,能够一站式解决检验测试的机构在面向WES的免疫指标定量分析、免疫指标基线数据库建设、免疫知识库搭建以及报告中辅助解读逻辑等痛点。该平台为客户保留了定制化再开发的可能性,包括IT硬件配置、变异探测AI模型初始化、变异探测AI模型迭代、LIMS接口、高级质控预警、任务管理调度、报告生成流程以及数据分析管理系统在内的多个模块均可按照客户的真实需求进行定制,对功能和计算通量进行扩展。
恺尔生物——恺尔深图系统:恺尔生物采用RNA-seq技术进行唾液转录组学分析,开发了恺尔深图系统,通过AI模型的优化训练以及验证,提升预测的准确性。目前,公司自主研发的恺尔深图人工智能癌症早期筛查系统已获得独立完整的知识产权保护,并取得医疗器械注册检验。恺尔深图系统基于人工智能技术的RNA 基因检测对多种癌症早期筛查特异性及敏感性均接近或大于80%;检验测试周期通常为1-3天,而常规的基于DNA 测序的癌症早期筛查产品检验测试周期为7-20天。
DeepDiagnos——驱动突变筛选算法:该算法能够迅速分析患者的全基因组数据,并找出其中的驱动突变。算法模型大致上可以分为两个部分。第一部是肿瘤的判断,首先通过算法挑选出一系列的突变基因列表,通过这一些突变来判断肿瘤发生的可能性。第二部分则是按照不同疾病分别来构建模型,将检测到的数据放到模型里进行打分,然后将结果按得分的高低顺序排列,分数最高的发生的可能性更高。该算法目前对于I期肿瘤的诊断效果不算理想,更适合肿瘤早筛。
Google——DeepVariant:这是基于深度卷积神经网络开发的一款突变检测软件,DeepVariant通过模拟人类对基因测序比对数据的分析,在不具备任何基因组学先验知识、不对基因测序数据做任何统计假设的条件下,通过监督式学习海量已标记基因组比对数据快照图像,基于Tensorflow深度学习框架训练深层次卷积神经网络(CNN)图像识别模型,实现从高通量测序数据中寻找基因变异进而完成基因分型的功能,其算法具有测序平台无关性、跨物种变异检测、通用性高等传统生物信息学方法所不具备的优势。
IBM——Watson for Genomics(WfG):WfG可在短时间内规模化地从结构化和非结构化的信息源中提炼所需信息,并进一步进行机器学习。同时,WfG能了解并读懂肿瘤具体的变异情况、病理学情况,并重建知识库、识别潜在治疗方案,帮助医生节省精力和时间,做出治疗决策。目前,WfG解决方案支持多种肿瘤类型,包括但不限于肺癌、乳腺癌等常见的实体肿瘤、白血病、淋巴瘤、骨髓瘤在内的血液肿瘤和原发灶不明及罕见肿瘤等。同时,WfG已经与美国14家癌症中心和独立医学实验室的专家团队建立了合作,使临床解读更加规范化。临床研究显示,对于1018例入组患者,经靶向全外显子测序和生信分析后,WfG在3分钟内即完成每例患者的临床解读。
* 本文为「智周」系列报告「核心版」,相应「深度版」的推出计划将在后续公布,敬请大家关注。针对「基因检测中人工智能技术应用现状及趋势展望」这一主题,有哪些方向或主题,你希望在报告深度版中读到详细的阐述与分析,欢迎大家留言,这将是我们制作报告深度版的重要参考。
机器之心「智周」人工智能技术应用报告系列着重关注现有人工智能技术应用较成熟且应用潜力较大的正在进行智慧升级的传统行业及场景,逐行业、逐场景为产业用户高效而不失深度地呈现不同人工智能技术的产业落地现状、企业案例、技术应用趋势等。「智周」人工智能技术应用报告系列包含核心版及深度版两个版本:
核心版浓缩精华分析内容至2页内,覆盖重要数据、分析结论及案例简述,以供使用者高效系统地了解人工智能技术在自身所关注产业内的潜在机会。
深度版在核心版的基础上,包含详尽的行业或场景痛点分析、技术解读、落地案例详解及资料附录等,以供有深度研究需求的使用者进行深入探究。
机器之心Pro 是基于「机器之心团队构建的百万级规模人工智能知识图谱及结构化数据库」搭建的AI领域专业信息平台。
目前已上线六个模块:Dashboard、新闻数据库、行业数据库、人工智能知识库、深度精选和智周分析new,覆盖 40 个技术领域及 56 个智能应用领域。
原标题:《破译病毒基因,AI抗击疫情立下战功,更有望破解海量基因解读难题》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。