提速近10倍!基于深度学习的全基因组选择新方法来了******
近日,中国农业科学院作物科学研究所、三亚南繁研究院大数据智能设计育种创新团队联合多家单位提出利用植物海量多组学数据进行全基因组预测的深度学习方法, 可以实现育种大数据的高效整合与利用,将助力深度学习在全基因组选择中的应用,为智能设计育种及平台构建提供有效工具。相关研究成果发表在《分子植物(Molecular Plant)》上。
全基因组选择作为新一代育种技术,通过构建预测模型,根据基因组估计育种值进行早期个体的预测和选择,从而缩短育种世代间隔,加快育种进程,节约成本,推动现代育种向精准化和高效化方向发展。
统计模型作为全基因组选择的核心,极大地影响了全基因组预测的准确度和效率。传统预测方法基于线性回归模型,难以捕捉基因型和表型间的复杂关系。
相较于传统模型,非线性模型(如深度网络神经)具备分析复杂非加性效应的能力,人工智能和深度学习算法为解决大数据分析和高性能并行运算等难题提供了新的契机,深度学习算法的优化将会提高全基因组选择的预测能力。
该研究团队以玉米、小麦和番茄3种作物的4种不同维度的群体数据为测试材料,通过创新深度学习算法框架开发了全基因组选择新方法。
与其他五种主流预测方法相比,该方法有以下优点: 可以利用多组学数据开展全基因组预测;算法设计中包含批归一化层、回调函数和校正线性激活函数等结构,可以有效降低模型错误率,提高运行速度;预测精度稳健,在小型数据集上的表现与目前主流预测模型相当,在大规模数据集上预测优势更加明显;计算时间与传统方法相近,比已有深度学习方法提速近10倍;超参数调整对用户更加友好。
该研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室和中国农业科学院科技创新工程等项目的支持。
学术支持
中国农业科学院作物科学研究所
记者
宋雅娟
【光明论坛】激活数据潜能 建设数字中国******
【光明论坛】
作者:支振锋(中国社会科学院习近平新时代中国特色社会主义思想研究中心研究员、法学研究所研究员)
数据作为新型生产要素和资源形态,日益成为驱动经济社会发展的基础。近日,中共中央、国务院出台《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”),围绕如何建立和健全关于数据要素基础制度体系提出了全面系统的意见,为做好数据权益配置和风险防控提供了明确的政策指引,也为激活数据潜能和促进数字经济发展作出了有力的制度安排。
数据是映射大千世界的符码,数据中自有大千世界。宇宙星空、山川河流、鸟兽虫鱼、人类行为、国家治理、社会百态……万物皆产生数据,万物皆可被数据化。自人类社会产生起,数据就承载着人类对自然万物、生产生活的记录和表达。从传统数据到网络数据,从“小数据”到“大数据”,数据日益成为理解万事万物最微观、最奇妙的元素。在信息化发展新阶段,数据爆发增长、海量集聚,量的累积逐渐引发质的飞跃。万物互联、人机交互、天地一体的网络空间内,大数据技术使数量巨大、来源分散的图像、声音、文件等非结构化数据得以被广泛搜集、存储、利用,使分析、预测、捕捉隐藏在自然万物和人类社会的深层逻辑成为可能,人类认知的敏锐性和洞察力得到极大提升。
数据基础制度建设事关国家发展和安全大局。数据原是伴随自然与人类而产生的寻常事物,但数字技术为其赋予了无尽潜能。作为新型生产要素,数据已成为数字化、网络化、智能化的基础性资源,并快速融入生产、分配、流通、消费和社会服务管理等各环节。通过数据,可以更好地理解自然和社会的运行规律,推动生产力发展,优化生产关系,丰富人类生活,促进国家和社会治理。但数据并非自在之物,而是人类协作与互动的结果。数据不仅承载着个人、市场主体与国家的大量信息,关系到公民个体人格权益、市场主体财产权益以及国家安全和社会公共利益;还呈现出不同于传统知识产权的全新特点。如何既鼓励数据的充分流通利用,又通过制度设计进行科学合理的权益配置和风险防控,就成为信息时代制度创新的重大课题。
数据相关权益配置,是数据基础制度的基础。作为世界第二数据大国,我国深刻认识到大数据作为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径所具有的战略意义。2021年公布实施的《数据安全法》明确提出“保障数据安全,促进数据开发利用”。但数据流通利用除供需双方外,还涉及协助数据产品开发的第三方服务商,情形复杂、链条悠长、风险突出。为推进数据合法合规交易,我国多年来一直在探索数据交易所建设。在此背景下,此次意见提出探索数据资源持有权、数据加工使用权、数据产品经营权等结构性分置的产权运行机制,推进实施公共数据确权授权机制,推动建立企业数据确权授权机制,是对数据相关权益合理配置这个世界性难题的创新性开拓。
促进数据流通和交易是数据基础制度的核心。数据交易是新业态,也带来新问题。由于数据的无形性和可复制性,除了不易计量、难于定价且合规评估复杂外,交易一旦达成,无论是买方发现“货不对版”,还是卖方认为数据已被使用,都“无法退货”。如何确保数据需求方接收到的数据来源合法合规,数据提供方交易后的权利得到充分保障,决定着数据制度体系的成败。此次意见尝试构建促进使用和流通、场内场外相结合的交易制度体系,规范引导场外交易,培育壮大场内交易,试图建立数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可信流通体系,必将推动鼓励数据流通利用的制度创新。
数据要素收益分配制度是数据基础制度的重点。作为新型生产要素和资源形态,数据要素不断创造新的价值,也不断产生利益纷争。针对数据收益分配问题,此次意见既坚持充分发挥市场在资源配置中的决定性作用,按照“谁投入、谁贡献、谁受益”原则,健全数据要素由市场评价贡献、按贡献决定报酬机制,强化基于数据价值创造和价值实现的激励导向,平衡兼顾数据内容采集、加工、流通、应用等不同环节相关主体之间的利益分配;也努力做到有为政府和有效市场相结合,强调完善数据要素收益的再分配调节机制,让全体人民更好共享数字经济发展成果。
党的二十大报告提出加快建设网络强国、数字中国,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。“数据二十条”的出台和落地实施,有利于从历史和全局维度深刻认识数据要素的战略价值,充分发挥我国海量数据规模和丰富应用场景优势,推进数字产业化和产业数字化,推动实体经济和数字经济融合发展,增强经济发展新动能,塑造人类文明新形态。
《光明日报》( 2023年01月04日 02版)
(文图:赵筱尘 巫邓炎)