2025年4月2日,美国国立卫生研究院(NIH)主任办公室(OD)在网站上发布一份《实施更新:增强NIH受控访问数据的安全措施》声明文件,称自2025年4月4日起,NIH将禁止位于中国、俄罗斯、伊朗等受关注国家的机构访问NIH受控访问数据存储库和相关数据,涉及dbGaP(基因型与表型数据库)、AnVIL云平台、SEER(癌症监测数据库)数据库和NCBI基因组数据共享平台等。消息一出,引发国内外科研界的热烈关注和讨论。本文在对该事件进行深入分析的基础上,结合我国当前科学数据工作的主要问题,讨论其对我国科学数据管理和共享工作可能产生的影响,并提出意见和建议。
1. 本次NIH数据访问限制政策的深入分析
本次申明提到两个依据文件,一个是2024年2月28日发布的第14117条行政命令(Preventing Access to Americans' Bulk Sensitive Personal Data and United States Government-Related Data by Countries of Concern,防止受关注国家访问美国人的批量敏感个人数据和美国政府相关数据,简称EO 14117)。另外一个是2025年1月8日才更新完成的28 CFR Part 202(Preventing Access to U.S. Sensitive Personal Data and Government-Related Data by Countries of Concern or Covered Persons,防止相关国家/地区或所涵盖人员访问美国敏感个人数据和政府相关数据)。第一个文件只是对数据类型和行为进行了界定,第二个文件则明确指定了关注国家(Country of Concern)清单,具体包括中国(包括香港和澳门)、古巴、伊朗、朝鲜、俄罗斯和委内瑞拉等6个国家。关注国家的认定原则和依据是:长期存在或存在严重行为,对美国国家安全或美国公民的安全构成严重危害,并且存在利用政府相关数据或大量美国敏感个人数据,损害美国国家安全或美国公民安全的巨大风险。
要看到的是,本次声明有一定的范围界定,并不是所有的科学数据,主要聚焦的是“敏感个人数据”。该词适用《外国情报监视法》第203(b)(1)和(b)(3)条的规定,是指涵盖的个人识别信息、精确地理位置数据、生物识别信息、人体组学数据、个人健康数据、个人财务数据或其任何组合,具体内容如下表所示。
表1 “敏感个人数据”包括的数据类型和具体内容
尽管本次声明是数据从严管理和共享的原则出发的。但是,两份依据文件中却都提到在科研方面对开放合作行为的支持。如第一份文件中提到“美国继续支持跨境的数据流动开放、全球、互操作、可靠且安全,以及维持美国与其他国家之间重要的消费者、经济、科学和贸易关系”,第二份文件中也提到“美国支持开放科学数据和样本共享,以通过国际合作与合作加速研究和开发”。可见,美国这次事件并不是完全的“一刀切”,也为国际科技合作留出了空间。但是前提是“保护美国人的敏感个人健康数据和人类基因组数据免受威胁”,并在积极“承诺增加公众获取纳税人资助科学研究成果的机会,促进电子健康信息的共享和互操作性,以及患者对其数据的访问”。
2. 我国科学数据的问题分析
我国对科学数据工作非常重视,在2018年出台了国家层面的《科学数据管理办法》,提出了“开放为常态、不开放为例外”的基本原则。在专业数据的管理和保护方面,也出台了《中华人民共和国人类遗传资源管理条例》(2019年)、《中华人民共和国生物安全法》(2020年)和《中华人民共和国个人信息保护法》(2021年)等一系列的法律法规。但是,我国科学数据工作仍然存在诸多不足。
(1)科学数据资源本底状况不清楚,缺乏国家顶层设计和协调框架。
我国虽然在科技部和财政部的支持下,建成了以20个国家科学数据中心和31个国家资源库为重要基础的科技资源共享平台。但是还有很多数据零散地分布在各个部委、科研机构、高校、企业、公益机构、期刊出版单位建立的大大小小平台中,缺乏国家层面跨部门之间的数据统筹协同交互机制。通过表1的欧盟数据门户、美国政府数据门户和中国科技资源共享网的数据共享情况可以看出,欧美可以非常清楚地从行业分类和政府部门的角度对数据进行统计和盘点,欧盟数据门户甚至将高质量数据集等特色数据产品也做了集成。而我国的科学数据和政府数据则由于缺乏国家统一汇缴和管理平台(虽然已经大部分建成了省市级平台,但仍然缺乏国家统一的数据平台),无法进行全面的统计。这对于国家数据资产的盘点、管理和调度都极为不利的。另外,从下表的数据统计来看,欧美则是社会公共领域和自然环境类的数据居多。而我国的生物、临床和人口健康数据的共享数据占比非常大,这也正是NIH数据事件的焦点,如果不加限制即可访问和使用这些数据则会有较大的风险,需要引起重视。
表2 欧洲和美国政府数据和中国科技资源数据统计表
注:欧洲数据门户(European data,网址:https://data.europa.eu/en)汇总了35个欧洲国家199个数据目录的1,874,254条数据集。美国政府数据(网址:https://data.gov/)汇总了美国政府各大部门的307,366个公共数据集。中国科技资源共享网是由国家科技基础条件平台中心主办的综合性门户网站(网址:https://www.escience.org.cn/),包括20家国家科学数据中心和31家国家生物种质与实验材料资源库,共计4,263,891个资源目录。
(2)中国科学数据外流现象非常严重,个中原因复杂多样。
除了存缴在国内各大数据平台之外,我国的科学数据还大量地流失在国外的数据平台中。从Dimensions数据库中可以检索到70.2万条中国学者发布的数据集(仅次于美国的85.3万条)。对这些数据进行不同维度的统计分析,从图1的学科分类和资助机构的热力统计图来看,具有明显的学科特征,生物、医学、临床、健康和化学领域以国内资助为主,而物理和数学领域则与美国、德国、英国和日本等国有重要的合作关系。
图1 中国学者在国际上发表科学数据的学科分类和资助基金统计表
(数据来自Dimensions数据库,2025年4月9日)
另外一个令人担忧的情况是,这些能够在国际上检索、发现和收录的科学数据相对来说都是质量比较高的数据。而从数据所在TOP 10仓储平台来看(表2),没有一家来自中国国内。尽管从表1的中国科技资源共享网的数据来看,我国实际的数据资源远不止这个情况。但是国内的数据仓储为什么被统计进来?是国内平台自己不积极主动和国际接轨?还是不知道其中的操作流程和规范?亦或是其他原因,就不得而知了。这种情况如果依然不引起重视,中国的科学数据外流现象依然会持续。
表3 中国学者发表科学数据的TOP 10数据仓储平台
(3)科学数据的开放生态系统建设依然任重道远。
科学数据相关工作包括政策、技术、软硬件、代码、标准、人才、质量控制、出版、共享重用、传播推广等方面,涉及科研人员、科研机构、学术期刊、出版社、学术组织等诸多学术共同体,是一个复杂的系统性工程。我国一方面缺乏深入系统的理论研究,未能形成类似NIST(美国国家标准和技术研究所)提出的“科学数据框架(RDaF)”的理论体系(图2)。该体系几乎涉及科学数据工作所有方方面面,是一个集大成的框架,同样也适合指导我国的科学数据研究和应用工作。但是目前来看,我国的科学数据理论研究要远远低于这个框架设计和关注的内容。

图2 NIST(美国国家标准和技术研究所)提出的“科学数据框架(RDaF)”的理论体系
另一方面是缺乏对实践问题的总结和方案应对,特别是需要不同“圈子”的跨界和融合。我国在数据开放生态系统方面存在问题具体包括:数据出版发布和文献中的数据引用并没有建立有效的机器可读关联机制,导致数据的发现、获取、重用和评估都非常困难。数据贡献没有和绩效评估和职称晋升结合起来,导致科研人员主动融入数据共享的积极性并不高。科技期刊缺乏对数据汇缴和共享的引导和投稿政策要求,导致科学数据不能顺利汇缴或者白白流失到国外。缺乏专业和多维度的标引,导致不能很好地作为专业“语料库”服务于各类人工智能或大语言模型的应用场景。缺乏对数据的组织和深加工,不能为开放科学、数字公共产品和联合国可持续发展目标(SDGs)等国际行动计划提供有力支撑。敏感数据(如基因、地理信息)的脱敏技术和分级分类保护机制尚不完善或者不明确或者怕担责任,导致有的数据直接就不对外共享。缺乏有效的全局性DMP(数据管理计划)设计和执行,导致管理工作顾此失彼。“科学数据圈”和“开源软件圈”、“教育课程圈”、“论文出版圈”等圈子没有很好地形成良好的互补和互动。
(4)中国科学数据总体上缺乏国际话语权,缺乏具有国际影响力的专业数据平台和数据期刊。
在两个国际知名的数据仓储编目系统中,re3data上中国数据平台有86家(占比2.56%),FAIRSharing收录中国的数据平台有130家(占比5.58%)。这些数据其实并不是中国的实际数据仓储情况。造成这种情况主要包括:一是没有加入相关国际组织,导致在国际数据标准制定和重要数据库的建设发展中参与度有限。二是虽然加入了国际组织,但是由于个人或者组织机构的原因,没有明确的工作规划和要求,导致没有发挥相应的国际带动作用。三是可能压根就不知道有哪些国际组织可以发挥作用,需要有人指导或者带领进入,熟悉相关流程和规则。如在上述数据仓储编目系统中,国内很多数据平台缺乏国际合作意识,并没有主动去录入、维护和宣传,导致国内数据平台不为国际所知。目前,国家也缺乏相关政策引导、鼓励和支持科研人员在国际组织中积极发挥作用。在国际组织中地位或话语权的缺失弱化,也会进一步削弱中国在区域事务中(亚洲或者一带一路地区)的影响力。
3. 对我国科学数据工作的影响
(1)最直接影响是科学数据获取受限,合作项目受阻或停止。
NIH的受控数据库(如SEER、dbGaP、TCGA、ClinVar等)存储了大量人类基因组、癌症研究、罕见病等关键数据,中国科研人员将无法直接访问,影响精准医学、遗传学等领域的研究进展。如中美联合癌症研究、传染病基因组分析等依赖NIH数据的国际合作项目可能会停止。我国的数据和成果无法及时更新到这些数据库中来,影响与其他国家的科研合作。我国与不同国家的国际合作影响也可以从合作论文中得到印证。下图3是来自Web of Science核心合集数据库与中国合作最多的5个国家这20年的合作论文情况。可以看出,中美合作从2019年达到顶峰之后,就开始逐年下降。但是,中国和英国、澳大利亚、加拿大以及日本的合作情况却是在逐年增加的。这也为未来我国开展中美以外的国际合作奠定了良好基础。

图3 中国合作最多的5个国家20年来的论文统计情况(来自web of Science分析数据)
(2)研究效率下降和科研成本增加。
国内研究者或者药企需转向美国以外的其他国际数据或者本土数据库,无论哪种方式都会导致时间和经济成本的增加,同时还要考虑数据的质量和合法合规性。如国内一些医院拥有自己的小样本生物数据库,但没有一个共享的机制,再加上有数据安全风险责任和数据利益,我国迄今也没有建立诸如肿瘤生物样本的数据平台。
(3)推动本地化同类数据库的建设和发展。
尽管我国已建立国家基因库(CNGBdb)、国家基因组科学数据中心(NGDC)等平台,但数据规模、标准化程度与国际领先数据库仍有差距。我国其实有大量类似的人口健康数据,但是零散地分布在各类医院和研究机构中,缺乏统一共享机制,此次事件可能会促使政府加大力度推动该类数据共享利用。
(4)重构我国的数据共享文化和贡献机制。
此次事件表明,国际科学数据共享正受政治因素干扰,数据主权成为大国博弈和保护人种隐私的工具。我国如果长期依赖国外数据库,可能面临更广泛的“数据断供”风险。在这种背景下,我国科研人员、机构和政府都需重新评估数据存缴与共享策略和文化,激励对数据所做的各类贡献。政府要从顶层框架上,跨部门打通数据的交互流通障碍,加快构建自主可控的国家级科学数据平台,推动数据资源本地化存储与利用。
4. 对我国科学数据工作的建议
(1)加强国家层面的顶层框架设计,加速本土数据库建设与融合,提升数据自主性。
在中国科技资源共享网等现有科学数据体系的基础上,加强建立跨部门之间的数据协同机制,吸纳更多的跨部门数据资源。加强中国科学数据的国际回流计划,让更多的中国数据在本土产生、本土存缴和本土再利用,同时避免“数据孤岛”现象。积极融入国家数据局的整体设计框架中,也为数字经济、数字中国、AI4Science科研范式和“国家级人工智能训练场”等核心基础设施的建设提供有力支撑。
(2)加强战略和理论问题研究,加强政策与法律的引导和支持。
对社会主义制度下的科学数据问题进行深入的理论研究,特别是数据要素和新质生产力方面的研究。制定相关法律法规,明确数据所有权、使用权与共享规则。设立专项基金,支持数据平台建设与关键技术研发。推动建立多边区域数据共享框架,减少地缘政治对科研合作的影响。建立科研数据共享激励机制,将数据贡献纳入科研考核,打破部门与机构间的壁垒。鼓励公众参与,丰富数据来源,增加数据产品类型。
(3)推动数据标准化与共享文化,加强科学数据的开放社区建设。
制定统一的数据标准和原则,确保与国际接轨,如FAIR原则(可查找、可访问、可互操作、可重用)和CARE原则(集体利益、控制权、责任、伦理)。整合科研机构、企业、学校与公众资源,形成数据采集、存储、分析和应用的开放生态链,积极融入开放科学社区建设。加强和推动科学数据与科技文献、软件代码、大语言模型等科技资源之间的关联和交互,加强数据应用服务和影响力的评估,加强学术期刊和数据存缴平台的联动政策发布和指导,建设和完善整个社区的生态建设和生态效应。
(4)优化数据安全与合规管理,加强对人才的培养和培训。
采用区块链、加密技术等手段,保障数据安全与隐私。完善数据分级保护制度,区分公开数据与敏感数据(如人类遗传信息、精确地理位置信息等),确保安全共享。支持科研人员参与国际学术会议、合作项目和国际组织任职,提升国际视野与协作能力,传播中国的数据共享政策方案和实践案例。加强科研人员数据合规培训,适应国际数据政策变化,避免项目因合规问题受阻。
(5)加强国际合作,降低对单一数据源的依赖。
积极与欧盟、亚洲等其他国家和地区的科研机构开展合作,建立数据共享机制与科研项目合作平台,在开放中谋发展,通过多边合作降低对特定国家数据资源的依赖,推动科研工作的持续开展。推动亚洲区域及“一带一路”科学数据共享计划,引领和倡导新型国际科技合作关系和科学计划,增强全球数据治理话语权。
许哲平,中国科学院文献情报中心研究馆员。文章观点不代表主办机构立场。
◆ ◆ ◆
编辑邮箱:sciencepie@126.com