新政策数据现状存在的问
Posted: Sat Feb 22, 2025 6:57 am
我自己的工作也受益于新一波科学计量学。Gateway to Research (GtR) 是英国研究理事会和创新机构 Innovate UK 资助项目的开放数据集,也是我们为威尔士政府开发的创新数据仪表板 Arloesiadur的重要输入。
GtR 包含有关数万个项目和组织的详细链接信息。我们正在使用机器学习、自然语言处理和网络科学分析这些数据,以追踪研究主题和技术的出现,确定威尔士具有比较优势的领域,并发现威尔士研究人员之间新的合作机会。
下图显示了基于这些数据的初步研究主题网络。在此图表中,经常出现在同一个项目中的研究主题被拉近了距离。颜色代表每个主题所属的更广泛的科学学科。
虽然科学学科很容易被看到,但它们远非孤立。特别是,诸如“媒体设计创意”、“管理”、“过程机械工程” 等应用和实践研究主题以及环境和生命科学研究的政策应用似乎为学科之间提供了桥梁,表明这些项目除了为这些问题提供解决方案外,还通过连接学科来解决实际问题来创造价值。
信息计量学落后于科学计量学
不幸的是,我们衡量新想法(包括科学研究产生的新想法)应用的创新过程的能力并没有以同样的速度扩展和提高。哈桑·巴赫什和我在去年经合组织蓝天会议上提交的一份工作论文中阐述了创题,所以我现在只对这些问题进行粗略介绍:
目前,许多创新研究都依赖于创新调查,例如社 RCS数据 区创新调查。这些(明确地说是高质量的)调查存在样本量小、难以比较回复、缺乏有关企业合作和贸易的详细信息、无法用于识别单个企业等问题。对于寻找有关特定地点、行业和网络或单个企业的详细信息(而非部门总量或平均值)的研究人员和政策制定者来说,它们用处不大。
专利可以弥补其中的一些空白,但只有极小一部分科学和技术密集型行业的企业拥有专利。不到 1% 的英国创新调查受访者表示,专利对于保护他们的创新至关重要。
通过通常由国家统计机构维护的安全数据实验室,有关公司财务业绩的微观管理数据越来越多地被获取。不幸的是,这些数据告诉我们很多有关公司业绩的信息,但对创新却知之甚少。[2]与以前一样,它们缺乏有关业务网络的信息,而且(可以理解)是匿名的。
如何解释这些差异?
我们拥有有关科学的数据比有关创新的数据更好,原因很简单:科学活动更容易衡量,衡量的结果共享得更公开,共享的结果更容易整合以获得对科学体系更统一的看法。
让我们依次讨论一下这两件事。
1. 关于测量的难易程度:尽管很少有人认为科学是一个简单的系统(如果有疑问,请回到上面的图表),但其产出却不像创新那样多样化。
简单来说,学术研究人员撰写论文。[3]相比之下,创新涉及新产品、服务、流程、商业模式、组织方式和“软”创新(例如艺术创新),这些创新在不同行业之间存在很大差异。没有一个像Scopus这样的数据库可以供人们查找有关这些创新的信息。
引用的高可见度,即科学的货币,也使学术界比工业界更容易绘制合作和影响网络,工业界的许多(如果不是大多数的话)信息和人员流动不会留下任何书面记录,或者在许多独立或专有的数据集中留下一些痕迹,例如企业用来跟踪销售和购买情况的客户关系系统,或 LinkedIn 等专业网络。
2. 这让我们看到了推动科学计量学新浪潮的科学体系的另一个特点:开放性。科学由少数(主要是)公共和第三部门组织资助,这些组织收集了大量有关“投入”(资金、科学工作者的特点、项目描述等)的运营数据,并日益开放,以降低知识获取和再利用的门槛。论文也越来越容易在期刊付费墙之外获得。
在创新方面,情况则截然不同,政府在发布创新计划参与者的数据方面进展缓慢,而拥有宝贵创新数据的公司也没有什么动力发布这些数据。
GtR 包含有关数万个项目和组织的详细链接信息。我们正在使用机器学习、自然语言处理和网络科学分析这些数据,以追踪研究主题和技术的出现,确定威尔士具有比较优势的领域,并发现威尔士研究人员之间新的合作机会。
下图显示了基于这些数据的初步研究主题网络。在此图表中,经常出现在同一个项目中的研究主题被拉近了距离。颜色代表每个主题所属的更广泛的科学学科。
虽然科学学科很容易被看到,但它们远非孤立。特别是,诸如“媒体设计创意”、“管理”、“过程机械工程” 等应用和实践研究主题以及环境和生命科学研究的政策应用似乎为学科之间提供了桥梁,表明这些项目除了为这些问题提供解决方案外,还通过连接学科来解决实际问题来创造价值。
信息计量学落后于科学计量学
不幸的是,我们衡量新想法(包括科学研究产生的新想法)应用的创新过程的能力并没有以同样的速度扩展和提高。哈桑·巴赫什和我在去年经合组织蓝天会议上提交的一份工作论文中阐述了创题,所以我现在只对这些问题进行粗略介绍:
目前,许多创新研究都依赖于创新调查,例如社 RCS数据 区创新调查。这些(明确地说是高质量的)调查存在样本量小、难以比较回复、缺乏有关企业合作和贸易的详细信息、无法用于识别单个企业等问题。对于寻找有关特定地点、行业和网络或单个企业的详细信息(而非部门总量或平均值)的研究人员和政策制定者来说,它们用处不大。
专利可以弥补其中的一些空白,但只有极小一部分科学和技术密集型行业的企业拥有专利。不到 1% 的英国创新调查受访者表示,专利对于保护他们的创新至关重要。
通过通常由国家统计机构维护的安全数据实验室,有关公司财务业绩的微观管理数据越来越多地被获取。不幸的是,这些数据告诉我们很多有关公司业绩的信息,但对创新却知之甚少。[2]与以前一样,它们缺乏有关业务网络的信息,而且(可以理解)是匿名的。
如何解释这些差异?
我们拥有有关科学的数据比有关创新的数据更好,原因很简单:科学活动更容易衡量,衡量的结果共享得更公开,共享的结果更容易整合以获得对科学体系更统一的看法。
让我们依次讨论一下这两件事。
1. 关于测量的难易程度:尽管很少有人认为科学是一个简单的系统(如果有疑问,请回到上面的图表),但其产出却不像创新那样多样化。
简单来说,学术研究人员撰写论文。[3]相比之下,创新涉及新产品、服务、流程、商业模式、组织方式和“软”创新(例如艺术创新),这些创新在不同行业之间存在很大差异。没有一个像Scopus这样的数据库可以供人们查找有关这些创新的信息。
引用的高可见度,即科学的货币,也使学术界比工业界更容易绘制合作和影响网络,工业界的许多(如果不是大多数的话)信息和人员流动不会留下任何书面记录,或者在许多独立或专有的数据集中留下一些痕迹,例如企业用来跟踪销售和购买情况的客户关系系统,或 LinkedIn 等专业网络。
2. 这让我们看到了推动科学计量学新浪潮的科学体系的另一个特点:开放性。科学由少数(主要是)公共和第三部门组织资助,这些组织收集了大量有关“投入”(资金、科学工作者的特点、项目描述等)的运营数据,并日益开放,以降低知识获取和再利用的门槛。论文也越来越容易在期刊付费墙之外获得。
在创新方面,情况则截然不同,政府在发布创新计划参与者的数据方面进展缓慢,而拥有宝贵创新数据的公司也没有什么动力发布这些数据。