基于标准和专利数据的企业技术研发方向识别研究*

2024-03-02 03:08冯家琪王海燕吴菲菲黄鲁成
情报杂志 2024年3期
关键词:空白点远程专利

冯家琪 王海燕 吴菲菲 黄鲁成

(1.中国科学技术信息研究所 北京 100038 ;2.北京工业大学经济与管理学院 北京 100124)

0 引 言

数字化和信息化浪潮推动了社会经济的快速发展,给企业产品和服务的更迭带来更大的挑战。2011—2022年的《全球创新指数报告》显示,中国企业技术研发支出占GDP比重的排名由第35位上升至第13位,单位国内生产总值的本国人专利申请数量也上升至第1位,这表明技术研发对于技术创新有重要的促进作用。技术创新对国家经济增长、产业升级与企业发展所产生的影响越来远大,企业必须持续不断进行技术创新,才能更好实现自身发展,应对不断变化的市场环境。信息技术、数据科学、人工智能的快速发展,为企业技术研发搭建了新平台,也使多源异构数据应用于技术研发问题分析成为可能,客观上也提出了如何更好地利用多源数据进行分析的新要求。企业如何依据产业发展特征,识别出具有前沿性和创新性的研发方向,实现高速度高质量发展,是摆在决策者面前亟待解决的问题。技术标准化可以提高技术创新的效率,加速科技成果转化速度和质量。企业作为创新主体,需要不断提升竞争力,而主导和参与标准的制定是企业增强影响力的重要途径,将技术研发方向与技术标准化有机关联,可以使企业研发决策更具针对性。

随着企业技术的不断成熟,市场供给和需求也逐渐增加[1],产品逐渐从单一低质向多样优质发展,企业间的市场竞争日益加剧,建立在标准必要专利基础上的企业技术标准出现并不断更新,企业研发处于从技术到应用的演化阶段,参与到标准的制定中,把握技术发展方向话语权,成为企业研发的主要目标[2]。标准是对已有技术的总结和提炼[3],建立在已经应用广泛的技术上[4],通过引导市场发展来指引研发活动的方向[5]。标准作为引导和规范企业发展的依据[6],不仅是重要的行动指南,也是关键性的创新成果,特别是在技术快速发展的时代,企业竞争已经表现为标准的竞争,标准创新决定着企业未来发展方向和态势[7]。同时标准数据可以大大降低统计误差性和时间滞后性,因此适用于企业研发方向的识别研究。目前针对标准文本信息挖掘的研究成果较为丰富,明确了企业的技术机会和方向,但是忽略了标准的数量、迭代周期阶段以及技术范围等重要非文本信息。标准具有严格完整的制定体系,每一项标准都需要经过委员会共识和ISO成员国严格审查。标准存在现行、即将实施、被替代和已作废等不同状态,每一种状态的标准代表不同的技术变革,综上对标准非文本信息的挖掘对于研发方向识别也很重要[8]。本文在现有研究基础上,利用标准和专利之间的潜在关联关系,集成标准文本信息及非文本信息识别企业研发方向,提高了研发方向识别的准确性和可靠性。

1 研究综述

研发方向识别是研发各方为解决技术创新问题而确定的共同努力的方向,与企业自身利益和发展前景密切相关。高质量的技术研发工作对于提升企业竞争力、 维护国家产业技术安全具有重要意义[9]。目前关于企业技术研发方向识别的研究主要有将文献识别出的前沿问题作为企业技术研发方向[10],通过预测和识别新兴技术判断企业技术研发方向[11],以专利技术空白点表征的技术机会作为企业技术研发方向[12],从技术融合视角分析未来技术发展趋势预测企业技术研发方向[13]。基于文献数据的研发方向识别重点关注现阶段基础科学研究内容,有助于企业现有技术方向的布局,但不能明确企业未来发展方向;目前新兴技术识别的研究多数采用的是单一类型的论文数据或者专利数据,单一数据源往往会影响新兴技术识别的准确性和科学性,进而影响研发方向识别结果;基于专利数据的研发方向识别明确了企业技术发展水平和技术改善方向,但是专利数据存在一定的滞后性,忽略了具体产品市场发展的需求特点,对产品质量水平的提升会产生一定影响;从技术融合视角分析技术发展趋势的研究主要是从引文网络层面、专利指标层面或利用专利共性信息进行技术融合分析,覆盖的技术领域比较受限,研究方法较为传统。

技术标准是一种重要的知识产权和竞争战略,目前已有很多学者对标准的重要性进行了分析[14]。关于技术标准视角下研发方向识别的相关研究大致可以分为两类:一类是以标准必要专利为契机分析技术标准对于研发方向识别的重要性,将专利纳入技术标准对于技术发展和转化有积极的促进作用[15],同时有研究发现技术标准合作已经成为新一轮国际合作的主要类型之一,反映出技术标准在国际交往间的重要作用[16]。另一类是以技术标准为研究对象定性分析企业未来的研发走向,解决标准空白的预判问题可以更好的将技术标准融入企业研发战略的制定过程中[17],随着技术标准对技术创新的推动力越来越大,企业间竞争的核心逐渐转向技术标准的竞争[2]。技术创新对于企业形成市场竞争新优势,增强发展的长期动力具有战略性意义。技术标准化可以提高技术创新的效率,加速科技成果的扩散,将技术创新与技术标准化有效结合,是对企业发展战略的优化和扩展[18]。关于技术标准化的研究主要集中在以下几个方面:a.研究技术标准化进程[19],涉及与标准制定相关的体系制度和法律问题;b.研究技术标准化在创新技术转化中的作用[4],重点关注技术标准化对企业生产经营过程的影响;c.研究技术标准化对创新绩效的影响[7],认为技术标准化可以正向影响企业创新绩效;d.以技术标准为导向识别企业研发方向[2],主要是利用标准文本信息进行研究。

专利数据可以明确企业微观技术改善方向,但是专利主要代表研发初期的研究成果,哪些技术可以用于特定领域形成新的产品和服务,单独从专利本身无法得到解读,专利成果转化问题也得不到解决。标准数据可以在很大程度上降低误差性和滞后性的影响,有利于技术标准化这一关键研发目标的实现,对于标准空白点的进一步分析可以获取标准版本的更新内容,明确企业未来的发展方向。专利与技术标准间存在长期稳定的动态均衡关系,专利是技术标准的技术基础,专利被纳入标准会被更为广泛的使用[18]。基于标准和专利数据的企业技术研发方向识别,可以对企业当前技术发展水平和未来研发方向进行更好的研判,为企业获取市场先发优势和竞争优势提供支撑。现有研究更多关注技术标准对于技术创新和研发的影响,为企业发展和进行技术创新提供了很好的指导作用。但是标准本身就是关键性的创新成果,标准文本信息及非文本信息都包含重要价值信息,需要深入挖掘才能全面研究技术标准化。为此,本文提出一种利用标准和专利数据对研发方向进行筛选,集成标准文本信息及非文本信息解决企业技术研发方向识别问题的新方法。

2 研究方法和框架

依靠标准和专利数据的研发方向识别研究,既要发挥企业的技术优势,将技术转化成产品的能力考虑在内,实现技术标准化,也要面向多应用场景分析,为企业未来发展布局。首先以某产业标准和专利数据为数据来源,利用文本挖掘算法与GTM模型挖掘文本信息,绘制标准和专利地图,通过逆映射完成标准空白点的解读,实现技术空白点的初步识别;其次运用链路预测模型常用相似性指标对空白点进一步筛选,得到潜在技术机会;最后利用标准非文本信息构建关键词创新性评价模型分析每个空白点的创新性和影响程度,从而确定研发方向。通过链路预测模型相似性指标和关键词创新性评价模型改善了以往简单运用余弦相似度分析相似性和主观判断空白点价值的方式,增强了空白点判别的可靠性,从而可以有效识别研发方向。研究框架如图1所示。

图1 基于标准和专利数据的企业技术研发方向识别研究框架图

2.1 基于标准文本信息的技术空白点分析

GTM模型可以将识别出的空白点反向映射到实际数据中,从而实现对空白点的解释[20]。在识别效果和实现效率上都具有优势,克服了主成分分析法(PCA)和自组织神经网络方法(SOM)主观解释地图的限制。具体分析步骤如下:

第1步,数据收集与预处理。构建检索表达式在ISO国际标准数据库和Derwent数据库中检索相关标准和专利信息,将每条标准和专利的标题与摘要合并为一个字段,删除空值,将经过预处理的标准和专利文本作为研究数据集。

第2步,标准和专利文本词篇矩阵构建。标准和专利文本关键词提取采用TF-IDF方法进行预处理,使用LDA主题模型进行技术主题聚类,两种方法相结合可以对文本内容进行更深入的挖掘,进一步提高关键词对标准和专利文档的概括精确度。在筛选出最具解释性和技术性的关键词之后,通过VSM模型[21]构建关键词向量,得到关键词-标准和关键词-专利两个词篇矩阵,并进一步将文本关键词转化成以二进制表示的矢量矩阵。

第3步,标准和专利地图绘制。标准和专利地图的绘制采用GTM模型,以往研究表明后验众数投影的空白点识别更加清晰。因此,对于标准和专利的可视化,选择后验众数投影来实现。

第4步,技术空白点识别。通过逆映射找到空白点及对应关键词的概率表示,并转换为二进制值形式。由于技术标准是针对具有普遍性和重复性的关键技术问题制定的最佳解决方案,是成熟技术、兼容技术、通用技术,是技术成果的规范化和标准化[22],并且在标准内容迭代中,前一个标准文本的空白点可能成为下一个新标准内容的补充版本,因此对标准空白点所表征技术空白点的挖掘成为本文的研究重点。

2.2 基于标准空白点和专利数据的潜在技术机会识别

链路预测是通过已知节点及网络结构信息预测未连接节点关联的可能性[23]。Byungun Yoon[24]等人提出可以通过关键词向量建立技术空白点和现有技术之间的链接关系,并利用专利数据进行了验证。鉴于之前相关研究在进行标准与专利映射时,仅考虑了词频,未考虑二者之间潜在关联,本文基于 Byungun Yoon 的研究成果,将链路预测用在由标准和专利组成的二模网络中。为了更好量化标准与专利之间主题的相似度,选取链路预测常用相似性指标进行测度,可以更精确地进行标准与专利的匹配。具体分析步骤如下:

第1步,关联网络建立。将标准空白点及所有专利点都还原成关键词向量表示的形式,现有专利作为技术基础且与技术机会紧密关联,因此以现有专利为桥梁建立标准空白点与专利点之间的对应关系。当标准空白点与现有专利点存在公共关键词时,即认为标准空白点与现有专利点之间存在链接,为邻居关系。

第2步,相似性指标构建。选取链路预测常用的两个相似性指标共同邻居(CN)[25]和Jaccard系数[26]。根据本文研究问题添加余弦相似度(CS)、公共关键词权重(PK)两个指标。使用余弦相似度[27]来测度标准和专利主题的相似度,计算公式如(1)所示。标准和专利的链接关系是通过关键词向量构建的,因此关键词对于研究结果具有重要影响作用,本文选用TF-IDF方法为关键词赋权。

(1)

其中,PW,SW分别表示专利与标准文本的词频向量,n表示文本的数量。

第3步,潜在技术机会识别。使用熵权法对各指标赋权,通过加权相似度算法计算匹配得分,即可得到标准空白点与专利点之间存在关联的可能性,将最有可能链接的标准空白点与专利点的链接视为潜在技术机会。

2.3 基于标准非文本信息的关键词创新性评价模型构建

由于标准的数量、发展阶段、价格等非文本数据也包含重要信息,同时研发需要以创新为中心,也为创新提供支持[28],因此本文构建了基于标准综合信息的技术关键词创新性评价模型,通过潜在技术机会包含的技术关键词创新值之和表征空白点的创新性,将具有高创新性的空白点所代表的潜在技术机会确定为研发方向。本文基于吴菲菲等的研究成果[14],从创新影响力范围和创造成果新颖性程度两个角度构建关键词创新性评价模型,各指标含义和测量方式见表1。

表1 关键词创新性评价指标

2.4 基于标准文本信息及非文本信息的研发方向识别

为了更加客观准确地评价不同关键词的影响作用,本文使用变异系数法对各关键词的创新性进行综合评价。变异系数法可以综合分析各项指标所包含的所有信息,消除测量尺度和量纲的影响[29]。在得到每个技术关键词的创新性综合评价值之后,通过计算潜在技术机会创新性综合评价值之和得到各标准空白点的创新性,将具有高创新性的标准空白点表征的技术机会确定为企业的技术研发方向。

3 实证研究

3.1 研究对象选取

远程医疗使得医疗资源得以最大限度地共享和利用,在很大程度上改善了患病人群的生活质量和健康程度。新冠疫情给医疗秩序的稳定和患者就医保障带来严峻考验,远程医疗的开展,有利于提高医疗资源可及性,带来更高效的医疗服务[30]。远程医疗技术的发展相对成熟,并且已经形成了很多相应的技术标准。本文以远程医疗产业的标准和专利数据为样本进行研究。ISO是世界上最大的非政府性标准化专门机构,所发布的国际标准更具有代表性和研究价值,以ICS3=35.240.80为检索条件在ISO国际标准数据库中检索标准文本;Derwent囊括了不同国家专利局的专利数据,包含的技术范围更加广泛,潜在技术机会识别使用的专利信息在Derwent上检索。对检索到的数据进行初步清洗,最终得到标准文本273篇,专利文本911篇。

3.2 远程医疗产业技术空白点分析

因为标准和专利的标题和摘要文本中都包含大量的技术关键词信息,而且不存在明显的语义关系,具有较高的研究价值,因此本文选用关键词来表征文本所包含的信息。首先,对标准和专利文本进行预处理;其次,利用TF-IDF初步提取标准和专利文本的关键词,从每篇文本中检索出15个关键词。最后,将所有关键词作为输入端,基于LDA模型进行主题聚类,得到30个基数词作为最终关键词。清洗后的远程医疗产业标准和专利文本的技术主题分布情况如表2所示。

表2 远程医疗产业主题-关键词分布

根据关键词分布情况,将标准和专利文本转换成以二进制形式表示的关键词向量,最终的关键词向量如表3所示,矩阵中 1表示标准和专利文本中包含该关键词,0表示不包含。

表3 远程医疗产业标准和专利关键词向量

将标准和专利的关键词向量作为输入端,由于标准和专利的原始数据量存在较大差异,因此二者的GTM模型应设置不同的参数。标准数据设置81个径向高斯基函数,每个基函数的数据中心位于一个8*8的正则网格点上;专利数据设置 100个径向高斯基函数,每个基函数的数据中心位于一个10*10的正则网格点上。通过上述参数设置可制作标准与专利地图,如图2所示。

图2 标准地图(左)和专利地图(右)

图2中“★”代表标准和专利空白区域,由图可知,标准地图中共存在20个空白点,通过GTM逆向映射将20个标准空白点逆向映射到数据空间,还原成关键词向量,完成对标准空白点的解读。

3.3 远程医疗产业研发方向识别

GTM模型将标准和专利关键词映射于各自地图上,逆映射过程如图3所示。

图3 标准(专利)空白点逆向映射过程

潜在技术机会的识别通过建立标准空白点与专利的映射来实现, 如图4所示。各标准空白点(与各专利点)的关联关系预测结果如表4所示。

表4 各标准空白点预测结果

图4 标准与地图映射图

通过阈值设定选取匹配值大于20的标准空白点所代表的技术机会作为潜在技术机会,即标准空白点3、标准空白点4、标准空白点2、标准空白点1、标准空白点6、标准空白点7、标准空白点15、标准空白点16、标准空白点12。

通过构建的关键词创新性评价指标体系,综合创新活力、创新质量和创新规模确定30个关键词的创新性评价值,通过各个标准空白点包含的关键词创新值之和表征其创新性,最终9个标准空白点的综合评价结果如表5所示。

表5 标准空白点的综合评价结果

从表5中选取综合评价值远高于其他点的标准空白点所表示的技术主题作为远程医疗产业内企业的技术研发方向,通过对空白点解读和对领域知识的研究,最终确定的研发方向为:K3基于计算机网络平台的电子健康记录和在线咨询技术;K12基于5G和健康关怀技术的远程医疗护理技术。

普华永道全球医疗研究院发布的医疗行业热门趋势报告中指出,诊断、治疗、监测设备在医院住院管理系统中自动记录患者就医数据可以大大提升医院运营管理效率,数字化和互联网医疗被列为国家战略,应该将基于健康关怀技术的虚拟护理纳入整体策略,向患者、医疗机构、医生等提供有价值的信息;健康界研究院在2022年关于中国远程医疗发展的报告中指出,远程会诊、远程影像、远程监测等成为5G技术与远程医疗融合发展的典型应用场景,应加强5G技术、物联网等相关技术的成熟和融合应用;CB INSIGHTS在《2022年远程医疗状况报告》中强调应该加强对远程监测、远程医疗护理、远程辅导和咨询等的建设和管理。这些研究报告的内容有力的支撑了本文远程医疗产业内企业技术研发方向识别的结果,也很好的验证了研究方法的可行性和研究结果的可靠性。

4 结论与建议

本文从技术标准化视角出发,以标准和专利数据作为研究数据源,充分挖掘专利的文本信息、标准的文本和非文本信息,运用GTM模型绘制标准地图和专利地图识别技术空白点,通过链路预测模型识别潜在技术机会,构建关键词创新性评价模型对潜在技术机会进行综合评价,将综合评价值较高的技术机会确定为研发方向,以远程医疗产业为例进行实证研究,并与国际知名行业报告研究内容进行匹配分析,验证了本文所提出方法的可行性,得到的建设性结论与建议如下:

a.综合运用标准和专利数据可以更好的解决技术集成转化的关键问题。专利文本中包含了大量技术信息,有助于对产业整体技术布局的了解;标准信息中可以提取出关键性的创新成果,有助于科技成果转化和技术标准化。充分挖掘标准和专利信息,可以更好的完成技术集成转化,使得技术多样性逐渐标准化,帮助企业提前布局研发活动的方向,以便在激烈的市场竞争中获得有利地位。

b.集成标准文本信息及非文本信息可以进一步提升研发方向识别的效益,同时可以为产业整体创新发展和相关技术布局提供参考。技术标准是国家技术先进性竞争和标准话语权的有效筹码,应该积极关注和影响数字经济相关的技术标准,对技术标准所包含的重要信息进行充分的研究和挖掘。针对标准文本信息的挖掘明确了企业的技术机会和方向,充分发挥了企业的技术优势,将技术转化成产品的能力考虑在内;标准本身就是重要的技术指南,标准非文本信息也包含重要价值信息,可以用于创新性的测度,实现面向多应用场景的分析,可以很好的为企业未来发展布局。需要综合与集成挖掘才能全面研究技术标准化。

c.新冠疫情的持续冲击和日趋严重的人口老龄化问题使得远程医疗技术需不断发展和完善。通过预测远程医疗产业内企业的技术研发方向,将5G技术、物联网技术等与远程医疗融合应用,进一步推动远程医疗护理、远程会诊、远程影像等应用方向的成熟,可以大幅度降低患者的就医成本,改善患者的生活质量和健康程度,也可以最大限度地共享和利用医疗资源,大大提升医院运营管理效率。

d.我国经济发展步入新时代,经济增长正在经历从高速增长向高质量发展的转型,企业的技术需求和研发策略都与产业发展的阶段存在关联。未来可结合产业生命周期不同阶段的不同特征针对性选择数据源和研究方法,研究结果会更加具体和适用。本研究也为产业内企业寻找合适的研发合作伙伴进行合作研发奠定了基础。

猜你喜欢
空白点远程专利
让人胆寒的“远程杀手”:弹道导弹
专利
远程工作狂综合征
发明与专利
远程诈骗
挖掘文本“空白点”培养学生“想象力”
紧抓三大支点,提升文本解读的实效性
紧扣空白点,深入理解文本
作文起步
专利