基于多源数据和改进链路预测的新能源汽车技术机会研究*

2024-03-02 03:08陆高潮毛荐其魏延辉
情报杂志 2024年3期
关键词:链路机会专利

刘 娜 陆高潮 毛荐其,2 魏延辉

(1.山东工商学院工商管理学院 烟台 264005;2.山东外事职业大学 乳山 264504)

0 引 言

近年来,中国顺应全球绿色低碳发展趋势,积极推进碳减排,积极谋划实现碳中和。在通往低碳和无碳的道路上,以新能源汽车为代表的绿色低碳技术的突破被寄予厚望。新能源汽车发展已经成为世界各国应对能源短缺和环境问题的战略重点,也是我国汽车产业发展的必由之路。目前,新能源汽车的发展仍面临出行里程焦虑、充电基础设施不足、充电时间管理困难等问题,新能源汽车技术的突破是解决新能源汽车问题的关键。在绿色低碳发展时代背景下,本研究旨在挖掘新能源汽车领域的技术机会,为未来新能源汽车的技术研发与商业化方向提供借鉴参考,助力新能源汽车发展。

技术机会分析是技术预测的一种,通过挖掘已有技术的发展趋势及相互作用关系,推断未来可能出现的技术形态或热点[1]。近年来,技术机会分析采用的方法主要包括专利地图、形态分析、离群专利检测、链路预测和复合型分析方法等[1, 2]。其中,链路预测突破了专利地图等分析方法的明显时滞性,通过分析已有技术网络中尚未连边的技术节点间未来潜在连边的可能性,进而识别未来技术机会[2]。现有运用链路预测方法识别技术机会的研究多基于文献或专利的单源数据或两者集成的双源数据,并且以两个节点所形成的节点对的未来连接的可能性表示技术机会,研究结果对国家的技术导向和企业的技术研发活动等提供了指导[3-5]。然而,对单源数据或简单整合的双源数据挖掘所反映的技术机会层面较为单一,难以指导具体的技术活动;以“节点对”呈现的技术机会较为宽泛,预测结果不利于揭示具体明确的技术细节信息。

本研究在考虑新能源汽车领域基础研究成果、技术的发展应用现状和市场的用户需求的基础上,搜集新能源汽车领域的论文、专利和用户评论的多源异构数据,并引入三螺旋理论模型,通过多源数据间的关联性及在技术机会分析中的交互作用完成三螺旋体链路预测结果的融合[6],以提升技术机会挖掘结果的全面性和客观性。此外,本研究对传统链路预测方法进行改进,将对“节点对”连接的预测上升到“节点链”,以提升技术机会的明确性。本研究期望丰富技术机会识别方法,为新能源汽车领域未来技术方向提供借鉴。

1 文献综述

技术机会是技术进步的可能性集合[2]。识别前沿且可行的技术机会是助力技术规划和布局的一个重要方面[7]。技术机会识别或发现是未来技术机会分析的重要内容。早期的技术机会研究主要建立在专家经验的基础上,如情景分析法、德尔菲调查法、层次分析法等方法,通过专家的主观分析对技术机会做出综合判断[8]。为了克服专家意见的主观性,学者提出了一系列客观的定量方法,通过对技术活动产生数据的搜集、挖掘和分析等从中发掘有价值的技术机会,如文本挖掘、专利分析和网络分析法等[2, 9]。不同技术交织形成的技术网络提供了技术相互依存和交互作用的全面视图。学者多基于技术网络中现有的“节点”、实际存在的“连边”,即已发生的技术关系,通过词频统计、聚类分析、关键网络指标计算以及网络可视化等识别技术机会[10, 11]。链路预测的方法挖掘技术网络中未存在连边的“节点”未来发生潜在连边的可能性,有助于突破预测的时滞性问题,而被广泛应用于各个领域的技术机会分析。

链路预测方法基于当前网络的结构、节点和边的信息,推断尚未连边的两个节点之间未来可能发生连接的可能性[12]。链路预测的算法众多,其中,基于网络结构相似性的链路预测因其计算复杂度较低并且鲁棒性较强,被广泛应用于技术领域的技术机会挖掘。结构相似性预测通过计算网络节点间的拓扑相似性作为未来连接产生的概率,相关节点相似性指标涉及CN、JC、RA等[13]。然而,现有链路预测结果多以两个节点形成的“节点对(A-B)”的形式呈现,如IPC对、主题词对。“节点对”所能代表的技术含义较为宽泛,不利用揭示具体和明确的技术细节信息。针对该问题,本研究拟改进链路预测结果“节点对”太宽泛的弊端,在“节点对”的基础上增加一个与其相连的节点,预测三个尚未连接的节点形成的“节点链(A-B-C)”的可能性,增强链路预测结果的明确性和可读性,解决预测技术机会不清晰不具体的问题。

关于数据源的选取,绝大多数学者基于单一数据源或简单集成的双源数据开展技术机会分析,少有学者对多源数据进行融合分析。基于论文数据的分析,有利于探索基础研究机会。如任海英等(2018)将链路预测的方法应用于单词级别的科学知识网络,挖掘科学研究机会[14]。Lee等(2021)将链路预测的方法应用于专利分类号共现网络,识别出实用性和有发展前景的技术机会[15]。黄璐等(2019)将链路预测方法与神经网络算法相结合,基于专利数据,识别新兴技术主题[16],虽然该方法提高了预测结果的准确程度,但未考虑市场需求对于技术机会的影响。相较于多源数据,单源数据只能从科学、技术或商业单个层面反映未来技术机会,研究维度较为单一,研究结果也是单一层面的结果。部分学者采用双源数据进行技术会聚分析。Jeong等(2021)基于商标和专利数据,综合深度链路预测及竞争情报分析,实现了商业多元化机会的分析[17];张洋等(2021)融合了专利和论文数据,并结合技术生命周期理论,提出了基于链路预测算法的技术预测改进方法[18],但链路预测结果仍以“节点对”的形式展现,且对不同数据的融合性考虑不够。还有研究直接将关于电动汽车充电桩的论文、专利、新闻及评论多源文本数据简单综合成一个数据源,借助链路预测方法挖掘潜在技术机会[19],但缺乏考虑将论文、专利、新闻及评论多源数据融合的理论支撑。

2 研究方法与过程

首先,数据采集,通过相应检索式完成论文、专利以及用户评论数据的下载和爬取,并对采集的数据进行去重等清洗工作;其次,共现网络构建,通过用户词典对多源文本数据进行关键词分词,构建关键词共现网络,基于专利IPC分类号构建IPC共现网络;再次,链路预测,通过改进的链路预测分别对论文关键词共现网络和用户评论关键词共现网络进行链路预测,借助“论文-专利-科技舆情”三螺旋模型,对多源数据链路预测结果进行融合分析,得出新能源汽车领域技术机会。关键技术与步骤如图1所示。

图1 关键技术与步骤

2.1 基于用户词典的文本分词

首先,利用KNIME软件对新能源汽车论文、专利及评论的文本数据进行删除标点、数字过滤、去除停用词、大小写转换等预处理;其次,利用Amazon Comprehend API自然语言处理服务,使用机器学习对预处理的文本进行关键词提取,并采用Sci2Tool软件且辅之以手工处理完成同近义词形式的统一,形成关键词构成的用户词典;再次,检索文本数据,若出现了用户词典中的关键词,则保存下来,否则删除,由此实现基于用户词典的文本数据分词。

2.2 改进的链路预测

为了解决传统链路预测方法以“节点对”呈现预测结果较为宽泛的局限性,本研究对链路预测进行优化,预测时在原有节点对基础上添加一个节点,预测三个尚未连接节点的形成“节点链”概率。举例来讲,extended kalman filter+brushless dc motor是以“节点对”的形式来表示技术机会,认为扩展卡尔曼滤波观测器有助于减少无刷直流电机的损耗;extended kalman filter+brushless dc motor+core losses是以节点链的形式来表示技术机会,认为通过使用扩展卡尔曼滤波器来估计电机系统的状态,从而减少无刷直流电机中铁芯的损耗。“节点对”只能揭示到直流电机层面,而“节点链”可以揭示到直流电机中的铁芯层面,揭示的技术机会更加明确。如此改进,使得链路预测所揭示的技术机会更具针对性和细节化,从而提高其在实际应用中的参考价值。

2.3 技术机会预测的三螺旋模型

王兴旺(2019)将大学-产业-政府创新三螺旋理论引入新兴技术预测领域,构建了“论文-专利-科技舆情”三螺旋理论模型,通过科技舆情、论文与专利信息之间的关联性及其在技术预测中的交互作用完成链路预测结果的融合[6]。论文倾向于基础研究,而专利更多的反映应用技术,科技舆情体现的是用户对包含相关技术的产品的需求反馈;基础研究为技术导向的应用创新提供了基石,科技舆情为技术的商业化提供了可供参考的方向[20]。因此,本研究对比分析基于科技论文数据的链路预测结果链与专利共现网络中的节点链,若只在前者出现,则视为未来的技术研发机会。在时间的即时性上,科技论文和专利的出版具有一定的滞后性,容易造成预测结果时效性不够的问题,采用即时性较强的商业评论数据进行技术预测可以作为论文和专利数据的有益补充[21]。因此,本研究对比分析基于用户评论数据的链路预测结果链与科技论文及专利共现网络中的节点链,若只出现在前者,则视为未来的技术需求机会。综上,本研究将多源数据进行融合对比分析,从技术研发机会和技术需求机会两个维度揭示了新能源汽车技术机会,结论突破传统单一维度的限制,具体如图2所示。

图2 基于论文-专利-用户评论的技术机会分析

3 实证研究

3.1 数据采集

新能源汽车用户评论信息采集,借鉴Kim(2019)对汽车评论网站的选择,选取Edmunds网站(Edmunds.com)作为评论数据的来源[21]。Edmunds拥有50多年的经验,集汽车销售和汽车资讯服务为一体,具有全球最新的汽车专家及用户的评论,涵盖了纯电动、混合动力和燃料电池等多种类型的新能源汽车。为了获得尽可能全面的评论信息,我们在爬取过程中不仅关注了所有新能源汽车品牌及其各个车型的评论数据,同时还关注了主要非新能源汽车品牌中具有新能源车型的评论信息,运用Python爬虫技术批量爬取这些网址中的新能源汽车评论信息,获取的评论信息较为全面地反映了新能源汽车用户的各个方面。对于论文数据的采集,选取Web of Science中的SCIE数据库;对于专利数据的采集,选取德温特专利数据库。借鉴李国秋等(2017)关于新能源汽车检索式[22],并进一步丰富和完善,形成最终检索式如表1所示。数据检索时间为2022年5月17日,时间跨度为全时段,最终得到10 025条评论,32 297篇论文数据,458 504项专利数据。

表1 新能源汽车领域论文和专利检索式

3.2 数据预处理

由于网络平台的开放性,采集到的评论会出现一些无效评论。无效评论主要包括以下三类:重复评论;仅有评级而无内容的评论;无用的评论信息,如顾客在评论信息中仅输入了“Great car”或者“Luxury car”等词汇,这类信息只能反映用户对新能源汽车整体的评价,却未体现用户对技术的态度或需求。对无效评论数据的清洗,首先利用Excel中的“排序和筛选”及“删除重复项”等功能,实现第一二类无效评论的清洗;其次,结合文本分词构建的新能源汽车技术词典,清洗第三类无效评论。通过Python编程实现爬虫的评论数据乱码、特殊符号等批量替换;针对SCI-E数据库中早期论文数据未形成统一规范、存在关键词缺失问题,本研究使用基于用户词典的方法补齐文献缺失的关键词;对专利文本进行去重、去停用词等预处理。运用自然语言处理的方法实现有价值关键词的提取,完成用户词典的构建,通过用户词典完成多源文本数据的分词。

3.3 验证集与预测集的构建

图3为新能源汽车专利年度分布曲线。依据该技术成熟度曲线,我们将多源数据分别划分为两个子集,将2013年之前的数据作为验证集,对2013年及以后的新能源技术机会进行预测,并用2013-2022年的数据来验证2013年之前的数据集预测结果的准确性,依次判断研究方法的可行性。在预测结果准确性高的基础上,采用2013-2022年的数据预测未来的新能源汽车技术机会。

图3 新能源汽车专利年度分布

3.4 验证集数据新能源汽车链路预测结果分析

采用COOC软件构建验证集的论文关键词共现网络和评论关键词共现网络,并通过随机抽样的方法对每项共现网络存在的连边按照9∶1比例划分训练集和测试集,计算CN、RA、Jaccard三种链路预测指标的AUC值,结果如表2所示。可知,对于验证集论文关键词共现网络和用户评论关键词共现网络,准确程度最高的链路预测指标均是RA指标,因此,我们采用RA指标进行链路预测,并通过三螺旋模型将多源链路预测结果进行对比融合,形成最终的验证集新能源汽车技术机会。

表2 验证集链路预测各指标的AUC值

具体而言,先基于论文关键词共现网络进行链路预测,并将预测的技术机会链与专利关键词共现网络和IPC共现网络中的技术链进行比对,若预测的技术机会链既不存在于专利关键词共现网络中又不存在于专IPC共现网络中,则视为技术研发机会。其次,我们使用户评论关键词共现网络进行链路预测,将预测的技术机会链与论文关键词共现网络和专利关键词及IPC共现网络分别进行比对,若预测的技术链仅出现在用户评论关键词共现网络中,则视为技术需求机会。验证集预测得到的新能源汽车技术机会如表3所示,其中,前20个基于论文数据预测到的技术研发机会,后18个是基于用户评论预测得到的技术需求机会,加粗的记录代表预测的技术机会在2013年之后的技术共现网络中出现了。在给出的38项验证集预测的技术机会中,共有33项在2013年之后的数据中出现,未出现的有5项,说明预测结果的准确度为86.4%,表面了本研究方案的可行性。

表3 验证集技术机会

3.5 预测集数据新能源汽车链路预测结果分析

在验证本研究设计方案可行性的基础上,我们使用预测集2013-2022年的数据预测未来的新能源汽车技术机会。预测集链路预测算法各指标AUC值如表4所示。我们选取RA链路预测指标对论文关键词共现网络进行链路预测,选取Jaccard链路预测指标对用户评论关键词共现网络进行链路预测,并将预测的技术链结果进行多源数据的比对分析,预测集得到的技术机会如表5所示。

表4 预测集链路预测算法各指标AUC值

表5 预测集技术机会

由表5可知,我们展示了预测集技术机会共35项,可以概括为八大方面:一是技术的交叉涌现,有些技术不仅出现在验证集技术机会中,而且出现在预测集技术机会中,说明这些技术元对新能源汽车发展尤为重要,比如动态无线充电技术等。二是新能源汽车的驱动技术,比如反向旋转活塞发动机的数字信号故障检测技术、基于扩展卡尔曼滤波器电机控制技术减少铁芯损耗、利用碳化硅材料对感应电机性能进行改进研究、混合动力技术等。三是电池技术,比如基于冲击电离模型解决甲醇燃料电池的碰撞电离问题,实现甲醇燃料电池的技术进步;通过导电聚合物、壁碳纳米管、金属氢化物等电池材料与光催化、复合阴极等相结合,实现电池技术的进步。四是制氢与车载储氢技术的结合。五是光纤传感器等各部件的建模仿真技术,比如通过建模仿真技术实现车辆整体外观、光纤传感器、软开关以及充电器等各个部件的设计。六是新能源汽车的安全性技术,比如辅助驾驶、自适应巡航与防撞技术的结合、盲点监控与制动技术的结合等。七是一些提升用户体验的智能技术,比如远程启动与无感车钥匙的结合等。八是智能充电与智能电网技术的结合,实现电网稳定与电车充电的智能一体化。

4 结论与展望

技术的演化轨迹和发展趋势是其知识基础、技术性能与技术所处环境协调演化的结果。综合考虑技术的演化发展能够更加客观的分析其技术机会。因此,本研究基于新能源汽车领域的基础研究、应用研究及商业化阶段的论文数据、专利数据与用户评论数据,通过Amazon Comprehend服务实现用户词典的构建,将多源文本数据进行分词,构建多个共现网络,采取改进的链路预测方法实现新能源技术机会的预测,采用三螺旋理论将多源数据链路预测结果进行融合,得出主要结论与启示如下所示。

当前新能源汽车领域潜在的技术机会可以归纳为:一、动态无线充电技术、磁悬浮技术与自动驾驶技术的结合实现电动汽车驾驶及充电的自动化;二、通过碳化硅材料及其他方面对驱动技术进行改进的驱动技术;三、通过碳纳米管等电池材料、光催化等对现有电池进行改进的电池技术;四、制氢与车载储氢技术等相关技术;五、对车辆整体外观、传感器等各部件进行设计的建模仿真技术;六、智能辅助驾驶与防撞技术结合的新能源汽车安全技术;七、无感车钥匙与远程启动等提升用户体验的智能技术;八、智能电网与智能充电技术的结合。我们查阅了2022年世界新能源汽车研究报告、2022年中信证券及海通证券等证券公司的财报等,本研究预测结果与这些研究报告给出的未来新能源汽车的前沿技术及重点研究领域基本一致,该结果进一步验证了本研究设计方法的有效性。未来新能源汽车技术不断向安全、高效、低碳、智能的方向迈进。

本研究为技术机会预测提供了一种新的思路与方法。在模型构建层面,针对论文和专利数据对于技术链路机会预测研究存在时滞性的局限,将用户评论数据融入论文和专利数据,构建了“论文—专利—科技舆情”三螺旋模型,克服了论文和专利数据进行技术机会挖掘的局限,拓展了研究思路,扩大了信息利用范围。此外,在链路预测方面,以节点链的形式展现预测结果,使得预测结果更加丰富、细化。未来研究可以从以下两方面进行深入探索:第一,在考虑技术机会的基础上,进一步融合概率模型,计算出未来技术机会涌现的概率;第二,基于多源论文—专利—科技舆情数据构建的多层次创新网络,融合多个指标进行新能源汽车技术机会预测。

猜你喜欢
链路机会专利
家纺“全链路”升级
专利
天空地一体化网络多中继链路自适应调度技术
给进步一个机会
发明与专利
最后的机会
给彼此多一次相爱的机会
没机会下手
基于3G的VPDN技术在高速公路备份链路中的应用
高速光纤链路通信HSSL的设计与实现