软科中国最好学科排名的局限与洞见

2024-01-31 03:53黄绍婧

高教发展与评估 2024年1期

黄绍婧，覃莉，杨曦

（1. 南宁师范大学教育科学学院，广西南宁 530001；2. 广西医科大学发展规划处，广西南宁 530021；3. 广西壮族自治区教育厅科研处，广西南宁 530022）

一、软科排名介绍

1983年《美国新闻与世界报道》发布了美国最好大学排行榜之后，大学排行榜经过几十年的发展，已经成为全球高等教育领域的重要议题。中国也涌现出一批排行榜，如软科排行榜、武书连排行榜、校友会排行榜、邱均平排行榜等，对中国高等教育产生了一定的影响。2017年，教育部等三部委发布了《统筹推进世界一流大学和一流学科建设实施办法（暂行）》，明确规定一流学科建设高校遴选条件之一是“学科水平在有影响力的第三方评价中进入前列”[1]。在“双一流”建设中引入第三方学科评估能较好地服务于评估一流学科的建设成效，但其前提应是基于对第三方学科评估自身存在局限性的充分考量。

上海软科自2003年首次发布“世界大学学术排名”以来，得到了广泛关注，澳大利亚、日本等国政府依据软科排名制定本国的高教发展目标和人才优待政策。[2]软科中国最好学科排名（以下简称“软科排名”）基于软科自主研发的学科发展水平动态监控系统，服务于高校学科建设管理部门，2017 年开始计算学科综合排名并对外公开发布在该学科排名前50%的高校。软科排名的学科口径是教育部《学位授予和人才培养学科目录》中的一级学科，排名对象是在该一级学科设有学术型研究生学位授权点的所有高校。软科排名指标体系在指标设置上采用了投入性指标和产出性指标相结合的方式，包括人才培养、科研项目、成果获奖、学术论文、学术人才5个指标类别，下设17个指标维度，利用50余项测量指标来综合评价学科的水平与实力。[3]

软科排名指标设置构建了一套排名逻辑：一是注重科研水平，强调通过客观数据反映被评学科点对本学科稀缺资源和标志性成果的占有和贡献；二是实行差异化评价，即根据不同学科的特性安排不同的评价指标，并针对不同的评价指标赋予不同的权重。有学者比较了软科排名与第四轮学科评估排名结果，发现两者评价体系虽不同，但学科排名结果至少有80%以上是相同的，因而其指标体系具有一定的科学性。[4-5]然而，软科排名并未真正实现就“教育与研究的活力进行评估的目的”[6]。在2019年以前软科排名的人才培养指标权重很低，基本上将人才培养排除在外，其本质仍是科研评价。[7]2022年软科科研指标权重是人才培养指标权重的1.75—3.4倍。

软科排名作为衡量学科水平的数据来源被应用到相关的实证研究中，如汪媛等在比较中美37 所高校图书情报学硕士研究生研究方法课程的差异时，选取2019 年软科排名图书档案与管理前26名开设有研究方法课程的高校为对象。[8]刘蕾等人在高校基层党组织力研究中利用2018年与2019年软科排名变动来构建主要学科排名提升的变量。[9]

学科排名的产生和应用需要严肃审视。现行排名的普遍做法是将各个高校在其指标体系上的得分根据一定的计算标准进行加总，然后再根据总分对高校进行数字化排序。数字化排序的精确性把高校之间微不足道的差异以等级的方式进一步放大，致使利益相关者忽略了教育质量标准的模糊性，片面追求第三方评估中的排名。[10]当本然功用（对大学进行相对评价）和附带效能（满足利益相关者知情权）两种功能不断凸显时，排名逐步完成了“知识-物品-商品”的属性转变。[11]这种基于价值交换的市场逻辑促成了一个“自我实现的预言”，即政策制定者按排名的等级对稀缺资源进行重新分配。[12]我国的“双一流”建设是一种非均衡战略视角下的重点建设政策，已建立起“国家级-省级-校级”三级一流学科建设体系，各级政府和高校对学科评价的需求日益增长，学科评价的产品和服务供给是相对不足的，这就给软科排名很大的市场空间。本研究基于地方一流学科建设成效评价实践中第三方学科评估运用的实践，探讨软科排名的局限性以及其提供的洞见，以期为地方高校一流学科建设和成效评价提供参考。

二、软科排名的局限

（一）失真的“长尾分布（幂率分布）”

迈克尔·肖德（Michael Sauder）在对著名的第三方评价——《美国新闻与世界报道》法学院排名之学科“地位系统”（status system）的重塑研究中指出，此排名通过开发对相对地位的精确测量，改变了法学院在传统上“精英-非精英”的模糊地位划分，细化了学科间差异，扩大了顶部和底部法学院之间的距离，并重新定义了何谓“好的”法学院。[13]软科排名用50余项指标的加权后加总，描绘的学科“地位系统”呈现出“马太效应”的特征，即得分点集中在了少数头部学科上（见图1，以应用经济学学科为例），这可以用“长尾分布（幂律分布）”来表示。如入选国家“世界一流学科”建设的山西大学物理学，其总分仅占物理学全国最高分的30%。究其原因，一方面是高层次人才、高水平论文、国家级成果奖项和科研项目存在指标间的重复叠加，使得高校间的差距拉大，规模大的学科倾向于得到奖励；另一方面，在学术人才、科研项目和成果获奖等核心指标上只统计第一获奖人、项目主持人、第一完成单位等，夸大了头部学科的能力。这种指标设计不利于鼓励科研合作，有研究表明我国科研人员合作网络的平均规模为2.90，远小于美国类似研究得出的平均规模（4.70）。[14]

图1 应用经济学2019年总分及2018-2019排名变化示意图（前25%）

学科总分的“长尾分布”可以用以下公式来表示：

通过对2021年软科排名各学科的总分和排名分别取log之后做线性拟合以检验幂律分布，发现决定系数R2小于0.8的学科只有5个，分别为社会学、大气科学、林业工程、网络空间安全和特种药学，说明大部分学科总分的分布是接近幂律分布的。有研究者指出，学科排名本质上是建构起一种零和博弈的地位排斥机制，体现的是处于少数的顶尖大学对大多数普通大学的学术殖民。[15]幂律分布是学科发展过程中的阶段性特征，随着高水平学科布点的增加、博士点的扩张，处于边缘的学科点有了逐步走向中心的机会，学科点之间的各种差异会更接近于赫尔马诺维奇（Hermanowicz）所说的“精英主义-多元主义-社群主义”的连续统分布状态。图2绘制了R2与参评学科点中博士点占比之间关系的散点图，线性拟合显示R2与参评学科点中博士点占比呈线性负相关，即随着博士点数量占比的增加，该学科总分趋向于偏离幂律分布（R2降低）。

图2 R2与博士点数占学科点数百分比的线性拟合图

可以作为参照的是美国国家科研委员会（National Research Concil，NRC）组织的博士项目排名。根据罗杰·盖格的说法，这项排名具有权威性，是衡量大学学术质量的“黄金标准”[16]150。但早在2011年，NRC排名委员会就认为，学科排名存在以下问题：（1）虚假的精确性。任何排名都存在许多不确定性来源，从哲学上的（可能无法比较的东西的可比性）到统计上的（指标整合过程中出现的变异）。（2）过度强调声誉。声誉指标可能过时并包括光环效应（即影响到较小项目或不太知名大学的好项目质量的可见性效应）。（3）缺乏透明度。即指标权重在排名中无法辨别或者以不明确的方式每年发生变化。[17]因此采取了一系列的做法试图处理这些问题。NRC博士项目排名所呈现的学科“地位系统”有着较大的不确定性和模糊的地位划分（特别是对于中段的博士项目）。图3和图4以箱线图的形式展示了NRC博士项目排名中各学科R排名和S排名5%和95%排名百分位之间差值的分布，学科排名5%和95%百分位之差的中位值大部分超过了20%，图中呈现得非常明显。如果以我国第四轮学科评估为参照，超过20%的排名不确定性就大致相当于跨越了2个档次，如从C+档跨越到B档。①第四轮评估结果按照“精准计算、分档呈现”的原则公布。根据“学科整体水平得分”的位次百分位，将排位前70%的学科分为9档公布：前2%（或前2名）为A+，2%～5%为A（不含2%，下同），5%～10%为A-，10%～20%为B+，20%～30%为B，30%～40%为B-，40%～50%为C+，50%～60%为C，60%～70%为C-。

图3 R方法的5%～95%排名百分位差值分布

（二）对人文社科学科评价的系统性偏差

与第四轮学科评估相比，软科排名的评价存在系统性低估。从指标上来看，软科排名仅以学术论文作为科研产出标准有失偏颇。第一，对于人文社科评价而言，专著更重要。[18]在结果产出上，在人文社科某些分支学科中，专著是其学术成果的主要表现形式。[19]在参考文献的引用上，人文社会科学领域将近3/4 的参考文献都引自著作，并且该比例长期以来保持相对稳定，而自然科学领域80%以上的参考文献源自期刊论文。[20]因此人文社科学科评价更依赖同行评议，尽管同行评议存在争议，但能最大程度上降低由单一计量评价所引起的“短视效应”。[21]第二，智库成果难以计入，低估了地方人文社科一流学科的水平和贡献。相较于部属高校，地方高校对学术论文的关注度虽有所不及，但其更注重社会服务方面的结果产出，如调研报告、决策咨询报告等智库成果，这方面却在排名中遭到了“无视”。第三，软科在学科成果的归属划分有待商榷。软科是根据科睿唯安数据库中的学科分类与中国一级学科的对应关系进行划分，而科睿唯安数据库的一个学科领域对应多个一级学科，在学科成果的归属上会出现歧义。在新兴、交叉学科的成果划分上也不够科学，比如外国语言文学学科完成的一些区域与国别研究没有纳入统计。

（三）人才培养维度指标的有效性

通过观察历次软科排名，其指标设计在不断地调整与优化，如人才培养指标权重就从2017年的0.05提高到2021年的0.24。表1展示了第五轮学科评估和软科排名在人才培养指标上的差异。与第五轮学科评估注重过程与成果导向不同，软科排名人才培养指标更注重成果导向，而且缺乏普遍性和代表性。第一，缺乏适用于地方高校的人才培养质量标准。以造就学术人才为例，软科排名以截止至2021年年底博士毕业生中当选为中国科学院院士、长江学者特聘教授、万人计划百千万工程领军人才等校友总人数作为细化评判标准，得分集中在少数头部高校，地方高校在这一指标上几乎不得分，这使得该指标在地方高校的学科评价中缺乏区分度。第二，以培养学术人才作为衡量学科人才培养质量的标准并不全面。从2019年C9高校博士毕业生就业单位性质来看，在高等院校与科研院所就业并不是C9 高校博士毕业生的唯一选择，从事非学术职位的博士毕业生占了较大比例。[22]第三，国家教学成果奖的指标仅采集了2018年的获奖数据，对学科的教学成果缺乏全面评价。从权重上说，作为一种综合评价的国家教学成果奖和单一评价的一流课程、一流教材被赋予一样的权重，这并不合理。第四，“思政类”指标体现得更多是高校申报的积极性，而非人才培养质量的差异。2017—2021年以来地方高校软科排名的大幅变动可能要归结于人才培养指标得分的变化。尽管软科排名的人才培养维度指标比较片面且逐年调整，但其指标得分变动对总排名的影响不可忽视。

表1 第五轮学科评估与2022年软科排名在人才培养指标上的差异

（四）顶尖期刊选择的偏误

软科排名的学科差异性主要体现在学术论文上，并通过国际顶尖期刊论文数、国际重要期刊论文数、中文顶尖期刊论文数和中文期刊论文数4 个2 级指标体现其差异化理念。从指标上看，顶尖期刊论文与重要期刊论文权重相当。2022年，软科对顶尖期刊的选择通过软科学术卓越调查和国内专家遴选2个途经来确定，通过与中国科协科学技术创新部对外公布的23个领域的高质量科技期刊分级目录T1区进行比较，软科顶刊选择的标准不一样。如表2所示，以临床医学与作物学为例（因篇幅有限，仅罗列部分），首先，2个期刊目录重合率较低，临床医学仅有1个，作物学则没有；其次，两者期刊数量相差较大，如临床医学顶刊，软科排名仅有3个，而高质量科技分级期刊目录则有136个。也就是说软科排名选择的3个影响因子前20%的临床医学顶刊，只有1个入选了我国临床医学领域高质量科技分级期刊目录的T1区。临床医学领域高质量科技分级期刊目录公布了包括心血管病学、内分泌学、儿科学等13个临床医学领域，软科顶刊目录无法覆盖整个临床医学领域。中国科协高质量科技期刊分级目录同时纳入了中外文期刊，而软科排名除部分人文社科包含有中外文期刊外，顶尖期刊几乎都是外文期刊，这不符合当前我国鼓励优秀成果在国内发表、增强中文期刊影响力的导向。

表2 临床医学、作物学高质量科技期刊分级目录总汇与软科排名顶刊期刊选择的差异

三、从软科排名数据中获得的洞见

（一）监测学科发展的“黑马”

通过观察软科排名的跨年度变动可以发现学科建设的“黑马”（当然这种变动可能存在连续几年的正向和负向的震荡）。这样的剧烈变动很大程度上可以归因于“重点建设”政策，并且往往很容易会被同行捕捉到。以2018—2019年应用经济学的排名变动（见图1）为例，可以看到宁波大学、广西大学有较大的排名前进的变动，其中宁波大学应用经济学是在第四轮学科评估中排名最为靠前的硕士点，广西大学应用经济学则是纳入部区合建的重点建设学科。

传统观点认为，学科（院系）的声望排名有着长期的稳定性。伯里斯（Burris）研究了院系之间交换聘用博士毕业生形成的社会网络，发现在社会学中，跨院系招聘网络中的中心性解释了院系声望差异的84%，历史学和政治学也有类似的发现。鲍曼（Bowman）和巴斯特多（Bastedo）的研究发现，登上《美国新闻与世界报道》排行榜的头版可以大大提高院校下一年的招生相关指标。[23]巴斯特多的研究还发现已公布的大学排名对未来的同行评估有显著影响，这与机构的质量和绩效的变化无关，甚至与之前的同行声誉评估无关。[24]学科排名的大幅跃升对于该学科在伯里斯所称的“学术种姓系统”（Academic Caste System）的声望变迁、招生与同行评价等各个领域带来积极的影响，也会作为“重点建设”成效的证据在利益相关者中得到反馈。

对“黑马”的追踪还对一流学科建设应对内外部组织变迁提供指导，尤其体现在科研规模的扩张和文化建设方面。罗杰·盖格指出，大学之间的竞争以研究角色的分化为特征，这个特征首先是增进知识所需的给养（provision）等级制。[16]134承担研究的单位，与研究系统中其他地方的类似机构竞争研究项目的直接支持，成功的单位将会扩大规模或提升地位，那些不能够保持与知识前沿同步的单位将会萎缩甚至消失，至少在与研究相关的方面。赫尔马诺维奇（Hermanowicz）则从“社会世界”的角度对大学和院系进行分类，从一个连续统的意义上，划分为精英主义、多元主义、社群主义3种类型的学术文化。[25]“黑马”学科无论在进一步的科研队伍规模结构、精英_多元主义学术文化的建设方面都要有所准备以应对已有优势的积累和可持续发展的要求。

（二）呈现地方高校的优势学科

通过计算各学科得分占该学科最高得分的比例，可以了解地方高校的优势学科领域。如图5所示，以60%的阈值为例，2021年数据显示，共有35个地方高校学科达到本学科最高分的60%以上。其中，上海、江苏、广东地方高校分别有9 个、8 个和6个学科达到60%，中西部省份仅有4个学科达到60%，即云南大学民族学、西北大学考古学、西安建筑科技大学建筑学、西南政法大学法学、山西医科大学特种药学。地方优势学科领域的出现有诸多因素，包括经济社会发展因素、20世纪末高等教育管理体制改革的遗产、地方特色资源禀赋的共生等。对地方高校优势学科的案例研究可以为地方一流学科建设提供重要参考。同时，有必要建立如NRC 排名那样努力平衡学科规模和大学知名度带来的光环效应，合理展现地方高校一流学科建设水平和成效的学科评价体系。

图5 2021年软科排名地方高校上榜学科得分占本学科最高分的比例分布

（三）关键性指标“0的突破”在地方高校一流学科建设中的意义

42 个样本学科在软科排名关键性指标有“0 的突破”所对应的高校数量①本文抽取了广西42个一流学科作为样本对象，样本学科在各学科门类的分布：经济学1个，法学2个，教育学1个，文学2个，理学6个，工学15个，农学3个，医学9个，管理学1个，艺术学2个。如图6所示，具有1位以上资深权威的高校数量中位值是5所，1位以上中年领军专家高校数量中位值是20所，1位以上青年拔尖英才的高校数量中位值是23所，获得1项以上国家科技奖励或教育部奖励的高校数量中位值分别是10所、14所，牵头1项以上国家重点研发计划的高校数量中位值是17所。这些“本学科稀缺资源和标志性成果”集中在少部分高校当中。

图6 42个样本学科关键指标“0的突破”高校数分布

大学学科建设的核心要义是提升组织化水平，“围绕战略目标建立学科组织，同时通过资源、制度的一些安排，提升学科在知识的发现、整合、传递和应用上可持续发展的能力”[26-28]。从样本学科的关键性指标“0的突破”高校数量可见，我国高校特别是地方高校科研组织化水平不足，高度组织化的科研集中在少数大学中。软科数据对于关键性指标“0的突破”的追踪为地方高校一流学科建设提升组织化水平提供了参考，推动高校围绕国家和区域战略需求凝练学科方向，布局大项目大平台，突出学科领军人物的引育，努力追求“提供一流的社会服务”与“占据学科前沿引领地位”的有机结合。[29]

结语

自2015年国家启动“双一流”建设以来，“双一流”建设引领带动各地建设了410所地方高水平大学和1 387个地方优势特色学科。[30]随着地方财政专项资金的巨额投入和随之而来的绩效管理压力，对一流学科建设成效评估的需求越来越迫切，软科中国最好学科排名作为一种有影响的第三方评价进入了教育行政部门和建设高校的视野，但对软科排名的应用要建立在对其局限性的认识之上。根据教育部的数据，“双一流”建设高校承担了全国超过80%的博士生和近60%的硕士生培养任务。[31]尽管1980年代以来美国大学学术研究的扩散现象[32-33]在我国“双一流”建设深入推进过程中也会出现，但大部分地方高校仍将以教学和社会服务为主要职责，其教师会较少纳入“有组织科研”的体系，其学科发展亟待建立更合适的评价体系，以具体描述其作为学术“部落”的起源、独特性、多样性和贡献，更好地引导其服务地方发展。