高校纸本图书使用者的本科生用户画像构建

2024-05-06 11:13孙达辰张秀萍孙常丽
科技创新与应用 2024年13期
关键词:用户画像

孙达辰 张秀萍 孙常丽

基金項目:黑龙江省高校图工委第七届科研项目(2021-085-A,项目负责人为孙达辰)

第一作者简介:孙达辰(1976-),男,硕士,馆员。研究方向为人工智能与数据挖掘。

*通信作者:张秀萍(1980-),女,博士,讲师。研究方向为教学管理与数据分析、方剂药理。

DOI:10.19981/j.CN23-1581/G3.2024.13.004

摘  要:以高校纸本图书使用者的本科生用户为研究对象,构建高校纸本图书的用户画像,可以更加深入地识别用户、更加有效地提升纸本图书的资源建设和服务质量,进而提升用户体验,促进学生系统、深刻阅读。选取层级标签方法来构建用户画像,在现有RFM模型的基础上,构建LRFM模型,识别出具有共同特征的用户群体,最终完成用户画像的构建。基于真实数据,对该文构建的用户画像模型进行实证,验证模型是有效的。

关键词:用户画像;高校纸本图书;RFM模型;LRFM模型;系统阅读

中图分类号:G253       文献标志码:A          文章编号:2095-2945(2024)13-0014-05

Abstract: Taking the undergraduate users of college paper books as the research object and constructing the user portrait of college paper books can identify the users more deeply, improve the resource construction and service quality of paper books more effectively, and then improve the user experience and promote students to read in depth systematically.  By selecting the hierarchical label method for constructing the user portrait, based on the existing RFM model, an LRFM model is constructed to identify the user groups with common characteristics and finally complete the construction of the user portrait. Based on the real data, the user portrait model constructed in this paper is verified to be effective.

Keywords: user portrait; college paper books; RFM model; LRFM model; systematic reading

纸本阅读量的下降正在不断稀释高校图书馆与本科生的黏度,降低高校图书馆在教学中的作用,亦令本科生的培养质量堪虞[1]。如何关注高校纸本图书使用者,即用户的整体特征、还原用户全貌,从而深入研究用户,成为关键。同时,高校图书馆拥有完整的用户基本信息,包括学生的专业、年级、性别等,拥有及时、准确的纸本图书使用者的行为数据,这些都为深入、全面地研究用户提供了数据条件。基于以上情况,以高校纸本图书使用者的本科生用户为研究对象,构建使用者的用户画像,可以更加深入地识别用户、更加有效地提升纸本图书的服务质量和纸本图书的资源建设,进而提升用户体验。

1  高校纸本图书本科生用户画像的研究现状

在这个数字时代,虽然大众的网络阅读、数字阅读迅速崛起,碎片阅读同样具有重要的阅读价值。可是,大学生非同普罗大众,而是一个必须系统学习知识的群体,系统阅读经典图书、专业图书、通识图书是本科生的必修课[1]。如何促进更多的在校本科生系统、深刻地阅读经典图书、专业图书、通识图书是研究关键。在文献[2]中,从总体、学科大类、语种和二级类目的层面上,研究纸本图书的首次借阅情况,从学科化服务的角度,在图书采访、流通管理、资源推广等环节,提出若干提升馆藏利用率和优化馆藏质量的综合性建议。

用户画像(User Portrait)即用户信息标签化,就是通过收集与分析用户的社会属性、生活习惯、消费行为等主要信息之后, 完美地抽象出一个用户的信息全貌[3]。大数据时代下,基于用户属性和行为数据的用户画像,是研究用户、开展对应服务的重要手段之一[4]。用户画像的实质是标签化的用户全貌,构建用户画像的过程就是基于广泛的用户数据,通过用户属性的分类并利用一定的技术方法抽取得到用户特征,提炼成用户标签,最终得到用户画像[5]。

用户画像成功应用于养老服务[6]、电力用户消费行为数据[7]、面向科技大数据的科研团队[8]等方面,在图书馆方面,用户画像成功应用于高校图书馆科研用户[9]、智慧图书馆用户[10-11]、图书馆精准服务[12]和移动数字图书馆用户[13]等方面。

在文献[12]中,提出从用户的专业背景、知识获取习惯、兴趣偏好和特长任务等方面构建用户画像标签概念。在文献[13]中,把图书馆领域融入用户情境属性要素,将用户画像维度划分为自然、社交、兴趣及能力等属性。可见,用户画像在图书馆领域,已经有很多人进行研究和应用。在纸本图书的图书馆用户方面,文献[14]中,以深圳大学纸本图书馆藏服务系统数据为基础,通过数据分布统计,利用内容分析法及关键词提取的TF-IDF方法等,构建了图书馆用户画像实例。这是目前能够检索到的、针对高校纸本图书使用者进行构建用户画像的少数高质量文章之一。

2  高校纸本图书使用者用户画像的构建

高校纸本图书的使用者必须拥有所在学校图书馆发的图书借阅证,才能使用所在图书馆的纸本图书。使用者的用户基本信息,包括学生的专业、年级、性别等,都在办理图书借阅证的时候录入到本馆的图书馆集成管理系统中。图书馆集成管理系统拥有多个功能模块,其中,图书馆流通管理模块直接面对读者,完成读者借阅与归还图书的任务,同时及时、准确地保存纸本图书使用者的行为数据,如借还图书的时间、所借图书的名称等。依靠用户的基本信息数据和行为数据,构建高校纸本图书使用者的用户画像,能有效地展现用户全貌,为促进在校生系统、深刻地阅读经典图书、专业图书、通识图书提供有效的支撑。

2.1  数据获取与处理

本文原始数据来自牡丹江医学院(以下简称“我校”)图书馆正在使用的金盘图书馆集成管理系统,该系统拥有本馆内所有纸本图书的完整信息,保存所有本馆用户的基本信息和行为信息数据。由于本文要针对纸本图书使用者进行用户画像构建,所涉及的数据为图书典藏数据和图书流通数据。在校本科学生每学期都有相对应的学习任务,每一学期结束之前还要进行所学内容的考试,为了排除考试方面的干扰,所选取的数据开始时间为2022年3月1日,结束时间为2022年5月31日。被研究的用户对象为在校的本科生。在2022年3月1日到2022年5月31日这段时间内,一次借书与还书活动为一次完整的纸本图书使用活动。在以上的限定条件下,共提取243条数据作为本文的研究数据。经过处理,最终得到的数据包括用户信息为:读者条码、姓名、性别、借书时间和实际还书时间,读者级别、班级、专业、条形码和索书号。部分数据见表1,这里省略了姓名、读者条码等个人信息列表。

按纸本图书内容,本文将纸本图书分为经典图书、专业图书、通识图书。关于什么是经典图书,查阅大量资料后发现,并没有一个统一的定义,但关于经典图书应该具有的特征是很明确的,就是经典图书的内容具有3个特征:第一个特征,经典图书承载传达的是人类社会具有普遍性、共通性的内容;第二个特征,经典图书具有多样性、多元化的特征;第三个特征,经典图书无论从内容还是形式等方面,都具有开放性、包容性的特征[15]。由于我校是医学院校,依据经典图书的3个特征和我校实际拥有的专业情况,对我校现有的纸本图书做以下分类,将中图法中A、B、C、D和I类纸本图书确定为经典图书,也就是将马克思主义、列宁主义、毛泽东思想、邓小平理论、哲学、宗教、社会科学总论、政治、法律和文学这些类别的纸本图书确定为经典图书;将中国图书馆分类法中N、O、Q、R和T类纸本图书确定为专业图书,也就是将自然科学总论、数理科学和化学、生物科学、醫药和卫生工业技术类纸本图书确定为专业图书;其他类纸本图书确定为通识图书,也就是军事、文化、科学、教育、语言、文字、艺术、历史、地理、天文学、地球科学、农业科学、交通运输、航空、航天、环境科学、安全科学和综合性图书确定为通识图书。对于以上这3类纸本图书,在本文所选的243条数据中,经典图书共有174本被83个读者所使用,借阅次数最多的1个人共借阅了8本图书,借阅了6本图书的为1人,借阅了5本图书的为4人,借阅了4本图书的为8人,借阅了3本图书的为12人,借阅了2本图书的为15人,借阅了1本图书的人为42人,其中,I类图书最多,共153本被使用,B类图书排第二,共15本被使用;专业图书共有47本被28个读者所使用,借阅次数最多的1个人共借阅了6本图书,借阅了5本图书的为2人,借阅了2本图书的为6人,借阅了1本图书的为19人,所借的阅书全为R类图书;通识图书有22本被14个读者所使用,借阅次数最多的为2个人,每人借阅了4本图书,借阅了2本图书的为2人,借阅了1本图书的为10人,其中,H类图书最多,共11本被使用,K类图第二多,共6本被使用。共有113名用户在本文时间段内使用了图书,使用图书最多的为1人,共借阅了8本图书,借阅了7本图书的为1人,6本图书的为4人,5本图书的为8人,4本图书的为6人,3本图书的为13人,2本图书的为21人,1本图书的为59人。

2.2  用户画像的构建

本文通过收集、整理图书馆纸本图书使用者的基本信息和行为信息数据,在这些信息数据上,采取RFM模型,识别出用户在经典图书、专业图书、通识图书方面使用的情况。RFM模型是市场营销领域识别客户价值的经典模型,用于在观测点对观测期(观测点之前的一段时间)内顾客消费的情况进行分析,从而识别出重要价值客户[16],R为最近消费时间间隔,F为消费频率,M为消费金额。在本文中,R为用户使用纸本图书距离采样数据结束的最近时间间隔,即距离2022年5月31日这个时间点的最近时间间隔。F为用户在指定时间内完整借还纸本图书的频率,即用户在2022年3月1日到2022年5月31日这段时间内,完整地完成纸本图书借出和归还的次数。M为用户使用自己所借纸本图书在2022年3月1日到2022年5月31日这段时间内的总时间长度。

在原有RFM模型上,加入用户拥有本馆图书证的时间长度L,因为拥有本馆图书证的时间长度,可以展现用户在图书馆图书使用上的态度,拥有图书证的时间就越长,应该对图书馆越为了解,应该使用的图书量就越大,最终形成本文的LRFM模型。LRFM模型所使用到的数据见表2,每一行为一个用户数据,总共有113条用户数据,L为图书证年限,R为最近一次借阅的时间度量,F为在本次时间段中的用书频率,M为在本次时间段中的用书总时长,这里省略了涉及个人信息的读者条码里的内容。通过L、R、F和M的数值计算来确定用户的等级,等级越高,表示用户越优良,这4个变量的关系式为G=(R+F+M)/L。

表2  用户数据

采用K-Means聚类算法对113名用数据进行整体的聚类划分,总共划分成5类,即优秀用户群体、良好用户群体、中等用户群体、一般用户群体和较差用户群体。本过程在MATLAB 16a中完成,同时,还可以得到每个聚类划分中的具体成员。

同样地,对于经典图书的使用者,采用K-Means聚类算法对83条用户数据进行聚类划分,总共划分成5类,得出一次聚类划分的数据。对于专业图书和通识图书的使用者,同样分别采用K-Means聚类算法对28条用户数据和14条用户数据进行聚类划分,总共划分成5类,得到类似的数据。

2.3  用户画像的集成

通过本文构建的LRFM模型,对我校图书馆2022年3月1日到2022年5月31日这段时间内、113名纸本图书本科用户进行整体分析,从整体上构建出用户的画像。而后,通过LRFM模型,分别对经典图书的83名用户、专业图书的28名用户、通识图书的14名用户构建相对应的用户画像。

用户画像最终的内容,包括用户等级G、具体成员、用书偏好。

最终分别集成面向整体纸本图书用户、经典图书用户、专业图书用户和通识用户的用户画像。

3  实验及结果分析

采用K-Means聚类算法对113名用数据进行整体的聚类划分,总共划分成5类,本过程在MATLAB 16a中完成。运行相关程序后,得出一次聚类划分的数据,这里省略了具体成员信息,见表3。

表3  K-Means聚类划分结果

通过表4的数据,采用关系式G=(R+F+M)/L来计算类别等级,可以得到类别1的分数为94.13,类别2的分数为68.09,类别3的分数为153.43,类别4的分数为161.33,类别5的分数为16.60。这里类别4的分数最高,所以等级最高,为优秀用户群体;类别5的分数最低,为等级最低的用户群体,即较差用户群体。利用每一类别中的具体成员数据,进一步掌握用户的用书状态。对不同类别的用户可以进一步研究,进而推出更为精细的服务内容。

同样地,对于经典图书的使用者,采用K-Means聚类算法对83条用户数据进行聚类划分,总共划分成5类,得出一次聚类划分的数据,见表4。

表4  K-Means聚类结果

对于这些数据进行同样的类别等级的计算,利用每一类别中的具体成员数据,进一步掌握用户的用书状态。对不同类别的用户可以进一步研究,进而推出更为精细的服务内容。

对于专业图书和通识图书用户,同样分别采用K-Means聚类算法对28条用户数据和14条用户数据进行聚类划分,总共划分成5类,得到类似表4的数据,而后进行分析。

通过以上的过程,有效地构建了纸本图书用户的整体画像、经典图书用户画像、专业图书用户画像和通识图书用户画像,完成了从整体上的信息展现和针对不同图书类别的信息构建。通过这样划分的每一个群体,都有自己的特点,尤其优秀用户群体和较差用户群体,因为优秀用户群体是对纸本图书使用最多的用户,这些人对纸本图书的资源建设和纸本图书的服务都有更为深刻的意见;较差用户群体处于脱离纸本图书服务的边缘,这些人的意见,能很好地反映图书馆在纸本图书工作方面的不足。可以针对不同的用户群体,展开进一步的调研,精细化以后的工作内容。

4  结束语

本研究以纸本图书使用者为研究对象,在现有RFM模型的基础上,构建LRFM模型,识别出具有共同特征的用户群体,最终完成用户画像构建。利用LRFM模型完成了对我校图书馆内纸本图书用户的整体画像、经典图书用户画像、专业图书用户画像和通识图书用户画像的分别构建。通过分析不同类别用户的画像内容,可以掌握不同类别纸本图书用户的信息全貌,为进行有针对性的调研提供依据,为推进纸本图书资源建设与服务工作提供有力支撑,进而提升用户体验,促进学生系统、深刻阅读。

参考文献:

[1] 程焕文,刘佳亲.挑战与回应:中国高校图书馆的发展方向[J].中国图书馆学报,2020,46(4):39-59.

[2] 谭丹丹.学科化服务视角下的纸本图书首次借阅特征研究[J].图书馆杂志,2020,39(8):88-93.

[3] 杨双亮.用户画像在内容推送的研究与应用[D].北京:北方工业大学,2017.

[4] 王勋鸿,马建春.国内图情领域用户画像研究现状及主题分析[J].图书馆学刊,2022(4):104-111.

[5] 宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,37(4):171-177.

[6] 何振宇,朱庆华,白玫.养老服务视角下城市老年人用户画像构建[J].情报杂志,2021,40(9):154-160.

[7] 王小强,周珂宇.基于用户消费行为的电力数据客户立体画像构建[J].计算机技术与自动化,2022,41(4):166-170.

[8] 许明英,杜军平,梁美玉,等.面向科技大数据的科研团队精准立体画像生成方法[J].工程管理科技前沿,2022,41(3):15-19.

[9] 何胜,柳益君,黄永锋,等.基于网络大数据的高校图书馆科研用户画像模式构建研究[J].图书馆研究与工作,2022(11):76-80.

[10] 姚淑青.融合情景感知的智慧图书馆用户画像构建研究[J].图书馆界,2022(5):1-5.

[11] 尹婷婷,郭永建.数据驱动背景下智慧图书馆用户画像模型构建与研究[J].图书馆理论与实践,2023(4):193-196.

[12] 曾建勋.精准服务需要用户画象[J].数字图书馆论坛,2017(12):1.

[13] 陳晶.移动数字图书馆用户模型及其情境化推荐方法研究[J].图书馆,2018(4):19-23.

[14] 王英,梁思怡,杨巍,等.面向纸本图书的图书馆用户画像构建探索[J].图书馆杂志,2023,42(2):128-133.

[15] 何明星.经典图书:构建人类命运共同体的文化思想基础——基于再版数据统计的世界图书生命研究报告[J].中国出版,2022(5):26-33.

[16] 张振刚,罗泰晔.基于RFM模型和随机行动者导向模型的技术机会识别[J].情报学报,2021,40(1):53-61.

猜你喜欢
用户画像
基于数据分析高校学生自画像的初探
分析用户画像在企业精准营销中的应用方式
基于用户画像的数字原住民社会化媒体采纳意愿的阶段性分析
基于大数据技术的广电用户收视行为建模
基于大数据的电商活动页面设计策略研究
用户画像在内容推送中的研究与应用
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销