基于业务特征的网页浏览业务质量评估方法的研究

2023-11-22 10:28李嘉丽
江苏通信 2023年5期
关键词:事务网页页面

李嘉丽

江苏经贸职业技术学院智能工程技术学院

0 引言

目前互联网应用越来越广泛,而网页浏览业务已经成为互联网上最为常用的业务之一。对于运营商而言,网页浏览业务的服务质量是影响互联网用户使用体验的一个重要因素,但运营商如何评估网络上网页浏览业务的服务质量,目前仍是一个难题。运营商作为互联网用户投诉的第一受理人,无法评估自身网内的服务质量,就意味着不但不能主动发现和解决问题,而且在接收用户投诉时也无法定位具体原因,难以采取针对性措施提升用户体验,从而扩大客户流失的可能性。

1 网页浏览业务质量评估方法研究

现有网页浏览业务质量评估主要有两种评估方法,一种是采用拔测的方法,也就是通过终端对网站进行主动访问式测试来评估其业务质量。这种方式通过手工配置可以评估部分网站在诸如特定终端、特定位置等特定场景下的访问质量,而无法反映网页浏览的整体访问感知,具有不全面性和偶发性的缺陷。另一种评估方法是从网络端根据TCP/HTTP 的质量进行近似评估,其架构如图1 所示。

图1 近似评估方法架构图

首先,由数据采集设备按照单事务方式在数据采集设备进行采集,经过事务处理单元处理后,由事务代理者单元根据需要在事务缓冲池进行缓存,然后按需输出给数据分析设备,再由数据分析单元根据单事务进行数据统计和数据监控,最后通过警示单元呈现。

然而,由于网页浏览业务在网络层的表现非常复杂,基于HTTP 协议的网页浏览行为会涉及多个HTTP 事务,从用户体验而言就是用户在打开某个网页时会自动打开多个超链接的过程。如图2 所示,一个主网页被打开后,有自动打开的子网页,也有手动打开的子网页,即一次网页浏览行为可能会涉及多个HTTP 事务。当一个HTTP 中的多个事务分别属于不同的网页浏览时,仅通过TCP/HTTP 基础业务质量来评估网页浏览业务质量显然是不充分的,其与实际用户体验不符,无法体现真实的用户感知。

2 网页浏览业务特性分析及质量评估方法的设计

从网页浏览业务内容来看,通常的浏览行为主要包含文字信息加载、图片信息加载以及视频信息加载等。其中,视频信息包括页面中嵌入的自动播放广告或诸如网购平台上的商品介绍视频、买家点评视频等。视频信息的加载与图片和文字信息的加载有显著不同,视频的加载数据量通常显著大于图片或文字信息。如果按照等效业务的方式来考察页面中所含视频内容的加载,则内容的加载时间会变长,如果这部分时长混合在针对图片和文字加载的时长中,会使得整个页面的加载时间显著变长。然后,该时长与用户的实际体验感知并不相符,因此将页面加载的视频内容排除在外,仅针对页面浏览中的图片和文字内容加载,并进行页面浏览动作的合成,将更加贴近用户实际感知。

因此,为解决现有网页浏览业务质量评估困难的问题,设计一种基于业务特征的网页浏览业务质量评估方法。本方法基于近似评估方法的基础上,在原有的数据采集设备和数据分析设备之间添加关联合成设备,对采集上来的多事务有机合成与关联后,再完成数据分析并给予警示,其架构如图3所示。

图3 基于业务特征的网页浏览业务质量评估方法

数据采集设备采集事务并放入事务缓冲池后,流入关联合成设备,首先对关联策略配置中的参数进行配置,用于网页浏览业务多事务关联处理的参数控制。然后在关联事务单元中,根据关联策略配置,对数据采集设备上报的多事务进行关联处理,并将处理结果发送给关联事务缓冲池,待事务关联结束后提交给合并事务单元处理,从关联事务缓冲池中取出关联事务进行合并处理,然后将合并后的事务放入合并事务缓冲池中,待事务合并结束后提交给数据分析设备处理,完成整个网页浏览质量评估。

3 纯HTTP 场景下的业务质量评估方法的应用

纯HTTP 场景就是仅基于HTTP 协议的网页浏览业务场景,在此场景下可以获取HTTP 业务特征信息,基于这些特征对网页浏览事务进行关联合成,先根据设定的关联策略,对网页浏览多事务相关的数据进行关联,然后将关联合并后的数据保存到数据缓冲池中。

关联策略主要包括用户身份、关联字段和关联时间。其中,用户身份包括IMSI、TMSI、MSISDN 等信息,关联字段包括Refer、URL、Location、Host 等业务特征信息,关联时间包括Time 关联时长、Host 关联时长、Refer 关联时长和Location 关联时长,这些时长都可以进行配置。

网页浏览多事务相关的数据进行关联主要包括如下步骤:

A.上报事务A,没有关联事务,则生成页面全局唯一标识,连同关联字段一起存入关联缓冲池。

B.上报事务B,如果事务B 和事务A 的开始时间差值小于配置的Time 关联时长,则认为两个事务属于同一个页面,直接使用事务A 的页面全局唯一标识,并执行步骤A,否则执行步骤C。

C.如果事务B 和事务A 的Host 相同,并且两个事务的开始时间差值小于配置的Host 关联时长,或者两个事务的Refer相同且两个事务的开始时间差值小于配置的URL 关联时长,或者事务B 的Refer 与事务A 的URL 相同,或者事务B 的URL 与事务A 的Refer 相同且两个事务的开始时间差值小于配置的URL 关联时长,或者事务B 的Location 与事务A 的URL 相同,或者事务B 的URL 与事务A 的Location 相同且两个事务的开始时间差值小于配置的Location 关联时长,则认为两个事务属于同一个页面,直接使用事务A 的页面全局唯一标识,否则执行步骤D。

D.认为事务B 没有关联事务,生成页面全局唯一标识,连同关联字段一起存入关联缓冲池。关联缓冲池中关联事务一段时间未被访问则进行老化处理,然后将关联合并后的数据保存到数据缓冲池中,具体包括如下步骤:

a.收到事务,没有关联事务,将用户标识、页面全局唯一标识、事务请求次数、事务成功次数、事务开始时间、事务结束时间、首事务成功标志、首事务时延存入合并缓冲池。

b.收到事务B,如果事务B 和事务A 的用户标识和页面全局唯一标识不相同,则把事务B的相关数据存入合并缓冲池,否则执行步骤c。

c.将事务A 和事务B 进行合并,其中事务请求次数和事务成功次数累加,如果事务A 的开始时间小于事务B,则仍然采用事务A的开始时间作为事务开始时间,首事务成功标志、首事务时延同样采用事务A 的,否则执行步骤d。

d.采用事务B 的开始时间作为事务开始时间,首事务成功标志、首事务时延也是采用事务B 的。

e.如果事务A 的结束时间大于事务B 大,则仍采用事务A 的结束时间作为事务结束时间,否则执行步骤f。

f.采用事务B 的结束时间作为事务结束时间。

最后,对数据缓冲池中的关联合并数据进行网页浏览业务质量指标评估分析,对评估结果进行统计分析以便于后续问题的发现和解决。

可用于衡量用户感知的指标主要包括:

A.网页响应成功率指标。从用户的角度来看,所谓网页响应成功率是指网页的第一个元素显示在浏览器上的概率。指标算法:首事务成功标志个数/合成页面个数,其中首事务成功标志个数为合并缓冲池中首事务成功标志为真的记录条数,合成页面个数为合并缓冲池中所有记录条数。

B.网页响应平均时长指标。从用户的角度看,所谓网页响应平均时长是指从用户执行打开网页操作到网页第一个元素显示在浏览器上的时长。指标算法:首事务时延总和/响应成功的合成页面个数,其中首事务时延为合并缓冲池中首事务成功标志为真的首事务时延,响应成功的合成页面个数为合并缓冲池中首事务成功标志为真的所有记录条数。

C.网页显示成功率指标。从用户的角度看,所谓网页显示成功率是指网页大部分元素都显示在浏览器上的概率。指标算法:合成页面成功显示的次数/合成页面个数,其中合成页面成功显示的次数是合并缓冲池中事务成功次数/(事务请求次数>95%阈值的记录条数),合成页面个数为合并缓冲池中所有记录条数,事务请求次数的阈值可自由配置。

D.网页显示平均时长指标。从用户的角度看,网页显示平均时长是指从用户执行打开网页操作到网页大部分元素显示在浏览器上的时长。指标算法:合成页面成功显示的(事务结束时间-事务开始时间)总和/合成页面成功显示的个数。其中事务结束时间、事务开始时间是合并缓冲池中的事务结束时间、事务开始时间。

4 混合场景下的业务质量评估方法的应用

对于混合场景的网页浏览或者APP 页面的浏览有可能包含多种数据流,从协议角度区分可能包含HTTP、HTTPS、TCP、UDP、QUIC 等格式的数据流,为了能够与纯HTTP 场景类似的方式来评估网页浏览业务质量指标,每个流都需要提取网页上行业务请求、网页下行业务首包响应、网页下行业务末包响应这三个关键业务动作,基于这些动作来做网页浏览业务的关联合成。

对于每条流来说,网页上行业务请求表示一个资源请求的开始,网页下行业务首包响应表示对该请求的响应,网页上行业务请求到网页下行业务首包响应的时延表示网页响应时延,网页下行业务末包响应表示页面加载完成,网页上行业务请求到网页下行业务末包响应的时延表示网页显示时长。

A.对于HTTP 流,网页上行业务请求时间为上行Get 请求包或者Post 请求包的时间,网页上行业务请求之后的第一个应用层净荷长度大于N(如默认60)的下行包时间为网页下行业务首包响应时间,网页下行业务首包响应时间之后的最后一个应用层净荷长度大于0 的下行包的时间为网页下行业务末包响应时间,如果单条流中持续K 秒(如默认1 秒)无数据传输,则该空白时间窗之前的最后一包应用层净荷长度大于0 的下行包时间为网页下行业务末包响应时间。特别地,如果对于网页上行业务请求只有一个带净荷的下行包,则网页下行业务首包响应时间与网页下行业务末包响应时间是一致的。

B.对于非HTTP 流,上述三个动作由于没有绝对特征可以识别确认,因此采用流特征进行拟合,网页上行业务请求为上行应用层净荷长度大于M(如默认30)的第一个上行包的时间,网页上行业务请求之后的第一个应用层净荷长度大于N(如默认60)的下行包时间为网页下行业务首包响应时间,网页下行业务首包响应时间之后的最后一个应用层净荷长度大于0 的下行包的时间为网页下行业务末包响应时间,如果单条流中持续K 秒(如默认1 秒)无数据传输,则该空白时间窗之前的最后一包应用层净荷长度大于0 的下行包时间为网页下行业务末包响应时间。特别地,如果对于网页上行业务请求只有一个带净荷的下行包,则网页下行业务首包响应时间与网页下行业务末包响应时间是一致的。

网页浏览业务的合成也是基于这三个基本特征的,与纯HTTP 场景的关联合成方式类似,先通过用户身份、关联字段和关联时间等信息进行合成,差别主要是在关联字段上。由于混合场景中部分协议无法提取到一些如Refer 等明文特征,因此只能通过业务或者应用等信息进行关联,根据准确性要求不同可以提供不同的关联策略,例如对于主流的网页浏览业务,可以通过包或者流特征识别该条流是否需要进行浏览合成,并且可以单独提供关联合成参数,对于精度要求不那么高的网页浏览业务,可以仅根据应用进行关联合成。

5 结束语

本研究基于业务特征的网页浏览业务质量评估方法,采用业务特征识别技术、多事务关联技术、多事务合成技术、关联与合并事务缓存技术、感知指标拟合技术,能够在复杂的网页浏览访问场景下及时发现网页浏览业务质量问题,并且能够及时发现问题的归因以快速解决问题,从而提升网络的可靠性、可维护性和稳定性,提升用户感知体验。

经过拨测对比验证,采用此方法评估的网页浏览业务质量指标与用户实际的体验感知相符,整体趋势一致,准确性达到95%以上,可以纳入运营商的日常运维流程,实现降本、增效、提质的目标。

猜你喜欢
事务网页页面
“事物”与“事务”
基于分布式事务的门架数据处理系统设计与实现
刷新生活的页面
河湖事务
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
10个必知的网页设计术语
SQLServer自治事务实现方案探析
网站结构在SEO中的研究与应用