基于日志分析的商业银行应用系统画像初探

2016-12-05 15:25耿鹏许国平彭新宇孙志伟
时代金融 2016年29期
关键词:大数据

耿鹏+许国平+彭新宇+孙志伟

【摘要】商业银行应用系统每时每刻都在产生日志数据,这些日志种类繁杂,格式多样,散落在生产系统的各个角落,往往只有在系统出现问题时才会临时到日志中去查找和分析,大部分日志数据都会在暂存一段时间后被永久清理。本文针对商业银行日志分析面临的数据量大、日志格式不规范、存储分散及用途单一等问题,提出一种基于日志分析的商业银行应用系统画像架构,能够实现对日志文件的有效分析,从中提取出有效的信息来指导生产、优化决策。

【关键词】日志分析  应用系统画像  大数据

一、引言

随着商业银行业务规模的不断发展,各类应用系统的数量和规模也迅速增长,其所产生的数据量也越来越大。在这些日益增长,趋近海量的数据中,除了核心的业务数据之外,还存在着一类规模巨大且未得到有效利用的数据,这就是日志数据。商业银行应用系统每时每刻都在产生日志数据,这些日志种类繁杂,格式多样,散落在生产系统的各个角落,往往只有在系统出现问题时才会临时到日志中去查找和分析,大部分日志数据都会在暂存一段时间后被永久清理。而这些日志文件作为应用系统在实际生产运行过程中的忠实记录者,包含了大量能够反映出应用系统运行情况的有效信息,这些信息可以对系统的优化、运维以及运营带来重要的决策参考。因此,如何克服当前商业银行应用系统中存在的日志量巨大、日志分布情况复杂、日志记录格式不规范等问题,实现对日志文件的有效分析,从中提取出有效的信息来指导生产、优化决策,成为商业银行IT部门面临的一项重大问题。

二、应用系统画像

目前大数据领域一个较为前沿的研究热点就是用户画像(Personas)[1],所谓用户画像,即根据用户的一些基本信息及行为数据进行分析,在不同的维度,抽象出能够反映用户特征的标签,用标签的集合对用户进行描述。简言之,用户画像的核心即是标签的集合,根据不同的应用场景,定义不同的标签,再根据不同用户的标签,针对不同用定义不同的营销及推送策略,是用户画像在大数据领域的一个典型应用[2]。

同样,对于商业银行的众多应用系统,每个应用系统都具有不同的运行特征,通过对这些不同的运行特征进行提取和归纳,形成相应的标签,其所组成的集合,也即本文所提出的应用系统画像。

应用系统画像与日志分析可以完美的结合[3],从日志中能够提取到应用系统不同维度的有效信息,通过对这些信息进行计算,形成特征,而从这些特征中归纳出的标签的集合,即应用系统画像,又可以直观的让人们认知这个系统,从而对系统的运行特征、业务特征、性能特征等方面有一个充分的了解,进而对应用系统进行系统运维或运营策略的调整。

三、商业银行日志研究现状分析

商业银行日志中类繁多,用途各有不同,经过前期的调查与研究,商业银行目前的日志大致可分为以下几个大类:

(1)交易日志:交易日志是指系统所记录的业务流水、交易报文等信息,可用于分析系统的业务特征,如交易量、活跃客户数、交易流动性等。

(2)应用日志:应用日志包括系统自身所记录的程序日志、数据日志以及后台服务日志,可用于分析该应用的运行情况,包括异常率、异常种类、响应时间等。

(3)系统日志:系统日志记录了系统所部属的物理载体的运行情况,包括内存使用率、CPU占用率、磁盘使用率等。

(4)运维与操作日志:运维与操作日志记录了系统的变更、应急以及日常操作行为,包括变更频率、变更成功率、应急次数、登录次数、登录时长等信息,可用于分析系统的奖状性、稳定性和安全性。

(5)网络日志[4]:网络日志记录了应用系统的网络状态,包括丢包率、拥堵情况、带宽变化等,可用于分析该系统的网络联通性、交易顺畅性。

以上五类日志,涵盖了商业银行应用系统的大部分日志,而目前这五类日志并未得到广泛的应用和分析,大部分日志都设置了清理策略,在暂存一段时间后都会被永久删除。究其原因,一方面是因为目前日志数据的分析和管理尚未引起高度重视,目前银行的应用系统仍然以响应业务为第一要素,系统上线后的运维也仅限于保证业务连续性等方面,虽然近些年来已经有一些利用大数据技术对系统数据进行分析的探索,但并未十分深入;而另一方面,也是由于对于日志的分析确实存在一些难点和问题。通过商业银行目前日志存储、产生、利用等相关情况的调查和分析,商业银行日志数据目前面临的几个问题主要有以下几个:

(1)日志规模大:以某国有银行为例,仅网银系统(仅包括企业、个人、手机等)一天产生的日志数量就达到71GB,这还仅仅是应用日志及交易日志,如果再加上系统日志、数据库日志、网络日志等数据,保守估计每日会产生近100GB的日志数据。而网银系统仅仅是商业银行信息系统中的一部分,核心业务系统、信贷系统、基金理财系统,每类系统每天都会产生大量的日志数据,传统的日志分析方法,如利用Linux脚本如grep、awk等已经无法满足如此海量日志的分析需求。

(2)日志格式不规范、存储形式复杂且分散:商业银行系统组成复杂,有自行开发的,有外购的,有外购二次开发的,也有开源改造的,如此复杂的系统构成,再加上对日志格式并未有明确的书写规范,导致商业银行各类日志的记录格式多样且不规范。且各应用系统的日志多为分散存储,形式多样,应用日志有记录在数据库中的,有记录在文本文件的,系统日志在不同的平台上更是有不同的存储路径和格式,各类日志散落在不同的地点,缺乏统一收集和管理的平台。

(3)日志用途单一:目前商业银行对于日志的用途多是用来查找问题,当生产系统出现问题时,查找该时点的日志,分析该问题产生原因。对日志的利用相对来讲较为单一,没有对日志进行更深层次的挖掘和分析。

四、基于日志分析的应用系统画像架构设计与分析

正如上节所述,目前商业银行日志数据分析存在日志规模大、日志格式不规范,存储形式分散、日志用途单一等难点,想要对应用系统日志数据进行有效分析,必须提出一种可行的方法和架构,能够解决这几个重点问题。本文通过对目前国内外同业研究现状进行分析,结合时下较为先进的大数据与画像技术,提出一种基于日志分析的应用系统画像架构,如图1所示:

图1 基于日志分析的应用系统画像架构

该架构分为三个层次和六个阶段,其中三个层次分别为数据层、处理层和应用层,其中数据层为对底层日志数据分类采集和梳理的过程,采取基于FLUME的分布式大数据提取框架,针对不同种类的日志,采取代理服务、文件传输、数据库DUMP、程序抓取、通信管道等形式对数据进行统一采集;处理层为架构的核心层,处理层包括三个阶段,从下至上分别是日志预处理及存储、日志特征提取和标签画像,完成日志的采集之后,首先要进行数据清洗、结构化、标准化、转码、特殊字段处理等预处理手段,且由于数据量巨大,需要采取分布式文件存储系统HDFS进行存储[5];预处理之后,利用Hadoop分布式集群,编写MapReduce分布式处理程序,利用数据挖掘、统计分析等算法,从日志中提取有效特征;根据从日志中提取的特征[6],从基本信息、业务运营、应用运行、运维操作、物理环境等五个维度,将各类特征归纳为标签,形成系统画像。应用层根据系统画像可了解自己所关注的系统运行情况,从而做出最优的决策分析,典型的应用场景有运营情况分析、系统健康检查、安全审计等。

上述构架中,采用时下主流分布式大数据收集框架Flume及分布式计算框架Hadoop来解决海量日志数据的收集和计算问题[7],并针对商业银行日志数据存放分散,类别多样的特点,集成了包括文件传输、数据库DUMP、程序抓取等多种方式在内的统一收集系统,并对数据进行清洗、标准化、结构化等预处理操作,解决了日志格式不规范、存储形式复杂且分散的问题。同时,针对日志中的有效字段,采取数据挖掘、统计分析等计算策略,提取特征,归纳标签,形成应用画像,增加了日志分析的意义,解决了日志用途单一的问题。

五、总结

基于日志分析的商业银行应用系统画像探索具有十分重要的研究意义,数据是商业银行的宝贵财富,日志数据蕴含了大量能直观反映系统运行情况的有效信息,通过从日志中提取的特征,归纳为标签,形成应用系统画像,对商业银行对应用系统的运维、优化及运营都有着至关重要的意义。对于业务人员,业务维度的画像可以使业务人员了解该系统的运营情况,及时调整运营策略,控制经济成本,提高营销精准度,调整业务资产投放等。对于运维人员,应用运行及物理环境维度的画像可以让他们更清楚系统当前的运行状况,灵活调整运维策略,及时对系统进行升级和优化。对于开发人员,可以根据应用系统画像,了解所开发系统的功能及性能短板,方便进行二次开发。对于审计人员,安全维度的标签可以帮助其快速了解系统的安全隐患,审计出非法或不合规的操作。

总之,基于日志分析的应用系统画像应该是商业银行探索日志分析的一个较有意义的研究方向,但仍然存在一些问题,如画像粒度的定义,数据的敏感程度,数据的处理能力,实时日志处理对系统性能的影响,都有待进一步研究和探索。

参考文献

[1]刘海,卢慧,阮金花,田丙强,胡守忠.基于“用户画像”挖掘的精准营销细分模型研究[J].丝绸,2015,12:37-42+47.

[2]丁伟,王题,刘新海,韩涵.基于大数据技术的手机用户画像与征信研究[J].邮电设计技术,2016,03:64-69.

[3]付伟.基于Hadoop的Web日志的分析平台的设计与实现[D].北京邮电大学,2015.

[4]胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究[J].电脑知识与技术,2010,22:6163-6164+6185.

[5]赵龙.基于Hadoop的海量搜索日志分析平台的设计和实现[D].大连理工大学,2013.

[6]薛文娟.基于层次聚类的日志分析技术研究[D].山东师范大学,2013.

[7]周秋彤.实时分布式Web日志分析系统的设计与实现[D].电子科技大学,2015.

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路