基于大数据审计的全量业务系统数据收集方法研究

2024-04-09 14:57庄晓明

信息系统工程 2024年3期

庄晓明

摘要：随着信息技术的快速发展，数据已成为企业的核心资产，如何有效地收集、处理和分析数据以支持决策成为企业面临的关键问题。业务系统数据是企业最直接、最完整的数据来源，包含大量有价值的信息。然而，传统数据收集方法在处理大量、多样性和实时性数据方面存在局限，难以满足企业对全量业务系统数据的需求。针对现有数据收集方法的不足，提出一种基于大数据的全量业务系统数据收集方法。通过对该方法的研究与实践，验证其在提高数据质量、满足业务需求和降低数据收集成本方面的有效性。

关键词：大数据；全量数据收集；业务系统；数据质量

一、前言

在信息技术快速发展的时代背景下，互联网的飞速发展推动了企业业务系统的爆炸性增长，数据产生速度之快达到了几何级数。这些数据蕴藏着无尽的信息宝藏，对企业决策和业务流程的优化起着至关重要的作用。因此，高效地收集和处理这些业务系统数据成为了企业面临的一大挑战。传统的数据收集和处理方法在面临大规模数据和数据多样性时显得力不从心，无法满足现代企业的需求。为了解决这个问题，必须探索基于大数据技术的全量业务系统数据收集方法。大数据技术以其强大的数据处理能力和对复杂数据类型的处理优势，为解决这一问题提供了新的可能性。大数据技术可以帮助企业收集和处理海量的业务系统数据，无论是结构化数据还是非结构化数据，都能够得到有效的处理。通过运用大数据技术，企业能够从这些数据中挖掘出有价值的信息，为决策提供有力的支持。此外，大数据技术还可以通过实时分析，帮助企业及时发现问题，快速响应市场变化，从而提高业务的灵活性和竞争力。

二、传统业务数据处理的主要问题

（一）人工处理速度慢，效率低下

在审计过程中，审计人员面临着一个棘手的问题，那就是大量业务数据的处理。采用传统的人工处理方式，不仅速度慢，而且容易出错，影响审计结果的准确性和可靠性[1]。

首先，在审计调查过程中，审计人员需要对海量数据进行检索、筛选、分析和计算。这个过程不仅耗时较长，而且容易因为人工操作失误而导致数据丢失或遗漏。在面对日益繁重的审计任务时，审计人员往往疲于应对，无法满足企业对审计工作的迫切需求。因此，提高审计效率势在必行。其次，人工处理方式的出错概率也较高。在审计过程中，数据精确性和完整性至关重要。然而，人工检索和计算大量数据时，审计人员容易因为疲劳、注意力不集中等原因出现失误，可能导致审计结果失真，给企业带来潜在的风险。为了避免这种情况，审计人员需要寻求更为可靠的处理手段。最后，采用人工处理方式还可能导致审计工作难以适应现代商业环境的快速变化。随着企业规模不断扩大，业务越来越复杂，审计面临的挑战也在不断增加。如果审计人员仍然依赖于传统的人工处理手段，将难以应对日益严峻的审计形势。

（二）计算机处理局限于数据统计和提取

随着科技的发展，计算机处理技术在业務数据处理方面的应用越来越广泛。然而，现有的计算机处理技术在业务数据处理方面侧重于数据统计和数据提取，而对于数据的真实性、准确性和相关性权重的辨识能力不足[2]，在一定程度上限制了审计工作的深入开展，影响了审计结果的准确性和可靠性。在数据统计方面，计算机处理技术能够快速对海量数据进行汇总、计算和分析，对于审计人员来说确实提高了工作效率，但是，在实际审计过程中，审计人员需要关注的不仅仅是数据的数量，更重要的是数据的真实性和准确性。现有的计算机处理技术在这方面的辨识能力较弱，容易导致审计人员忽视潜在的风险。在数据提取方面，计算机处理技术可以根据预设的规则和条件，快速从大量数据中筛选出符合要求的数据。然而，这种提取方式往往忽略了数据之间的关联性和内在逻辑。而在审计工作中，审计人员需要对关联性强的数据进行深入分析，以发现潜在的问题。因此，计算机处理技术在数据提取方面的局限性影响了审计工作的效果。

（三）数据处理缺乏智能化和自动化

当前的业务数据处理主要依赖于人工和计算机进行，而缺乏智能化和自动化的处理手段。缺乏智能化和自动化的数据处理手段会导致审计人员在处理大量数据时，需要耗费大量时间和精力。由于数据量庞大且复杂，人工筛选、分析和整理数据的工作量巨大，并且现有的人工和计算机数据处理方式容易出错[3]。在数据处理过程中，无论是人工还是计算机，都可能因为操作失误或算法缺陷等原因导致数据处理结果不准确，给审计工作带来潜在的风险，影响审计结果的可靠性。此外，现有数据处理方式难以适应审计工作需求的快速变化。随着企业业务越来越复杂，审计面临的问题也越来越多样化。然而，人工和计算机数据处理方式难以迅速调整和优化，使得审计人员在面对新兴业务领域时，难以有效应对。

三、全量业务系统数据收集系统的设计思路

（一）数据解译与提取

数据解译是企业内部数据挖掘的第一步。首先，需要对企业内部的各类数据进行解译。这些数据可能来自不同的业务系统，解译的目的是理解数据的来源、格式、含义等，为后续的数据提取提供基础。

其次，在数据解译的基础上，采用全量数据提取技术，综合考虑数据的完整性、准确性和及时性，确保提取到的数据能够真实反映业务情况。数据提取是数据挖掘的关键环节，关系到后续数据分析的质量。因此，在提取数据时，要确保不遗漏任何有用信息，保证数据的真实性和可靠性。

最后，提取到的原始数据可能包含噪声、缺失值、异常值等，需要进行数据预处理，将数据转化为干净、规整的数据，以便后续分析。数据预处理主要包括数据清洗、数据整合、数据转换等步骤。数据清洗是指对数据中的噪声、缺失值、异常值等进行处理，以提高数据质量。数据整合是指将来自不同业务系统的数据进行整合，形成一个统一的数据存储。数据转换是指将原始数据转换为适合后续分析的数据格式。

（二）数据关联关系分析

对于预处理过的数据，将运用数据挖掘技术，发现数据之间的关联关系。这些关联关系可能是显性的，也可能是隐性的。显性关联关系指的是数据之间的直接联系，而隐性关联关系指的是数据之间的潜在联系。挖掘数据关联关系有助于更好地理解数据之间的联系，为后续数据分析提供依据。

对于挖掘出的数据关联关系，将进行证据推理运算，以评估数据关联关系的强弱和准确性。这个过程可能涉及概率论、统计学等学科知识。证据推理运算旨在根据已知数据推断未知数据，从而为企业决策提供有力支持。

对推理运算的结果进行评估，判断其是否符合预期。如果不符合，需要调整数据挖掘和推理运算的参数，直到取得满意的结果，评估结果包括关联关系的强度、准确性等指标。

（三）数据匹配与价值提取

数据匹配是企业内部数据挖掘的重要环节，其目的是在大量数据中找到具有相似特征的数据。数据匹配的过程可以采用聚类、分类等机器学习技术。通过数据匹配，企业可以更好地理解数据之间的内在联系，为后续的数据分析和应用提供基础。在数据匹配的基础上，企业需要进一步提取出具有较高价值的数据。这些数据包括但不仅限于关键业务数据、异常业务数据、潜在业务机会等。价值数据的提取有助于企业发现潜在的业务机会，优化业务流程，提高业务效率。

对于提取出的有价值数据，企业需要利用特征项集比对引擎对其类型和值进行比对。可以把比对过程看作是数据校验，目的是确保数据的正确性和一致性。特征项集比对引擎可以帮助企业发现数据中的错误和异常，从而提高数据质量。比对引擎会将正确信息进行持久化存储，以便后续的审计调查使用。此外，企业还需对整个数据收集过程进行监控和跟踪，以便在出现问题时进行溯源和解决。数据持久化存储可以确保数据的稳定性和可追溯性。

四、全量业务系统数据收集系统的设计策略

（一）企业内部数据全量提取设计

根据企业内部系统授权，或通过 HOOK 技术接口对企业内部数据文件进行解译，使用全量数据提取技术，提取目标业务系统中的所有数据。针对提取的数据进行预处理，包括数据清洗、去重、格式转换等，以便后续数据分析。

在数据分析引擎中，事先设置业务关联关系，其中一部分信息需要手动录入备用。这些业务关联关系包括项目投标信息和供应商信息等，信息是后续关联关系推理的基础。构建一个数据证据推理运算引擎，它的功能如下：1.根据手动录入的关联预置信息，例如项目投标信息中的标段编号和供应商信息中的供应商编号，用于推断标段与供应商之间的关系。2.通过供應商之间的推理，判断是否存在信息关联，例如同源关系和中标关系，以此类推。

使用了可靠性因子（r）和重要性权重（w）来衡量证据的质量和重要性。可靠性因子（r）表示信息源能够对问题提供精确评估或解答的能力，它是证据的固有属性。重要性权重（w）则用于确定某个证据相对于其他证据的重要性，取决于哪些证据被使用以及使用情境。

（二）系统数据处理逻辑设计

该系统利用相似性评估数据之间的相似程度。在数据处理领域，相似性应用广泛，用于判断数据相关性、发现相似数据、去除多余信息，以及进行数据清理。数据挖掘、机器学习和模式识别等领域都重视相似性的概念。通过计算数据的相似性，操作者能将相似的数据聚合，形成不同的群组，公式（1）表示X_i^k匹配A_j^i的相似度，用于后续衡量属性X和类别Y之间的关系：

（1）

相似性对于数据处理和分类问题都至关重要。在分类问题中，可靠性是一个核心概念，它反映属性的分类能力。越可靠的属性越能明确地分类样本，而可靠性高的属性具有较小的属性值重叠。因此，信息源的可靠性可定义为能够直接基于属性判断为某个具体类别的样本数量。这一数量越大，属性的可靠性越高。其中aij为相似度，Xik为区间分布（如：投标价格区间），Aji为读取的样本数据（如：从业务系统中获取的投标价格数据）相似度和，an，j是所有样本对Xik匹配Aji，同时该样本属于yn的相似度和。将公式（1）相似度分组求和获得如表1所示。

相似性和可靠性在数据处理和分类问题中发挥着重要作用。它们帮助操作者理解数据之间的关系，识别相似性，以及评估属性的可靠性。这对于数据挖掘、机器学习和模式识别等领域具有深远的意义。yn为各样本特征值类别，δn为样本个数， Cn，j为特征的似然函数值列表，将结果输入得到单一特征似然函数表，再将计算所得输入得到信度矩阵表。

∑k=1N Ck，j对似然函数表进行累加得到总和，计算出βn，ji 信度矩阵列表，使用新的样本，某个特征X的值Xik在类别yn中的信度由加权和计算求得Pn，i=an，jβn，ji+ai，j+1βn，j+1i，可靠性高的属性下，不同类的属性值区间之间具有相对小的重叠。因此，信息源X_i的可靠性可以定义：

（2）

其中，Qi表示能够直接根据属性Xi判断为某个具体类的样本数量，它越大，属性的可靠性越高。

（三）数据特征项集比对与应用

进行数据特征项集比对的目的是为了维护数据的一致性、准确性和可靠性，这是数据管理和分析过程中的关键环节。通过比较不同数据集中的特征项，可以识别和解决数据冗余、错误和不一致的问题，这对于确保数据质量和提高数据分析和决策的效率至关重要。此外，特征项集比对还有助于发现数据之间的关系，支持数据挖掘和机器学习项目，以及确保数据符合特定行业的法规和标准。系统的匹配项分为类型匹配、语义匹配和数据质量匹配三类，类型匹配是根据数据对象的属性类型进行匹配，以确保匹配的数据具有相同的类型。这一步骤主要是为了确保后续的数据处理和分析能够顺利进行。语义匹配是根据数据对象的属性值进行匹配，以找到具有相同或相似含义的数据。这一步骤主要是为了消除由于词义差异导致的匹配误差。数据质量匹配是根据数据对象的属性值进行匹配，此过程会重点关注数据的质量，如数据的完整性、一致性和准确性等。这一步骤主要是为了确保匹配到的数据具有较高的质量。

在完成数据特征项匹配后，这些价值数据将作为后续数据特征项集比对训练引擎的输入，以便进行进一步处理和分析，将训练样本数据归一化到[0，1]之间，根据实际需求创建合适的神经网络结构。在本研究中，采用BP（反向传播）神经网络进行训练，设置BP神经网络的训练参数，如精度、次数和固定值等，这些参数将影响模型的性能和训练速度，如果发现准确率较低，可以针对失真对象返回预处理阶段重新训练。

五、结语

研究针对当前企业全量业务系统数据收集的难题，提出了一种基于大数据的全量业务系统数据收集方法。该方法从数据解译与提取、数据关联关系分析、数据匹配与价值提取等方面进行设计，可以有效解决传统数据收集方法在处理大量、多样性和实时性数据方面的局限性，通过该方法的推广，可以解决大数据时代企业业务数据处理难、大的问题，有助于企业充分利用数据资产，提高业务处理效率和决策水平。

参考文献

[1]张永智，何可人.基于大数据技术的全量数据中心的建设[J].电子技术与软件工程，2022（15）：200-203.

[2]刘根寅.云制造环境下车间生产大数据处理系统研究与开发[D].沈阳：沈阳工业大学，2022.

[3]汪争贤，吴建琳，陈胡嵘，等.基于数据中台的财务大数据可视化分析的实现[J].经济研究导刊，2021（20）：128-130.

责任编辑：张津平、尚丹