基于分词技术的地址标准化治理方法与实现

2023-08-31 06:42杨海杰
大众标准化 2023年15期
关键词:分词标准化网格

葛 燕,杨海杰

(1.广州市工业和信息化产业发展中心,广东 广州 510030;2.广州市数字政府运营中心,广东 广州 510630)

1 引言

1.1 地址数据的现状

地名地址数据作为最常用的社会公共信息资源之一,不仅与人们的日常生活息息相关,而且是政府行政管理、经济建设、国内外信息交往不可或缺的基础信息资源。目前城市地址信息主要分散在公安、规划、住建、网格管理等多个部门,民政部门负责道路街巷命名,公安部门负责门楼号牌管理,规划部门负责建筑物、小区审批,网格管理部门负责实有人口、房屋信息采集。由于不同部门之间的地址信息资源相对独立,遵循各自的行业标准,地址格式和命名规范缺乏统一的规范和标准,难以进行关联整合。此外,政府各职能部门信息系统在采集地址时大多采用手工录入,地址的规范性和准确性得不到保证,给城市管理和社会治理带来诸多困难和不便。

1.2 地址数据应该标准化

标准地址不仅是表达清晰、规范、准确的地点,而且归属于特定的行政区、街镇、社区、网格,甚至归属于具体的责任人,根据业务地址找到与之对应的标准地址就能把对应数据、问题划归到特定的行政区、街镇,甚至是负责人员,方便有关政府部门采取即时查证、处置、评估、预防等干预措施,进而让城市网格化管理落到实处,让城市生活变得更便捷、更美好。

2 标准地址库建设

2.1 标准地址库建设内容

标准地址是某个地址的唯一标识,包括地址编码和标准的地址文本描述。标准地址与其他标准数据一样,一般是由某个权威部门发布的、形式规范的、满足规则和管理要求的数据,不同之处在于标准地址还标记了所属的行政区划、街镇、社区、网格、经纬度,甚至还有标准建筑物,而这部分数据既是地址标准化的价值,也是地址标准化之目的所在。

通过整合公安、民政、规划、住建等现有地址标准,基于网格化服务和管理工作,建立贯穿市、区(县)、街道(乡镇)、社区(村)、工作网格、基础网格、建筑物、房屋(户室)等多层结构的空间地理与地址体系,形成统一的地址标准。

2.2 标准地址的层级结构

标准地址虽然也是一个字符串,但是非常规整,具有良好的层级结构,如下图1所示。标准地址存储应采用多表存储、关联表达完整的标准地址。

图1 城市地址数据标准表述

3 地址标准化治理

3.1 摘要匹配原理

业务地址是人们在工作中、生活中使用的地址,是业务系统地址数据的统称,也泛指所有的非标准地址。

首先,业务地址和身份证号码、电话号码等数据一样,如通过公众口述录入或公众直接填写登记,则容易导致出现全角数字、全角符号、空格、回车、换行、特殊字符的情况,有时也有某侧、左右、路口、入口、出口、附近、与、和、多少米等模糊的定位词。因此,在地址数据治理时应该先对数据进行清洗,如检查、修复,替换为半角字符,剔除特殊字符,去除模糊词。

其次,经过初步治理的业务地址也不能简单的和标准地址进行连接匹配。在实际业务中统计发现,两个地址一模一样的概率相对较低,甚至可能低于20%。这个概率远远不满足治理目标和分析应用的需要。

业务地址和标准地址匹配治理的本质是语义相同或相近,也可解释为是字符串的相似。但是对于语义相同或相近的判断往往是非常困难的,即使是字符串相似也需要耗时巨大的运算,因此通过一条业务地址和全部标准地址进行相似性比较是行不通的。

业务地址虽然不能直接和标准地址进行运算,但可以抽取标准地址、业务地址的摘要信息,同时对摘要信息进行匹配,匹配成功后将业务地址和对应的标准地址进行字符串相似性或语义比较,取两者相同或最相似的,这就是地址摘要匹配的原理。如下图2所示,这样不仅能够找到目标地址,而且可以大幅降低地址匹配运算的数据规模,满足了政务应用的需要。

图2 摘要匹配原理示意

3.2 分词生成摘要

摘要是地址的浓缩,也是地址的子串。不论标准地址还是业务地址都可以生成多个摘要,生成摘要的过程首先就是分词,摘要是分词的目的,分词是摘要生成的手段。

分词不是新概念,在自然语言处理(NLP)技术中,分词是一项基础能力。不论英文、中文文本都有多种分词算法、框架、产品,借助词库的和不借助词库的,分词实现的选择空间很大,分词效果也对地址匹配结果有很大、很直接的影响。

因此,摘要生成越多,越容易实现业务地址与标准地址的连接,从而保证地址标准化治理的匹配度指标。摘要生成后也应进行质量评估,抛弃过短、分异性差的摘要。

3.3 摘要编目查找

几百万条标准地址在业务地址匹配前全部完成分词,便于以高速查找方式进行存储,需要构造倒排索引结构、全部数据驻留内存、支持散列查找、链接雷同摘要的多地址。其中,摘要和标准地址是多对多关系,即一个摘要可以指向多个不同的标准地址,少则几十个,多则几十万个。且一个地址也可以产生很多摘要,通常是几十个。

文章实现的高效倒排索引结构、散列表、链接关系如下图3所示,Value存储体存放标准地址数据,其中也按需存放行政区、街镇、网格、经纬度,一个标准地址一条记录,Idx、Hash存储体没有冗余,因此整体内存占用不大,长驻内存,支持多线程并发的只读访问。

图3 摘要倒排索引散列表结构

存储结构必须用散列表,因为其平均查找长度是小于2的常数,与查找的数据规模无关,而且数据规模越大优势越明显。标准地址几百万条,衍生的摘要有几千万条,一条业务地址查找几十次,用非散列查找性能无法保证。散列表构造资料很多,java的hashmap、Redis实现均可参考。

3.4 相似性比较

摘要技术能够使一个业务地址和多个标准地址连接起来,但如果还要找出最接近的那个,需要利用语义或字符串相似算法进行判定。

与前述的分词类似,字符串相似算法也很多,文章主要采用BM25。BM是Best Match的缩写,25指的是第25次算法迭代,该算法也是Elastic Search采用的一种用来评价搜索词和文档之间的相似度算法。它是一种基于概率检索模型提出的算法,借鉴了词频、逆向文档频率和向量空间模型。词频即分词单元在文档中出现的频率,由于每个文本的长度不同,一个单词在长文档中出现的次数可能比短文档中出现的次数要多得多,相当于一个词出现的次数越多,它的得分就越高。通过对地址通用词语“街道、路、巷,楼、幢、栋、小区”的加权处理,可突出多层级地址要素的重要性,有效提高重点关键词在地址匹配的权重,大大提高准确度。

4 地址标准化治理服务构建

4.1 地址标准化治理服务器

业务系统本身缺少地址标准化治理能力,如果能将地址标准化治理能力封装为一个服务器,可以简单集成到各种业务系统中,使得业务系统可以方便地调用地址标准化治理功能,从而将地址标准化治理研究成果应用推广,实现广泛、快速治理地址数据,并享受标准地址标记准确的行政区划、街镇、社区、网格、经纬度、标准建筑物等信息带来的好处,让业务系统变得更加智能化、人性化。

地址标准化治理服务器提供常用功能包括:单条业务地址标准化匹配治理、批量业务地址标准化匹配治理、业务地址关联地址查询、POI(Place Of Information 兴趣点)匹配标准地址、经纬度匹配标准地址、地址查经纬度、多边形查标准地址等功能。

地址标准化治理服务可以以服务或SDK的方式使用,服务可以是HTTP、socket、命名管道等形式,SDK则支持c、c++、java、python等开发语言。

4.2 并发匹配

地址标准化治理服务器除稳定、可靠外,还要有较好的性能,才能保证可用性。摘要技术能够使一个业务地址和多个标准地址连接起来,一个摘要可能导致一个业务地址和几千、几万个标准地址连接,连接还要通过耗时的相似性计算求出唯一目标地址,而且摘要生成目标非常多,造成一条业务地址的匹配治理产生很大计算量,批量业务地址标准化匹配治理的开销更大。

文章实践中采用pthread的多线程、无锁缓冲区等技术,充分利用了硬件资源,实现批量业务地址的并发计算,较好解决了性能和实用性问题。

4.3 地址标准化治理效果

在地址标准化治理精度、匹配度指标充分保证和地址标准化服务器功能完备的前提下,业务系统可以在短时间内完成地址标准化治理能力构建。比如某市城中村专项数据治理项目,仅用两周时间就完成了全部业务地址治理。特定重点人群的业务地址与标准地址匹配率为33.58%,使用本文地址治理方式,匹配率提升到80.90%,增长47%。水电气用户地址与标准地址匹配率从原来的25.48%提升到71.43%,增长46%。

应用城中村专项数据治理项目的经验,某市人口库的地址标准化治理能力得到极大提升,实有人口地址数据治理标准化率达到95%以上,形成人口基础底数“一本明白账”,有效支撑了城市实有人口的精细化管理。

5 结束语

基于分词技术的地址标准化治理方法是一种很实用的数据治理方法,该方法思路巧妙且易于实现,充分利用计算机并行计算能力,有效降低计算任务的时间开销,使业务系统在获得地址数据时,即时进行地址标准化治理成为可能。

地址标准化治理是智慧城市运营管理的空间块数据基础技术,有着广阔的应用前景,诸如AI、语义相关摘要生成方法、方向值得深入研究,欢迎感兴趣的同仁、朋友共同参与、探讨,推动基础数据治理技术的快速发展和广泛应用。

猜你喜欢
分词标准化网格
用全等三角形破解网格题
标准化简述
分词在英语教学中的妙用
反射的椭圆随机偏微分方程的网格逼近
结巴分词在词云中的应用
结巴分词在词云中的应用
重叠网格装配中的一种改进ADT搜索方法
标准化是综合交通运输的保障——解读《交通运输标准化体系》
基于曲面展开的自由曲面网格划分
论汽车维修诊断标准化(上)