基于OCR技术的电网设备台账标签采集功能设计研究

2021-07-11 08:16杨远航石恒初张荣奎孔德志
电子设计工程 2021年13期
关键词:字符台账标签

杨远航,张 鑫,石恒初,张荣奎,孔德志

(1.云南电力调度控制中心,云南昆明 650011;2.云南云电同方科技有限公司,云南 昆明 650200)

电网设备的运行维护工作是电力工业中的基础环节,正常电力运维的工作主要包括设备的日常巡视、设备的缺陷管理和检修、设备台账的维护以及设备隐患管理[1]。运维工作需要处理的事务较多,繁琐费时,为了提高工作效率,对电网设备台账输入的方式进行创新使用,以往台账输入多依赖于人工,电力设备台账输入自动化的创新使用节省了大量人力。电力设备台账输入的自动化主要通过电网设备台账标签采集功能实现,通过标签采集功能,自动获取电网设备台账信息[2]。以往使用的电网设备台账标签采集功能多数受到使用平台的限制,存在兼容性差的问题,因此,采用OCR 技术,设计基于OCR 技术的电网设备台账标签采集功能[3-5]。将该技术应用在电网设备台账标签采集功能中,减少人力手动输入的时间,大幅度提升工作效率,同时解决以往电网设备台账标签采集功能存在的兼容性差的问题。

1 采集功能设计

1.1 电网设备台账标签图像处理

电网设备台账多数以文本图像的形式存在,其中包含大量的文本信息,为电网设备制定合适大小的台账标签,利用OCR 技术识别标签,获取其中的电网设备信息,通过采集功能采集到计算机中。

通常采用光学扫描仪使用OCR 技术识别图像,分辨率是重要参数,描述了在空间上的精细程度[6]。获得图像后,对图像进行预处理,图像预处理的好坏将会直接影响OCR 技术的实际识别能力,预处理主要包括二值化、去噪、形变反变换等[7-8]。

经过二值化处理的图像前后显示如图1 所示。

图1 二值化处理前后文本图像

其处理过程主要利用二值数学形态学,其基本运算包括膨胀、腐蚀[9]。在形态变换过程中,将结构元素设置为Q(r),对工作空间W中的每一点r,膨胀的定义为:

图2 预处理后的目标图像

从图中可以明显看出,与原始的目标图像相比,经过预处理后的图像更加清晰,空白处也得到了填补。

1.2 提取电网设备台账标签文本图像特征

在完成图像预处理操作后,得到二值图像。使用OCR 技术识别图像文本信息特征,OCR 识别文本信息关键在于字符分割和特征提取。利用光学仪器扫描目标图像后[13],借助图像的水平投影实现行切分,水平投影和垂直投影效果如图3 所示。

图3 文本图像投影效果

投影的计算公式如下:

找到最后一条黑色像素点个数为0 的白色文本行,将其标记为Line(i++),作为行文本的上下分界线,依此找满足条件的边界线,完成文本图像行切分。

字符切分需借助图像的垂直投影实现,垂直投影的计算公式如式(5)所示。

扫描文本图像像素矩阵,将最后一个不等于0的垂直线段记为C(i),将第一个等于0 的垂直线段记为C(j),位于C(i)和C(j)之间的字符就是切分的单一字符,继续执行扫描操作,确定所有字符的左右分界线,完成字符切分任务。

由于某些英文字符和中文字符是合体字,字符之间的间隔区分不明显,在切分时,容易造成字符的错误切割[14]。因此对英文字符和中文字符分别采取不同的解决方案,避免出现误判的情况。对于等宽字符,采用固定宽度的滑动窗口进行字符隔离;对于非等宽字符,模糊处理宽度值大于平均值的字符,重新切分下一个切分点的英文字符。

对于中文字符,根据垂直投影将文本切割成单个字符,再根据字符宽度分类,得到正确的字符宽度后进行二次分割[15]。中文字符分割流程如图4 所示。

图4 中文字符分割流程图

通过上述过程将电网设备台账标签文本图像中的字符进行切分,达到提升文本图像质量的目的,进而提取文本图像中的字符结构特征。结构特征指的是字符本身具有的特点,用于标识出唯一汉字。

天葬师仍然没有转头,直到颤巍巍地走出几步之后,回答的声音才终于响起:“天葬师也无权驳回任何一个族人提出的,关乎云浮兴衰存亡的诉求!”

计算每个像素点的方向线索特征,根据组成汉字的基本元素以及其元素的反方向一共构成一个8维的方向矢量,如图5 所示。

图5 方向矢量示意图

依据图5 所示方向矢量图,计算8 维矢量的和,最后得到一个128 维的矢量就是文本图像字符方向像素矢量特征。

1.3 采集电网设备台账标签信息

设计电网设备台账标签采集功能,将其与服务器直接进行数据交互,使用OCR 相机对标签进行拍摄[16],通过上述图像预处理与特征提取过程,得到文本信息,将标签信息整合并传送至服务器中。

控制相机拍摄电网设备台账标签,使用OCR 技术对相机拍摄到的图像进行光学字符识别处理,将文本信息转换为字符串,上传至服务器并存储在本地数据库中。采集功能的实现主要依赖于通信接口电路,保证采集的信息安全合理地传输至数据库中。

使用常用的RS-232 标准串口进行通信,由于RS-232 标准采用-15~-3 V 和+3~+15 V 电平范围定义逻辑“1”和“0”,方便提高数据传输的抗干扰能力,由此设计RS-232 通信接口电路,如图6 所示。

图6 RS-232通信接口电路

通过设计的通信接口电路,使得经过OCR 技术处理并识别的电网设备台账标签信息能够传输至数据库中,保证采集功能正常运行。至此,基于OCR技术的电网设备台账标签采集功能设计完成。

2 电网设备台账标签采集功能仿真测试

2.1 测试准备

一般情况下,电网设备台账标签采集功能依赖于计算机系统,针对以往的采集功能存在兼容性差的问题,电网设备台账标签采集功能仿真测试基于Windows 系统实现,在计算机中使用数据模拟器生成随机的数据流,使用基于不同技术的电网设备台账标签采集功能采集数据,通过采集完成后的反馈结果,分析基于不同技术的电网设备台账标签采集功能的兼容性。命令执行界面如图7 所示。

图7 数据流随机生成命令执行界面

随机选取的数据流相关属性如表1 所示。

表1 测试数据属性

为了保证功能测试的公平性,使用表中随机生成的数据,测试基于不同技术的电网设备台账标签采集功能。

2.2 兼容性测试结果及分析

使用基于RFID 技术的电网设备台账标签采集方法获得测试结果1,使用基于机器学习的采集功能获得测试结果2,使用基于OCR 技术的电网设备台账标签功能获得测试结果3。具体的测试结果如图8所示。

从图8 显示结果中可以看出,测试结果1 中的第3 组和第5 组出现请求未响应情况,第6 组和第9组测试出现请求超时的情况;测试结果2 中同样第3组存在请求未响应的情况,第5 组和第10 组存在请求超时的情况;测试结果3 中测试结果正常,未出现异常情况。综上所述,设计的基于OCR 技术的电网设备台账标签采集功能比其他两种更加完善,没有出现异常情况,兼容性更好。

图8 基于不同技术的采集功能测试结果

3 结束语

电网设备台账标签采集功能的出现对电网设备的管理与巡检有重要意义,通过采集功能大大节省了电网设备巡检和管理所需的人力物力,提高了工作效率。文章通过设计基于OCR 技术的电网设备台账标签采集功能,解决了以往采集功能中存在的问题,通过应用OCR 技术使得电网设备调账标签采集功能兼容性更好。

猜你喜欢
字符台账标签
字符代表几
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
消失的殖民村庄和神秘字符
无惧标签 Alfa Romeo Giulia 200HP
工作落实,一本台账起什么作用?
不害怕撕掉标签的人,都活出了真正的漂亮
靖边规范基层党建工作台账
标签化伤害了谁
科学家的标签