关于电子家谱数据采集工作及结构设计实现方案

2018-02-15 17:15付昱承徐爱惜陈新文
西部皮革 2018年15期
关键词:二叉树字符识别家谱

付昱承,徐爱惜,陈新文

1 引言

随着电子信息产业的不断发展,电子家谱逐渐进入实际应用。平台设定细致的家谱重建流程,或利用光学字符识别(Optical Character Recognition)技术对非手写家谱进行扫描,转换为计算机文字,切片后存入数据库。并且考虑到家谱系统的复杂性,家谱数据结构的设计决定了管理操作的便捷与实用性。

2 项目实施方案

2.1 家谱数据采集工作

2.1.1 手动导入数据生成电子谱

作为电子家谱平台,各家各户的家谱数据是基础。家谱修订通常由氏族德高望重之人负责,他们处理宗祠等氏族内部事务,有一定的威信和号召力。这部分人更加注重氏族的光宗耀祖,后继有人,因此会大力修订家谱,促使氏族兴旺繁荣。经历长期走访调研以及针对传统家谱制作方式的考察,平台设计了一套电子谱生成方式。其主要操作流程如下:

(1)根据姓氏,创建新家谱,添加家谱基本信息。并查询整理已有老谱资料,成立家谱编纂小组。

(2)制定家谱编纂提纲及编修工作进程安排。

(3)前言后记攥写、列出谱系目录、例句等。

(4)印制调查表格,安排家谱编纂小组成员按照提纲进行资料调查及征集。

(5)选择家谱编修体例,确定采用欧体、苏体、树形图或塔形图。

(6)选择家谱信息录入方式,可采用光学字符识别技术直接扫描老谱生成电子谱,并对生成家谱中的信息进行勘误和补充。若无法使用字符识别技术进行电子家谱制作,根据编撰小组提交的资料,进行了族谱编辑、老谱系的选择、世系、世界表的排列等工作,对家谱的谱序、传记、家训、家规、题跋、世系图等历史的文集信息进行编辑录入。

(7)编辑好家谱的基本信息,开始按要求依次录入家族成员信息。

2.1.2 光学字符识别技术识别纸质谱

光学字符识别技术是利用光学技术和计算机技术扫描识别纸中文字,并转换成计算机可接受、人又可理解的格式。利用当前已经成熟的字符识别技术、针对家谱信息改良的语义分析算法,解决在纸质谱转电子谱过程中的印刷文本读取识别与人物关系(如父子)的追溯两大难点。与智能手机、数码相机和扫描仪等设备(为确保数据准确,结合当前OCR的识别效果,推荐使用扫描仪)配合使用,使族谱编写更高效。具体识别流程如下:

(1)收集族谱图片:使用扫描仪扫描纸质族谱,设置合适的扫描分辨率,若分辨率过高则会导致扫描时间增加。一般采用300dpi较合适,可根据字号大小进行调整。对于一些纸张较薄的稿件,巧妙使用灰色扫描/图片灰度化处理处理。避免受到背面文字干扰。R、G、B三个取值范围:0~255,像素颜色有24次方种选择,计算像素RGB的三个分量的均值,存储于相应的矩阵中,构造灰度图像。以jpg/png格式结束。

(2)对图片预处理:

噪声去除:用高斯模糊和其他滤波器对图片进行处理,去除大部分的噪声,可使图像在后面的应用中减少许多干扰。

二值化:考虑到摄像头拍摄的图片大多为彩色图像,包含信息量相比于黑白图像更大,可简单定义前景信息为黑色,背景信息为白色,其关键在于阈值T选择,阈值确定后可将多灰度级图像的每一点与阈值比较,大于T即二值化为1,反之则为0,便于后续的处理。

图像倾斜矫正:考虑到人工对原图的拍摄或扫描角度有一定误差,最终图像在水平或竖直方向有一定程度的倾斜,即可能导致后续表格分割出现偏差、识别率低下等情况。通过边缘检测与霍夫线变换算法,对图中表格轮廓进行检测,得到水平和竖直方向的线条。之后通过独创的角度矫正算法,对表格的水平方向和竖直方向的倾斜角度进行判断,再进行矫正,得到规整的图片,用于下一步的表格化分割。

(3)对图片进行表格化分割:通过上一步得到的规整图片,再次进行霍夫线变换检测出表格的线条轮廓。针对族谱的不同样式使用不同的切割模型进行分析,得出表格的形状结构,之后对表格中各单元格进行分割,得到每个单元格的小图片,用于进一步的识别。

(4)调用文字识别接口:目前有很多训练成熟的OCR接口,将每个单元格的图片导入,经过识别后返回的内容数据。识别率通常可达95%以上。

(5)根据表格格式组合信息:根据不同的表格格式设计不同的信息组合方式,将各个单元格的识别内容根据原图片表格的结构进行组合,得到需要的结构化数据并进行人工核对。

(6)语义分析:对于理解语句意思,尤其是文言文,准确的判断主谓、述语与宾语等之间的名词与动词的语义对提炼关键信息极其重要。按表格分割数据后,将各个位置的信息定位并提取,主要提取出姓名,简介,根据简介信息提取出其父亲姓名,并分析是其第几子。具体方法:首先在简介中查找“长子”“次子”“三子”等关键词,在这些关键词之前的便是其父亲名,再根据“长子”“次子”“三子”等确定是其父亲的第几子。对简介中类似“生”“娶”“适”“葬”等动词进行判断,分析动词的施事和受事,对家谱信息的精确提炼有现实意义。

(7)数据存入数据库:根据语义分析出的人物关系,将识别出的人物基本信息存入数据库,用于后续的建树。 注:OCR对于印刷体(包括活字印刷)的识别已十分成熟,但由于手写体各具特色,因此目前尚未能对手写体进行有效的识别,即对于年代久远的非印刷版老谱,还需人工手动导入平台。

2.2 家谱数据结构设计

2.2.1 一般结构分析

宗谱的核心内容是谱系,采用线、图、立表的形式,将一个姓氏的第一宗族和以下各种后代布列起来,给人留以清晰印象。上述字符识别技术中的结构化数据,能够清晰对应家谱数据中的每个节点。同家谱数据中由后代节点和父代节点分别组成家谱树的特点对应,电子家谱系统通常采用树形结构。

2.2.2 数据结构

二叉树是每个节点最多有两个子树的树结构。基本数据结构中树与家谱体系结构十分相似,前后辈间的节点关系就是树中父节点与子节点的关系。二叉树的存储结构比较简单,对于遍历等基本操作比较方便,所以有时需要把复杂的树,转换为简单的二叉树后再作处理。在此系统的二叉树中,设计左子树第一节点为父节点的兄弟,右子树第一节点为父节点的儿子。

2.2.3 数据存储方法

本平台采用三叉链表存储二叉树,与二叉链表不同的是,除指向孩子与兄弟的指针外,还需一个指向父节点的指针以便回溯祖先节点,并且便于确立节点间的关系。选定家族成员作为基本的数据单元,定义结构体BiTNode及各类指针。

2.3 家谱树可视化展示

电子家谱的可视化形式是家谱信息化的重要组成部分。针对已有家谱树中,边的数量随节点数增长而快速增长导致可视化效果差的问题,可以选择不考虑夫妻关系从而减少边的数量。从而形成每一个父/母节点的入点与多个单个孩子组成的出点集相对的关系模式。应传统家谱中未记录女性家族成员,即为了保证现代人工导入数据与OCR识别传统纸质谱所获得数据的存储方法一致,数据存储方法中不需要考虑夫妻关系,将女性成员信息收入其父亲家族所在谱中,从而保证数据的统一,使展示结果清晰易懂。在用户界面中,可对每一层中的兄弟节点进行归纳,以集合的形式展示,增强家谱树的表现力。

3 结语

目前市场上有对家谱互联网化的方向倾斜,但仍不够完善。能够使互联网家谱去中心化,实现人人参与修谱的灵活操作,使整份族谱更全面、完善的修谱软件依旧缺失。本平台运用的家谱管理方法和修谱手段,降低管理成本,优化修谱流程,实现对家谱资源记载的重新挖掘。具有显著的经济效益和社会效益。利用光学字符识别技术,在保证效率的前提下实现家谱数据开发式的收集,通过不同的切割模型提取关键信息,语义分析发掘深层次的信息价值。优化存储过程和可视化形式,实现从扫描到树形可视化的迅速转换。但OCR技术针对手写体和年久失修的老谱识别率暂未达到要求,以及如何展示具有夫妻关系且可视化效果强的家谱图,是笔者暂未能解决的问题。

参考文献∶

[1]关于Android平台的OCR文字识别[J].数字技术与应用,2017(07).

[2]陈国军,张庭玉.基于二叉树的电子家谱设计方法[J].软件,2015.

[3]刘军丹,赵书良,赵娇娇,郭晓波,陈敏,柳萌萌.家谱关系的元图表示[J].计算机应用,2013(07).

[4]王纪坤,刘晶红.寻根问祖,薪火相传——从文化寻根思潮探析谱牒文献的社会文化价值[J].图书与情报,2009(05).

[5]耿宇航.扫描仪使用OCR技巧[J].中国现代教育装备,2008(10).

[6]孙良明.谈古文训诂中的语义关系分析——兼述读俞樾《诸子平议》《群经平议》[J].古籍整理研究学刊,1997(03).

猜你喜欢
二叉树字符识别家谱
家即是国,钩沉史海乐为舟——“家谱文化的传扬者”朱炳国
基于双向二叉树的多级菜单设计及实现
二叉树创建方法
一种基于SVM 的多类文本二叉树分类算法∗
数据结构与虚拟仪器结合教学案例
——基于二叉树的图像加密
家谱:中华优秀传统文化的传承
融合字符及字符排列特征的铭牌识别方法
一种基于OpenCV的车牌识别方法
基于MATLAB的图片中字符的分割与识别
从《家谱》看吉林回族的源流与走向