400-138-3836

京华智能校对机器人产品白皮书

来源:发布时间:2021-08-30

分享到:


 1.1 趋势和需求

      抗疫期间,“湖北省张家界市”“四川省重庆市江津区”等低级错误屡屡出现在官媒、公文中,失之毫厘,差之千里,中央纪委国家监委网站为此发表了批评文章《公文出错事非小》。文风里面有作风,其背后是政府公信力和企业经营水平,正所谓:肩上有责任,笔下有乾坤!

      在机关和企业中,估计很多笔杆子都有这样的经历,辛苦加了几个夜班写成的文稿,自信满满地交给领导审阅,谁知上来就被圈上了几个错字、病句和误用的标点符号,细一看还有逻辑不通的情况。如果这些错误没有及时发现和修订,相关文件发布后将产生严重的不良影响。

      如何避免出现这种尴尬状况、保证文件质量?可谓写作开流、修改正本、校对净后,校对是对写作、修改的补充和完善,是文书相关工作中必不可少的一环。



  1.2 产品简介

      京华智能校对机器人(以下简称校对机器人)是一款针对文书的内容和形式进行纠错的应用软件。它主要是帮助党政机关、企事业单位办公人员在文书写作、核稿等过程中快速地发现和订正错误,降低文书错误量,提高文书质量。

      校对机器人纠错支持漏字、多字、拼写错误、内容重复、领导称谓及排位不当、标点符号使用不当、文书语义错误、病句等几大类几十种错误。

      校对机器人具有自我学习能力,采用了机器学习技术,针对用户不断输入的语料进行定期训练和更新纠错模型,保证持续和稳定的提升纠错精准度。

      校对机器人可以具有独立系统、嵌入办公套件(金山WPS、永中Office、微软Office、网页编辑器等)、与OA集成等多元使用场景。



  1.3 产品架构

(手机端用户请用双指缩放)




2.1  纠错支持几十种错误


(手机端用户请用双指缩放)



2.1.1  字词错误


(手机端用户请用双指缩放)

① 漏字
在打字输入过程中少打了一字或修改内容时误删除了一个字,导致内容上缺少一字。例如:
例子1:结合易地扶贫搬迁工作实际。(全-->全国)
例子2:关于“广西区对中央巡视‘回头看’反馈的多建安置住房问题整改不实”问题。(项-->专项)
例子3:自治区工业和信息厅关于印发2021年度XX方案的通知。(信息-->信息化)

② 多字
在打字输入过程中多打了一字,导致内容上多了一字。例如:
例子1:开闭所进出线电缆头采用欧式结构,配置可触摸型。(删除:样)
例子2:把做到“两个维护”作为根本政治任务。(删除:法)
例子3:同时能耗指标有限,要聚焦重点产业。(删除:单)

③ 拼写错误

在日常写作中,由于输入法的影响或者对词语使用的方式不对,可能导致输入的拼音或者笔画不正确,使得最终写入的文字不正确。例如:

例子1:第一批自治区统愁支持工业震兴资金调整说明。(统愁-->统筹)

例子2:现组织开展2021年自治区本机西部陆海新通道建设资金项目计划申报工作。(本机-->本级)

例子3:移民安置和后期扶持政策实施监督检査涉及同一年度内在同一县(市、区)的。(检査-->检查)


④ 字词位置互换

在修改内容时,操作失误导致两个字或两个词位置相互调换。例如:

例子1:强增成员对社内事务的关注度、参与度。(强增-->增强)

例子2:整合利用各类识知产权在线资源。(识知-->知识)

例子3:产业项目要进业产园区。(业产-->产业)


⑤ 缺少数词

缺少数词是指在描述数量的文本中缺少数字内容。例如:

例子1:含家国有企业。(含X家)

例子2:我国节水灌溉面积达到亩(达到X亩)

例子3:在庆祝中国共产党成立年大会上重要讲话精神。(成立X年)

例子4:开展农民教育培训人次以上。(培训X人次)


⑥ 敏感词

当文章中误使用了带有政治敏感倾向或不健康色彩的词语时,系统将进行提示。

常见政治敏感词有“一党专制”“台独”“藏独”“疆独”等。



2.1.2  内容重复


(手机端用户请用双指缩放)

我们摘抄文本时,经常因为疏忽而重复拷贝了相同的内容,导致文中出现重复段落、句子、词语。例子:
例子1:天气天气真不错。(“天气”重复)
例子2:天气是晴朗的的(“的”重复)
例子3:提升执法人员行政执法人员素质。(定中内容“人员”重复)

例子4:我国重要的国际商贸中心、南方国际航运中心、对外交往中心、综合交通枢纽和南方国际航运中心(并列词“南方国际航运中心”重复)


2.1.3  领导称谓及排位错误


(手机端用户请用双指缩放)

校对机器人自动分析文本内容,识别文本中领导姓名、称谓以及领导名单排列顺序,并与正确的领导称谓和排位进行比对,识别称谓和排位错误信息,给出正确的称谓和排位信息。例子如下:

例子1:到2027年,跻身核电标准化强国前列,依据习近平书记有关指示要求,在国际核电标准化领域发挥引领作用。(建议:习近平的可能称谓有总书记、军委主席、常委)

例子2:习近平、李克强、赵乐际、王沪宁领导下,充分总结、凝练我国核电工程技术经验、科研成果的基础上,提升我国核电标准的自主化程度。(建议:习近平、李克强、王沪宁、赵乐际)



2.1.4  标点符号使用不当


(手机端用户请用双指缩放)


校对机器人根据国家标准《标点符号用法》(GB/T15834-2011)中标点符号的使用规则,对常见标点符号使用不当进行纠错,其中包括:

①  标点符号没有配对
需要成对使用的符号:<>   《》   ()   〔〕   []   【】   {}   “”   ‘’
例子1:该村年人均收入增长了50﹪,达到1200元人民币。《参考消息》1998.7.25)(括号没有配对正确)

②  并列内容之间符号错用
例子1:各中小学要积极贯彻落实《中华人民共和国预防未成年人犯罪法》、《中华人民共和国义务教育法》及相关要求。(书名号之间不用加顿号)
例子2:公安部门要加强校园“警务室”“护学岗”“安全网”建设,落实护校制度。(双引号之间不用加顿号)

③  标点符号多余
例子1:国务院办公厅关于加强核电标准化工作的指导意见。。(句号重复)
例子2:《!国务院办公厅关于加强核电标准化工作的指导意见》(“《!”不能连用)

④ 发文字号的年份代码符号错误
发文字号组成规则:<发文机关代字>〔年份〕<份号>号,错例如下:
例子1:粤府办(2020)14号。(“(2020)”改成“〔2020〕”)
例子2:粤府办[2020]14号。(“[2020]”改成“〔2020〕”)
例子3:粤府办【2020】14号。(“【2020】”改成“〔2020〕”)

⑤  缺少双引号
例子1:我区于2019年已整合水电气等企业资源,在各设区市政务服务中心开办“水电气”联办窗口。(“水电气”前后双引号要一致)

⑥  引文缺少括号
如果引用文件名称后面附带了对应的文件号,要求用中文括号把文件号括起来。
例子1:我区积极落实《国务院关于在市场监管领域全面推行部门联合“双随机、一公开”监管的意见》国发〔2019〕5号(国发〔2019〕5号-->(国发〔2019〕5号

例子2:根据《国务院关于调整进口设备税收政策的通知》国发〔1997〕37号,以下简称“国发37号文”及相关规定。(国发〔2019〕5号,以下简称“国发37号文”-->(国发〔2019〕5号,以下简称“国发37号文”


2.1.5  文书语义错误


(手机端用户请用双指缩放)


根据文书写作、文书处理业务约定,针对一些常见的公文语义错误进行识别和纠正,其中包括:


①  引文名与文件编号不一致

例子1:我区认真贯彻落实国务院办公厅《关于全面开展工程建设项目审批制度改革实施意见》(国办发〔2019〕11号)文件精神。(关于全面开展工程建设项目审批制度改革实施意见-->关于全面开展工程建设项目审批制度改革的实施意见)


②  完整句子中间包含空格

例子1:认真贯彻落实国务院办公厅《关于全面  开展工程建设项目审批制度改革实施意见》(国办发〔2019〕11号)文件精神。

例子2:认真贯彻落实国务  院办公厅《关于全面开展工程建设项目审批制度改革实施意见》(国办发〔2019〕11号)文件精神。


③  标注简称不规范

人们常把一些形式上长而繁的名称或习用的短语用缩略形式替代,这些缩略形式就是标注简称,比如“党委”“政协”“奥运会”“彩电”“春晚”等。以下标注简称是错误的:


(手机端用户请用双指缩放)


④  附件说明与附件列表不一致

公文中附件说明是指公文正文尾部的“附件:”段落内容,例子如下:

附件:1.XX省人民政府办公厅关于报送贯彻实施《优化营商环境条例》有关情况的报告的函(代拟稿)

2.XX省贯彻实施《优化营商环境条例》有关情况报告

3.评估发现的主要问题完成情况和整改措施

附件列表是指公文处理子系统中公文处理电子单的附件清单。附件说明与附件列表不一致包括附件缺失、附件多余、标题不一致。


⑤  公文头与处理表不一致

公文头是指一份公文的原数据,包括标题、发文字号、签发人、密级、保密期限、主送机关、抄送机关、紧急程度、成文日期等,处理表是指公文处理子系统中的公文审批表单。两者不一致是指:a、处理表中存在字段有值,而公文头不存在或为空;b、处理表和公文头都存在对应的字段,但是他们的值不相同。

错误样例如下:

(手机端用户请用双指缩放)


⑥  经典句子引用偏差

经典句子是指经常被他人引用的、不能改写的句子,通常指名言金句、文件中一些重要不能错误的句子(称为重要句子)、古诗词、谚语等。

人们在引用经典句子时,漏字、多字、改写、换位会导致内容与经典句子实际内容不一致,例如:

(手机端用户请用双指缩放)


⑦   行政区域错误

行政区域错误通常指描述地域、地点的内容中出现市与省不匹配、区县与市不匹配、区县与省份不匹配等现象。例如:

例子1:关于做好湖北省张家界市来宁人员信息核查和健康管理的通知(湖北省-->湖南省)

例子2:金华市富阳区财政局行政信息公开事项统计表(金华市-->杭州市)

例子3:广东省富阳区财政局行政信息公开事项统计表(广东省-->浙江省)


⑧  公文标题成分缺失

公文标题不规范是指公文标题的各个组成元素缺失、元素重复、元素内容不符合规定等,其中包括:


(手机端用户请用双指缩放)



2.1.6  病

(手机端用户请用双指缩放)


针对病句纠错,校对机器人主要支持以下两个方面:


①  词语搭配不合理

句子中主语和谓语之间、动词和宾语之间、附加成分与中心词之间搭配不当。例如:

例子1:我们要减少小学生学习负担(...减轻...负担...)

例子2:人民的生活水平普遍增加了。(...水平...提高...)

例子3:要努力实现这一伟大的任务(...完成...任务...)

例子4:加强自身改革和建设的步伐(...加快...步伐...)


②  成分赘余

句子结构已完整,句意已明确,但添加了一些不必要的词语,就会导致句子成分多余。例如:

例子1:报刊杂志,十分罕见,公开宣称,致信给。(词语冗余)

例子2:来自(从...来)于,这其中,并非(并不是)是。(虚词冗余)

例子3:目前的当务之急、口若悬河地说个不停。(成语冗余)


 2.2  具有高精度识别率

识别率是智能校对的关键指标之一,它的高低决定了校对效果。目前校对相关的指标有:


(手机端用户请用双指缩放)



2.3  具有自我学习能力

校对机器人之所以“智能”,是因为它具备自我学习能力,其中包括:

①  自动采集语料

在校对服务过程中,系统自动收录校对目标的文本内容,自动标注,形成正确语料库。同时也收集用户忽略错误的语料数据,降低误识别率。


②  机器学习训练

基于自动采集语料和人工增加的语料数据,采用n-gram模型定期进行训练,构建校对模型数据,把新知识融入到校对模型中,从而提高校对识别率。


(手机端用户请用双指缩放)




2.4  多元化使用场景

为了更方便用户使用校对功能,校对机器人支持多元化使用场景:


①  嵌入到文档或网页编辑器

直接嵌入到金山WPS、永中Office、微软Word等文字编辑器中,实现“边写边校对”,如下图:

校对机器人嵌入到文档编辑器中


直接嵌入到网页编辑器中,实现“边写边校对”,如下图:

校对机器人嵌入到网页编辑器中



②  校对机器人(独立应用系统)

提供一个独立的校对应用系统,支持批量上传DOC、DOCX、PDF、OFD、HTML、TXT等文档,系统自动校对并生成校对报告。如下图:


    校对机器人独立系统                                                      智能校对报告


③  使用接口集成到第三方系统

提供服务接口,与OA等第三方系统对接,在第三方系统直接使用校对功能。与OA对接效果如下图:


校对机器人嵌入到OA系统中




3.1  服务器需要什么样的配置?

校对机器人采用了大数据和人工智能技术,对算力要求比较高。

①  运行服务器一台(5个并发),建议配置:32G以上内存、16核以上CPU。

②  机器学习服务器一台,建议配置:64G以上内存、16核以上CPU。

建议选择鲲鹏32核CPU、256G内存。


 3.2  必须要部署机器学习平台吗?

 校对机器人平时不停学习党政官网上公开的文献、政策、讲话、法规等,校对识别率可以达到90%。如识别率要求达到95%,那就需要对用户内部数据进行机器学习,即需要部署机器学习平台。


 3.3  运维服务有哪些内容?

随着社会的变化发展,公文内容不断更新,持续出现新词、新表述。因此,校对机器人需要定期补充和更新校对相关知识,具体包括:

①  更新词库数据:人名、机构名、术语等词汇。

②  更新领导称谓及排位:领导岗位变动引起的领导称谓及排位数据变动。

③  模型定期训练:更新公网采集的语料,融合用户内部最新语料,进行机器学习,构建新模型。



分享到: