您所在位置: 网站首页 / 文档列表 / 时政新闻 / 文档详情
政治新闻报道中的敏感信息校对方法研究.doc 立即下载
上传人:和裕****az 上传时间:2024-09-06 格式:DOC 页数:9 大小:268KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

政治新闻报道中的敏感信息校对方法研究.doc

政治新闻报道中的敏感信息校对方法研究.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

政治新闻报道中的敏感信息校对方法研究摘要:为实现政治新闻报道内容中的敏感信息校对,提出了一种基于分类和规则的方法。以《新华社新闻信息报道中的禁用词和慎用词》(最新修订版)和相关的中央文件与网络文本提供的重要敏感信息为依据,对敏感信息进行分类,然后,针对不同的类别,设计相应的规则处理算法,构成分类处理规则库,来进行敏感信息校对。实验结果显示,该方法的召回率为89.98%,准确率为98.31%,具有很好的实际应用效果。关键词:政府新闻报道;敏感信息;分类方法;规则引言政治性差错,是指由于政治上的认识不清晰、技术上的疏漏等造成的政治性内容的个别差错或者是认识上的不足和马虎、思想上的麻痹大意所造成的政治性失误[1]。这些错误是很难被发现,而且,互联网传播具有匿名性、即时性、互动性、海量性等特点[2],如果政府新闻报道中出现政治性查错等不良信息,轻则给新闻报道带来负面影响,造成政治性差错;重则造成不可挽回的政治影响,成为政治问题[3]。对于这些敏感信息,如果没有认真谨慎的态度、扎实的语言文字功底、较高的政策理论水平和政治敏感性,是很难发现这些问题[4],而且,这些问题,涉及面广,类型较多,没有统一的规范与标准来检验这些问题的真实性和有效性,因此,新华社出台了《新华社新闻信息报道中的禁用词和慎用词》。海量的文本信息已经远远超出人们的理解和概括能力,通过人工的方式去查找有用的信息并凝练知识已变得不可能[5],因此,亟需一种合适的自动查错系统。本文以《新华社新闻信息报道中的禁用词和慎用词》(最新修订版)和相关的中央文件与网络文本提供的重要敏感信息为依据,对网络敏感信息有详细的界定和分类,构建分词库,针对敏感词类型制定敏感信息校对规则库,并对涉及到的规则算法做了详细的介绍,通过分类和规则相结合的方法对文本进行查错,实现政府新闻敏感信息的自动校对。政治新闻报道中的政治性错误类型分析政府新闻报道中的敏感信息与敏感词不同,敏感词,是指带有敏感的政治倾向、有可能危害国家利益、影响民族团结等方面的[6],比较容易产生敏感信息的词,就像“买官卖官”是敏感词但不一定就是敏感信息,也可能是新闻对这种恶性行为的批判。但是,对于不带任何不良信息的词,出现在特定场合,也可能成为敏感信息,比如:“亲自”没有带任何的不良信息,但是,对各级领导同志的各种活动报道,慎用“亲自”等词[7]。为了更好的标识敏感信息,本文将可以产生敏感信息的词,统称为敏感词。2.1相关研究邓一贵等[6]提出的有关敏感词决策树过滤算法中,不依赖词典与分词,使用到了决策树,提高了检索效率,但并没有实现决策树的实时更新以及敏感词的屏蔽替换。张仰森[8]通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。测试集很小,语料库较匮乏;而且涉及规则库的规模偏小。虽然准确率较高但召回率偏低。傅明建[9]提出了一种基于JavaWeb的敏感词过滤系统,在客户端用户发送数据时,系统能够自动阻断聊天内容,并且将敏感词替换为指定特殊符号关键词的敏感词。但是,这种方法,针对面较窄,可应用于政府新闻敏感信息校对的一小部分,而且,准确率不太高。胡传志[10]提出了一个敏感信息自适应多重过滤模型,从整体和语义角度自适应识别敏感信息。蔡艳婧[4]以网络舆论观点文本为研究对象,结合敏感信息特性,提出融合意见挖据和自然语言处理技术的敏感信息动态特征抽取方法。这两种方法都是针对当前一些敏感信息过滤模型所存在的时间滞后、准确性低、自适应性差等问题,提出的改进措施,而且,语料库相同。但是,语料库中涉及内容不足,其中只包含四种类别,无法针对政府新闻报道中出现的敏感信息做全面而及时的处理。2.2问题描述本文根据这些政治性差错的重要程度和出现频率较高的,分为以下6种错误类型:政治性或政策性错误。对于政治性或政策性错误,主要包括有关法律法规类,损害国家利益,影响民族团结或国际关系,涉及领土主权及港台澳问题(尤其是台湾问题)等方面的错误[8]。这类错误,涉及面广,内容较多,用一种规则方法是很难实现,因此,对于这类错误,应用范围规则,正则表达式规则,禁用,替换和加引号等多种方式,根据不同的情况,选择易操作,效果明显的方式进行校对。例如:不能将“香港”,“澳门”当作国家来描述,也不得与中国并列提及[7];但是,在2018年3月1日的一篇“美传统基金会:毛里求斯经济自由度指数在非洲排名领先”文章中,就出现“全球排名靠前的国家为香港、新加坡、新西兰、瑞士、澳大利亚和芬兰。”这种错误的表述。领导人姓名错误。对于领导人姓名错误,主要是名字中出现少字、拼音或错别字等错误。例如,将习近平总书记,写成习近乎总书记或者习近总书记,例如:在
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

政治新闻报道中的敏感信息校对方法研究

文档大小:268KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用

手机号注册 用户名注册
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
登录
手机号登录 微信扫码登录
微信扫一扫登录 账号密码登录

首次登录需关注“豆柴文库”公众号

新用户注册
VIP会员(1亿+VIP文档免费下)
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用