您所在位置: 网站首页 / 文档列表 / 开题报告 / 文档详情
2022年文本聚类开题报告范文.docx 立即下载
上传人:康平****ng 上传时间:2024-09-09 格式:DOCX 页数:6 大小:21KB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

2022年文本聚类开题报告范文.docx

2022年文本聚类开题报告范文.docx

预览

在线预览结束,喜欢就下载吧,查找使用更方便

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

此资料由网络收集而来,如有侵权请告知上传者立即删除。资料共分享,我们负责传递知识。PAGEPAGE6文本聚类开题报告范文文档聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤,可以将重要新闻文本进行聚类处理,是一种处理文本信息的重要手段。基于K―Mean文本聚类的研究摘要文本聚类能够把相似性大的文本聚到同一类中。K-Means常用来聚类文本,但是由于聚类中心的选取对聚类结果有影响,导致聚类不稳定,因此采用一种基于聚类中心的改进算法分析文本,通过实验,验证算法的有效性。关键词文本聚类;k-means;相似性;度量准则中图分类号:TP391文献标识码:B文章编号:1671-489X(20XX)18-0050-03ResearchforTextClusteringbasedonK-Mean//ZHANGYue,LIBaoqing,HULingfang,MENGLiAbstractTextclusteringcanmakethetextsimilaritylargeclusteredintothesameclass,K-Meansusuallyisusedintextclustering,becauseofimpactingontheclustercenter,whichresultsintheclusteringinstability.Therefore,thispaperusesatextanalysisofimprovedalgorithmbasedontheclusteringcenter,throughtheexperiment,itverifiestheeffectivenessoftheimprovedalgorithm.Keywordstextclustering;k-means;similarity;measurecriterion文本聚类是把不同的文本分别聚在不同的类别中,是文本挖掘的重要技术,它是一种无监督的学习技术,每个类中包含的文本之间具有较大的相似性,不同类间的文本相似性比较小。文本聚类是数据挖掘的重要分支,它应用神经网络、机器学习等技术,能够自动地对不同文本进行分类。在文本聚类分析中,文本特征表示一般采用向量空间模型[1],这种模型能更好表现文本。在对文本聚类的研究中,Steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用程度[2-3],得出结论:采用K-Means算法进行聚类,不仅聚类结果较好,而且适用于数据量比较大的聚类场合。在文章中根据研究者对K-Means的发现,结合实际研究,采用一种基于K-Means的改进算法来聚类。Dhillod等人对文本聚类进行研究发现,采用余弦夹角作为相似性度量比采用欧氏距离度量的结果好很多[4]。1文本聚类文本聚类的方法很多,主要分为基于层次的方法、基于划分的方法、基于密度的方法、基于模型的方法、基于网格的方法[5]。在这些聚类方法中,基于划分的K-Mean是最常用也是很多改进方法的基础,文章中采取的改进方法也是基于K-Mean的。K-Mean首先由MacQueent[6]提出。它能在大数据集中广泛被使用,因为算法效率较高、算法执行过程理解容易。当前进行的很多研究都是以K-Mean为基础开展进行的,它的计算复杂度低,具有与文档数量成线性关系的特性,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强。K-Mean以k为初始聚类数,然后把n个文本分到k个聚类中,这样类内的文本具有较高的相似度,不同类间的相似度较小。K-Mean具体的算法过程如下:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计算其到每个中心的距离,并把它归到最近的中心类中;3)重新计算已经得到的各个类的中心,通常计算中心的准则函数采用平方误差准则,这个准则能够使生成的结果类尽可能地独立和紧凑;4)迭代执行第二步和第三步的动作直至新的中心与原中心相等或小于指定阈值,直到算法结束。具体的算法流程如图1所示。2改进的聚类算法虽然使用K-Mean算法进行文本聚类时,具有计算复杂度低,计算效率不仅高,而且伸缩性较强,适应大数据集的能力也很强的优点,但是实验发现,不仅初始聚类中心的选取对聚类结果有影响,孤立点的存在对文本的相似性的判断也有很大的影响,这就导致聚类判断不稳定。基于此,文章采用一种改进的方法来进行文本聚类,改进关键点在于聚类中心的计算,用与原聚类中心相似的文本数据来计算平均值作为该聚类中心。改进的K-Means算法描述如下所示:1)首先给定n个数据文本,从其中任选k个文本,这k个数据文本初始地代表了k个类的数据中心;2)对剩余的每个文本计
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

2022年文本聚类开题报告范文

文档大小:21KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用

手机号注册 用户名注册
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
登录
手机号登录 微信扫码登录
微信扫一扫登录 账号密码登录

首次登录需关注“豆柴文库”公众号

新用户注册
VIP会员(1亿+VIP文档免费下)
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用