您所在位置: 网站首页 / 文档列表 / 数据挖掘与模式识别 / 文档详情
数据挖掘中WEB文档转换算法的设计与实现.doc 立即下载
上传人:yy****24 上传时间:2024-09-08 格式:DOC 页数:2 大小:30KB 金币:12 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据挖掘中WEB文档转换算法的设计与实现.doc

数据挖掘中WEB文档转换算法的设计与实现.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

12 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

HYPERLINK"http://www.leihe.gov.cn"宜城www.leihe.gov.cniyd摘要:在数据挖掘的技术中,Web文档是一种极为重要的网络信息处理技术,怎么样把Web的文档转换成为所需要的数据挖掘的格式,是一项非常重要的课题。中国论文网关键词:数据挖掘;Web文档;词典;信息服务中心中图分类号:TP311.13文献标识码:A文章编号:1007-9599(2012)20-0000-02目前对于web它属于世界性的信息服务中心,它所涉及的方面非常的广泛,包括了金融管理、电子商务、广告新闻、政府、教育、消费等许多的信息服务,能够提供足够的资源给予数据挖掘,是信息的综合体。现在研究web数据挖掘的人也越来越多,本文研究的是我们从国际互联网络上下载了大量的信息网页文件,现在要将你所下载的网页文件转换成你所需要的文本文件。接着进行一些词频的统计去掉高频词、删除非用词,在来进行相应的处理,最终将生成Database的数据格式。1转化前问题的猜想1.1问题的提出国际互联网络上存在着异构性和开放性的特点,因此许多用户在WWW上很难很快和准确的获取所需的信息。如何能够快速有效的获取你所需要的信息,就涉及到了数据挖掘和信息检索两个方面,目前用于英文文档聚类的许多,其中使用最为广泛的是Reuters语料库。而对于Web数据文档是不能够直接的分类分聚的,需要进行一定的处理,将Web文档中的图像、文本及脚本等转换成你所需要的格式,以便为后面数据挖掘的分聚类做好准备。1.2设计的问题一般的我们可以通过以下几个步骤对Web文档进行处理:(1)先将你下载的网页文件进行分类。(2)整理分类好文件之后再把这些文件转换成为文本文件,把文件中tag、front、table等类的标志去除掉。(3)第三步也是最为重要和关键的一步,通过对这些文件中的数据进行词频的统计,去掉高频词、删除非用词。在来进行单词的词根处理,建立词表,抽取所需要的词,通过字母的排序建立索引,最后在来生成所需的Database的数据格式。比如非用词能够看做是一组无关紧要的词如for、a、with等它们都属于非用词,词频出现的频率虽然非常高,但是起不到多大的作用,可以看做虚词的给与去除。1.3算法的设计在词典的文件中只包含着单词的原型,因此需要把文件中的实词都转化成原型,在来从词典中提取词干的检测出单词的序号。一般提取词干我们可以把它分为以下这几步:(1)去掉单词中的复数、-ing、-ed等形式的单词,如ties-ti,caresses-caress,matting-mat,milling-mill,agreed-agree等。(2)如果我们在词干中发现还含有另外一个元音字母的时候,就需要把单词末端的y改成i。(3)把含有双后缀的单词改为单后缀,例如enci-ence,ization-ize,iveness-ive等。(4)这步的步骤与上一步的步骤有些相同,是处理-full,-ic,-ness等。像-iciti-i,-lize-al,-cal-ic,-ul直接去掉,-cate-ic,-ative直接去掉。(5)这一步主要是去掉如-ant,-ible,-ence,-able,-ous,-ize等。(6)当存在着辅音序列和元音序列的个数都大于一的时候,去掉最后的一个e。因为在Word,dic的文件时很大的,存放着许多的单词及单词的ID,如果每一次都是对Word,dic文件进行从头到尾扫描的话这样检索的速度是会非常的慢,因此未来加快检索的速度还需要进行另一种检索进行辅助。按照字母顺序的排列,可以建立这种算法:(7)字典和字典中存在的ID存放到一个结构体的wd文档中。(8)在把该文档中的单词进行分类和分段的索引,按照a、b、c、d…….z的顺序进行二十六段。对该文档进行一次扫描,确定每段的开始位置及结束的位置,为每段建立一个索引。(9)如果有些单词需要到文档中区寻找,我们可以根据文档中的第一个单词去寻找,确定在字典中的那一段去寻找,而不需要翻遍整个字典,这样的话就大大节省了时间和降低了检索的难度。2设计问题的实现对于web的文档处理需要经过以下这几个步骤,①对于从Internet下载来的资料文件,应该要进行划分。②目前信息化的社会有许多的现成的软件可以将网页文件转换成文本文件。像现在运用比较广泛的是HTML2TXT软件,并且像这种软件大部分都是大同小异的,都能够将网页文件转换成文本文档,并且还能够去掉一些网页上的标志。③目前实现文档的转换方法一般用的是纯C++语言来完成的。在建立两个以h的文件在分别命名为WordDic.h.和WordVce.h。WordDic.h属于字典文件类,包括了建立和查找索引及字典文件的读取等功能,一个是用建立和查找的索引
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

数据挖掘中WEB文档转换算法的设计与实现

文档大小:30KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用

手机号注册 用户名注册
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
我已阅读并接受《用户协议》《隐私政策》
已有账号?立即登录
登录
手机号登录 微信扫码登录
微信扫一扫登录 账号密码登录

首次登录需关注“豆柴文库”公众号

新用户注册
VIP会员(1亿+VIP文档免费下)
年会员
99.0
¥199.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用