数据挖掘中WEB文档转换算法的设计与实现-学文库

全部分类行业资料技术资料管理文献经济文库考试资料教学课件

相关文档

数据挖掘中WEB文档转换算法的设计与实现

最新文档

企业国际市场进入模式选择研究现状述评

转诊转院制度督查转诊转院制度及流程(四篇)

企业在食品安全大会汇报发言稿

企业基本情况表

2024年贫困户申请书咋写个人申请贫困户申请书(8篇)

企业培训管理的量化指标kpi方法

七年级语文教学计划(通用13篇)

方剂学歌修改版无错字新世纪第二版重点

企业外部薪酬调查表

最新半年个人工作总结(精选13篇)

企业培训计划

企业基本信息表

企业如何实施绩效管理优秀PPT

企业基本情况一览表

教学秘书的工作总结与经验分享大全（21篇）

在线预览结束，喜欢就下载吧，查找使用更方便

12 金币

/ 2

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

HYPERLINK"http://www.leihe.gov.cn"宜城www.leihe.gov.cniyd摘要：在数据挖掘的技术中，Web文档是一种极为重要的网络信息处理技术，怎么样把Web的文档转换成为所需要的数据挖掘的格式，是一项非常重要的课题。中国论文网关键词：数据挖掘；Web文档；词典；信息服务中心中图分类号：TP311.13文献标识码：A文章编号：1007-9599（2012）20-0000-02目前对于web它属于世界性的信息服务中心，它所涉及的方面非常的广泛，包括了金融管理、电子商务、广告新闻、政府、教育、消费等许多的信息服务，能够提供足够的资源给予数据挖掘，是信息的综合体。现在研究web数据挖掘的人也越来越多，本文研究的是我们从国际互联网络上下载了大量的信息网页文件，现在要将你所下载的网页文件转换成你所需要的文本文件。接着进行一些词频的统计去掉高频词、删除非用词，在来进行相应的处理，最终将生成Database的数据格式。1转化前问题的猜想1.1问题的提出国际互联网络上存在着异构性和开放性的特点，因此许多用户在WWW上很难很快和准确的获取所需的信息。如何能够快速有效的获取你所需要的信息，就涉及到了数据挖掘和信息检索两个方面，目前用于英文文档聚类的许多，其中使用最为广泛的是Reuters语料库。而对于Web数据文档是不能够直接的分类分聚的，需要进行一定的处理，将Web文档中的图像、文本及脚本等转换成你所需要的格式，以便为后面数据挖掘的分聚类做好准备。1.2设计的问题一般的我们可以通过以下几个步骤对Web文档进行处理：（1）先将你下载的网页文件进行分类。（2）整理分类好文件之后再把这些文件转换成为文本文件，把文件中tag、front、table等类的标志去除掉。（3）第三步也是最为重要和关键的一步，通过对这些文件中的数据进行词频的统计，去掉高频词、删除非用词。在来进行单词的词根处理，建立词表，抽取所需要的词，通过字母的排序建立索引，最后在来生成所需的Database的数据格式。比如非用词能够看做是一组无关紧要的词如for、a、with等它们都属于非用词，词频出现的频率虽然非常高，但是起不到多大的作用，可以看做虚词的给与去除。1.3算法的设计在词典的文件中只包含着单词的原型，因此需要把文件中的实词都转化成原型，在来从词典中提取词干的检测出单词的序号。一般提取词干我们可以把它分为以下这几步：（1）去掉单词中的复数、-ing、-ed等形式的单词，如ties-ti，caresses-caress，matting-mat，milling-mill，agreed-agree等。（2）如果我们在词干中发现还含有另外一个元音字母的时候，就需要把单词末端的y改成i。（3）把含有双后缀的单词改为单后缀，例如enci-ence，ization-ize，iveness-ive等。（4）这步的步骤与上一步的步骤有些相同，是处理-full，-ic，-ness等。像-iciti-i，-lize-al，-cal-ic，-ul直接去掉，-cate-ic，-ative直接去掉。（5）这一步主要是去掉如-ant，-ible，-ence，-able，-ous，-ize等。（6）当存在着辅音序列和元音序列的个数都大于一的时候，去掉最后的一个e。因为在Word，dic的文件时很大的，存放着许多的单词及单词的ID，如果每一次都是对Word，dic文件进行从头到尾扫描的话这样检索的速度是会非常的慢，因此未来加快检索的速度还需要进行另一种检索进行辅助。按照字母顺序的排列，可以建立这种算法：（7）字典和字典中存在的ID存放到一个结构体的wd文档中。（8）在把该文档中的单词进行分类和分段的索引，按照a、b、c、d…….z的顺序进行二十六段。对该文档进行一次扫描，确定每段的开始位置及结束的位置，为每段建立一个索引。（9）如果有些单词需要到文档中区寻找，我们可以根据文档中的第一个单词去寻找，确定在字典中的那一段去寻找，而不需要翻遍整个字典，这样的话就大大节省了时间和降低了检索的难度。2设计问题的实现对于web的文档处理需要经过以下这几个步骤，①对于从Internet下载来的资料文件，应该要进行划分。②目前信息化的社会有许多的现成的软件可以将网页文件转换成文本文件。像现在运用比较广泛的是HTML2TXT软件，并且像这种软件大部分都是大同小异的，都能够将网页文件转换成文本文档，并且还能够去掉一些网页上的标志。③目前实现文档的转换方法一般用的是纯C++语言来完成的。在建立两个以h的文件在分别命名为WordDic.h.和WordVce.h。WordDic.h属于字典文件类，包括了建立和查找索引及字典文件的读取等功能，一个是用建立和查找的索引