众家智慧,实时资讯


Google
 
  热门搜索: 日语培训 香港旅游 网上订票 干洗
标签:likeshow.net
时间:

Lucene DotLucene .NET C# 搜索引擎开发

14
Mon, 13 Aug 2007 10:

1.介绍三种分类器:
神经网络 ((NNeeuurraall NNeettwwoorrkk,,NNNNeett))
线性最小平方拟合((LLiinneeaarr LLeeaasstt--ssqquuaarree FFiitt,, LLLLSSFF))
支持向量机((SSuuppppoorrtt VVeeccttoorr MMaacchhiinneess,, SSVVMM))
2.阈值选取策略

Click Here To Download

12
Mon, 13 Aug 2007 10:

主要讲了一种综合性的提取有效特征的方法,采用提取多种特征并取阀值过滤保证了特征的代表性和稳定性,值得看看
Click Here To Download

15
Thu, 08 Feb 2007 13:

中科院软件所 张俊林

TIMESTAMP:2006年6月1日



一. 介绍

统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscript),文献[Models and Algorithms for Duplicate Document Detection 1999年]将内容重复归结为以下四个类型:

1.如果2篇文档内容和格式上毫无差别,则这种重复叫做full-layout duplicate。

2.如果2篇文档内容相同,但是格式不同,则叫做full-content duplicates

3.如果2篇文档有部分重要的内容相同,并且格式相同,则称为partial-layout duplicates

14
Thu, 01 Feb 2007 16:

Click Here To Download
此文章主要针对词汇专业性质分类提出了比较有效的训练方法,通过语料训练,可以比较准确的获得,某些专业领域的专用词汇

14
Thu, 01 Feb 2007 16:

薛春香 夏祖奇 侯汉清

(南京农业大学信息管理系 南京210095)

摘 要 以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。

关键词 自动分类 语料库 标引经验 知识库 《中国图书馆分类法》1 前言

自动分类是信息自动化处理中较为活跃的一个领域。早在50、60年代,IBM的Luhn等就展开了文献信息的自动分类研究。近年来,美国OCLC和欧盟又在信息资源的自动分类和主题识别领域开展了多个研究项目,如OCLC的Scorpion Project,欧盟的DESIRE等

13
Wed, 20 Dec 2006 14:

由于没的大量采集的网页数据作为依据,我以10亿页面作为基准Dw 因为SOGOU词库里词频最高的词"一个"出现频率不过8亿多,应删除词"的"之类肯定超过"一个"的出现频率,所以取个大概值,以10亿作为基准.分词由于没自己写,采用第三方ShootSarch0.1Bate的,词库比较小,很多词切分错误或切分不出来,造成很多专业度较高的文章聚类出现错误.个人认为适合聚类的分词应该采用正向+反向+交集的分词.
因为开始只考虑处理中文,中英文混合还没考虑,就直接把英文过滤了. 这样导致很多IT术语无法作为关键性词汇来聚类,也影响了准确度.同时没有考虑汉语的词性与词位置的关系和权重,直接排除了非名词和成语的其他一切词汇做TF/IDF运算,因此余弦值最后结果的准确度更进一步降低.
主要可以进一步提高方面:
1.以SOGOU词库为基础,重新编写自己的中文分词组件

首页 上一页 下一页 末页
文章内容均为自动聚合而来,不代表本网站赞同其内容和观点. 本页执行时间:625.454 ms
© 2008 Dig168.com 冀ICP备07502488号
合作伙伴 链接交换
626.267910004