一个基于特征向量的近似网页去重算法

在线阅读 下载PDF 导出详情
摘要 在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detectnear—DuplicateWebPages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
机构地区 不详
出处 《中国索引》 2009年1期
出版日期 2009年01月11日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献