简介:在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detectnear—DuplicateWebPages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。
简介:1范围本标准为索引的内容、组织和表示提供有关的准则。
一个基于特征向量的近似网页去重算法
情报工作和文献工作——索引的内容、组织和表示准则(国际标准ISO999:1996)