找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

Apache Nutch

[复制链接]

32万

主题

0

回帖

96万

积分

超级版主

积分
964681
发表于 2025-3-14 11:24:21 | 显示全部楼层 |阅读模式
软件标签:  apachenutch   编程工具
apache nutch是一款用于java编程工具的搜索引擎软件,快速完成java数据编程,智能检索java资源便捷使用。快来绿色资源网下载体验吧!
软件介绍
nutch是一个开源java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和web爬虫。nutch诞生于2002年8月,是apache旗下的一个用java实现的开源搜索引擎项目,自nutch1.2版本之后,nutch已经从搜索引擎演化为网络爬虫,接着nutch进一步演化为两大分支版本:1.x和2.x,这两大分支最大的区别在于2.x对底层的数据存储进行了抽象以支持各种底层存储技术。nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的web搜索引擎.
使用原理
在创建一个webdb之后(步骤1), “产生/抓取/更新”循环(步骤3-6)根据一些种子urls开始启动。当这个循环彻底结束,crawler根据抓取中生成的segments创建索引(步骤7-10)。在进行重复urls清除(步骤9)之前,每个segment的索引都是独立的(步骤8)。最终,各个独立的segment索引被合并为一个最终的索引index(步骤10)。

其中有一个细节问题,dedup操作主要用于清除segment索引中的重复urls,但是我们知道,在webdb中是不允许重复的url存在的,那么为什么这里还要进行清除呢?原因在于抓取的更新。比方说一个月之前你抓取过这些网页,一个月后为了更新进行了重新抓取,那么旧的segment在没有删除之前仍然起作用,这个时候就需要在新旧segment之间进行除重。


aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|ziyuan80.com

GMT+8, 2025-8-17 03:14 , Processed in 0.071666 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表