Apache Nutch

system · 发表于 2025-3-14 11:24:21

软件标签: apachenutch 编程工具
apache nutch是一款用于java编程工具的搜索引擎软件，快速完成java数据编程，智能检索java资源便捷使用。快来绿色资源网下载体验吧！
软件介绍
nutch是一个开源java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和web爬虫。nutch诞生于2002年8月，是apache旗下的一个用java实现的开源搜索引擎项目，自nutch1.2版本之后，nutch已经从搜索引擎演化为网络爬虫，接着nutch进一步演化为两大分支版本：1.x和2.x，这两大分支最大的区别在于2.x对底层的数据存储进行了抽象以支持各种底层存储技术。nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的web搜索引擎.
使用原理
在创建一个webdb之后(步骤1), “产生/抓取/更新”循环(步骤3－6)根据一些种子urls开始启动。当这个循环彻底结束，crawler根据抓取中生成的segments创建索引（步骤7－10）。在进行重复urls清除（步骤9）之前，每个segment的索引都是独立的（步骤8）。最终，各个独立的segment索引被合并为一个最终的索引index（步骤10）。

其中有一个细节问题，dedup操作主要用于清除segment索引中的重复urls，但是我们知道，在webdb中是不允许重复的url存在的，那么为什么这里还要进行清除呢？原因在于抓取的更新。比方说一个月之前你抓取过这些网页，一个月后为了更新进行了重新抓取，那么旧的segment在没有删除之前仍然起作用，这个时候就需要在新旧segment之间进行除重。

https://blog.51cto.com/u_16099270/9147646

		自动登录	找回密码
密码			立即注册

Apache Nutch

浏览过的版块