Apache Nutch
v2.3
大小 : 7.28 MB
类型 : 行业软件
更新时间 :2023-03-20 05:07:27
暂无资源
说明 : 检测到您是安卓设备,当前windows应用暂无对应的安卓版应用下载链接
暂无资源
说明 : 检测到您是iOS设备,当前windows应用暂无对应的苹果版应用下载链接
相关标签:编程工具
Apache Nutch是一款用于java编程工具的搜索引擎软件,快速完成java数据编程,智能检索java资源便捷使用。快来陈三网下载体验吧!
软件介绍
Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎.
使用原理
在创建一个WebDB之后(步骤1), “产生/抓取/更新”循环(步骤3-6)根据一些种子URLs开始启动。当这个循环彻底结束,Crawler根据抓取中生成的segments创建索引(步骤7-10)。在进行重复URLs清除(步骤9)之前,每个segment的索引都是独立的(步骤8)。最终,各个独立的segment索引被合并为一个最终的索引index(步骤10)。
其中有一个细节问题,Dedup操作主要用于清除segment索引中的重复URLs,但是我们知道,在WebDB中是不允许重复的URL存在的,那么为什么这里还要进行清除呢?原因在于抓取的更新。比方说一个月之前你抓取过这些网页,一个月后为了更新进行了重新抓取,那么旧的segment在没有删除之前仍然起作用,这个时候就需要在新旧segment之间进行除重。
免责声明:本站提供的一切软件、教程和内容信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理,我们将尽快删除相关内容。
展开内容
详细信息
- 软件版本: v2.3
- 软件大小: 7.28 MB
- 软件类型: 行业软件
- 支持系统: WinAll
- 软件评分: 98
- 更新时间: 2023-03-20 05:07:27
发表评论