【爱否SEO】SEO视频教程-SEO优化教程-SEO教程自学网:306090669(QQ)
4008883171

【爱否SEO】 > SEO百科 >

搜索引擎的下载系统的回顾和未来的发展

编辑:【爱否SEO】发布时间: 2018-09-18
通过系统地学习.至此终于揭开了搜索引擎下载系统的神秘面纱.实现下载系统的主要需求,总结下来最主要是以下3点. 1.抓得全:通过网页更新策略(更新目录型网页) 2.抓得快:通过合作抓取策略。...
通过系统地学习.至此终于揭开了搜索引擎下载系统的神秘面纱.实现下载系统的主要需求,总结下来最主要是以下3点.
 
1.抓得全:通过网页更新策略(更新目录型网页)
2.抓得快:通过合作抓取策略。
 
3.代价低:通过宽度优先的遍历策略.最大深度策略及合理的网负更新策略。当然这与一个实际的商用大型搜索引擎下载系统还有很大距离。例如大规模网页存储、DNS服务模块、反垃圾、反病毒、多爬虫的协调工作.以及爬虫监控等。读者如果亲自实现一个爬虫还会遇到很多困难。目前比较若名的关于爬虫的开源代码很多,例如Web sphinx和Heritrix等.读者可以在学习本章内容后。实际移与到这些开源代码的学习和使用中.以进一步加深对搜索引擎的下栽系统的认识.虽然前人做出了巨大的努力。取得了大量的成果,然而爬虫的发展还远远没有停止。
 
未来还有很多工作等待我们去探索,那么还有哪些工作可以做呢?
 
1.动态网页支持Web上动态网页是静态网页的400-500倍,光明星球[brightP]公司宣称,存在的网页总数至少为5500亿个。这个数量是相当惊人的。目前几乎所有的搜索引擎都不能完全解决抓取动态网页的难题,因为这些动态网页通常都受到了账号和密码的保护,这也称为“深度挖掘问题”。
2.定向抓取定向抓取通常也称为“聚焦爬虫”。目的是使爬虫的工作方式不再是漫无目的,而是在某种意图下抓取有价值且特定的网页。
 
3.抓取XML网页,以及DOC和PDF文件抓取的内容突破HTML网页,也要抓取分析那些XML网页,以及DOC和PDF等文件.
 
4.智能分布抓取随着Web的迅猛发展,可以考虑物理上分布多个可扩展Web搜集系统,在更广泛息义下以并行分布式工作
站内导航
 
QQ在线咨询
售前咨询热线
4008883171
售后咨询热线
13622373171