如何评价慕课网课程《Python分布式爬虫打造搜索引擎 》

如题所述

第1个回答  2017-09-21
爬虫本质上不需要分布式。因为你要爬一个网站通常5-10个线程足够了,再多就是对网站压力测试了。你只需要将任务分配到不同的机器上,然后各运行各自己的,结果合并一下就可以。这个与nutch人map,reduse也没有什么差别。只是手工分,手工合并。当然也可以用脚本分,脚本合并,脚本远程启动。有一个远程控制模块,似乎叫rpy。很简单,很容易上手。可以远程控制一个模块。数据库用postgresql不是很好。因为爬行结果放在关系型数据库里太吃力。特别是网页内容。通常是URL放在redis里。内容放在文件系统里,你可以用hadoop+hdfs+thrift方案放在hadoop里。如果使用了hadoop,就干脆模仿nutch的流程,把python脚本也交给hadoop去管理好了。至于控制与通信这个都让hadoop来处理好了。当然我个人觉着rpy方式更简单。里面控制与通信都是现成的。10分钟就学会了。还是回到原来的说法,大部分情况下,单机多线程跑爬虫足够用了。不需要分布式。而且效率甚至比分布式更高。本回答被提问者采纳
第2个回答  2017-09-21
喇叭,唢呐,曲儿小,腔儿大.

没有django基础可以学慕课网的python分布式爬虫课程吗?
没有django基础也可以学,因为慕课 网 的python分布式爬虫课程中对django的应用比较简单,不过也就是提供搜索接口和展示搜索数据罢了,老师主要是讲scrapy和elasticsearch这部分内容,不过你学习这个课程也不能赤膊上阵,还是得需要具备一定的原生爬虫基础的,而且还得了解前端页面,面向对象概念,计算机网络协议和...

python爬虫资源汇总:书单、网站博客、框架、工具、项目(附资源)_百度...
《“笨方法”学Python》:豆瓣评分7.9,适合通过核心概念学习Python的初学者。《Python Cookbook 中文版》:豆瓣评分9.2,覆盖常见问题的解决方案,包含大量实用代码示例。《流畅的python》:豆瓣评分9.4,深入解析语言设计细节,教你写出地道的Python代码。《深入浅出python》:豆瓣评分8.5,适合不想看枯...

初学Python要多久才能入门?
如果有编程语言的基础,入门还是很快的,用Python语言写一些简单的应用大概需要2~3个月。但是毕竟大数据开发技术所包含的编程技术知识是比较杂且多的,大数据专业相对来说还是有一定难度的。果是计算机专业的学生或者自身有一定大数据开发基础的人学大数据相对来说还会比较容易,会比非计算机专业的人士好很多。...

Python语言教学?
还有一个就是视频,视频我是在慕课网上面看的,我很喜欢慕课网这个网站,网站风格很棒,而且视频也很清晰。 也可以在阿里云上面看Python的视频,也很不错,并且是免费的。 进阶 进阶结束后,代表你是个初级工程师。 这一步实践非常重要,你要自己动手,做一些小玩意,实践才是最重要的,在实践中发现问题,那是学习最快并且...

如何自学django(2023年最新整理)
阶段七:掌握分布式多线程大型爬虫技术,能开发企业级爬虫程序 阶段八:成为Python数据挖掘分析师,进入人工智能领域,成为IT市场最前沿人才如何自学Python ?自学看什么书比较好,本人零基础! 可以按照这个顺序学习 1、《简明python教程》,书不厚,非常适合0基础的人自学入门用。不厚的优点就是上手快,提高自信,适合快速学习,...

django和爬虫哪个好学(java做爬虫和python做爬虫)
没有django基础也可以学,因为慕课 网 的python分布式爬虫课程中对django的应用比较简单,不过也就是提供搜索接口和展示搜索数据罢了,老师主要是讲scrapy和elasticsearch这部分内容,不过你学习这个课程也不能赤膊上阵,还是得需要具备一定的原生爬虫基础的,而且还得了解前端页面,面向对象概念,计算机网络协议和...

学django要什么基础(django基础知识)
没有django基础也可以学,因为慕课 网 的python分布式爬虫课程中对django的应用比较简单,不过也就是提供搜索接口和展示搜索数据罢了,老师主要是讲scrapy和elasticsearch这部分内容,不过你学习这个课程也不能赤膊上阵,还是得需要具备一定的原生爬虫基础的,而且还得了解前端页面,面向对象概念,计算机网络协议和...

学django要什么基础(django基础知识)
没有django基础也可以学,因为慕课网的python分布式爬虫课程中对django的应用比较简单,不过也就是提供搜索接口和展示搜索数据罢了,老师主要是讲scrapy和elasticsearch这部分内容,不过你学习这个课程也不能赤膊上阵,还是得需要具备一定的原生爬虫基础的,而且还得了解前端页面,面向对象概念,计算机网络协议和数据...

相似回答