lxml模块使用方法 PHP、Python和 Node.js,哪个比较适合写爬虫?

[更新]
·
·
分类:互联网
1636 阅读

PHP、Python和

PHP、Python和 Node.js,哪个比较适合写爬虫?

Node.js,哪个比较适合写爬虫?

对页面的解析能力以及对数据库的操作能力(mysql),另外还有爬取效率

很惊讶竟然没有java???
不过爬虫主要麻烦的是应对目标网站的各种反爬措施,对页面解析以及数据库的操作,各种语言都基本有各自的类库了,操作估计也很方便。至于爬取效率,这个主要是看目标网站的响应速度了,并且一般也不能让你频繁的访问,所以各种语言也都差不多。所以,你熟悉哪种语言,哪种就适合你。

一直觉得易语言写爬虫很方便

Python 和 Node.js 都可以用来编写爬虫程序。爬虫程序其实是模拟浏览器发起 HTTP 请求,然后解析 HTTP 的响应体内容,提取我们需要的数据。
如果需要 Node.js 来写爬虫。需要用到 request 模块 和 cheerio模块。
request 模块:获取目标页面的html代码
cheerio 模块:被称为 Node.js 版的 jQuery 。它类似jQuery的语法,使用起来比较方便。用其实为了解析 HTTP 请求的响应体,对 HTML 代码做处理。
Python 拼接强大的第三方的库,以及简洁的语法,被更广运用于编写爬虫。具体用到的库,大概如下:
发起网络请求有库有: urllib、Requests 。
解析响应体内容:RE(正则表达式的 Python 库)、beautiful Soup(内容提取神器)、 lxml 库(神器)
爬虫框架有:Scrapy
可见,,Python 有丰富的库可以选择,所以它更加适合用来编写爬虫程序。
-----------------------------------------------
喜欢的、觉得有用的麻烦点个赞,万分感谢~
个人微信公众号:极客猴(ID:Geek_monkey)
自己坚持分享 Python 原创干货,包括基础入门,进阶技巧,网络爬虫,数据分析,Web 应用开发等。欢迎关注~

一名Python程序员会用哪些好用的工具?

在个人使用Python的过程中值得推荐的工具(包括但不限于开发工具):
IDE:PyCharm,jetbrains家的IDE个个好使
REPL:ipython
编辑器:vim YouCompleteMe插件
网络请求:requests网页解析:BeautifulSoup,lxml,html5lib
绘图:Pygal更易用,matplotlib功能强大
网络爬虫:scrapy很易用,不过个人更喜欢裸写爬虫