热门搜索 :
考研考公
您的当前位置:首页正文

python3.6之抓取LaGou网爬虫职位详解

来源:东饰资讯网

目标:抓取LaGou网爬虫职位,下载于数据库MongoDB,并可视化于pycharm。

我们采用:requests(获取)——MongoDB——PyCharm可视化

废话不多说,先上结果与代码:

前言:

①:安装PyMongo(pip install pymongo),这是Python操作MongoDB的驱动程序

②:抓取页面,如图

现重点讲解代码四个部分

一:MongoDB

这将建立连接到默认主机(localhost)和端口(27017)

mongodb的详细功用可前往官网

二:真实的urls

三:请求方法post (之前的文章都是get)

通过抓包我们可以看出拉钩网的请求方法是post,所以我们要加入请求表单form_data

请求头(headers)

每个网站的请求头都会不一样,但爬取的网站,都有例子,大家初期,跟着选就行,如图:

大家可以对比下我第四篇知乎的请求头

总结:

数据库是学习Python爬虫的必经之路,大家记得安装哦

MongoDB、pycharm可视化的安装,我都会在知乎上发表

下一篇文章,将学习使用函数实现LaGou翻页

有不清楚的地方,大家可以留言,点赞,我看到了,会第一时间回复你

近来考试与课程设计,很久没有更新,还望大家谅解

Top