ps:python环境怎么装我就不赘述了。。。这个资料太多了,我推荐使用python2.7 或 python3.4
IDE选择
浏览器选择
Chrome或火狐,开发必备。所以大家果断都去下载Chrome或火狐吧。。
爬虫依赖库介绍
- beautifulsoup
- requests
- lxml
- pymongo
以上便是我们编写简单爬虫程序需要的python库,我简单介绍一下(ps:不想复制百科):
- beautifulsoup库,主要功能就是快速处理抓下来的数据,找到你想要的东西,它就是一个工具箱,通过解析文档为用户提供需要抓取的数据。
- requests模块,满足我们各种各样的网络需求,持 HTTP 连接保持和连接池,支持使用 cookie 保持会话,支持文件上传等
- lxml库,lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库,我们用来配合beautifulsoup使用
- pymongo,用来和mongoDB数据库进行交互,我们爬下来的数据将被存在mongoDB中,当然如果你用mysql等数据库用习惯了也可以不用理这部分。
安装
mac环境
在安装lxml之前记得在终端敲如下命令xcode-select --install
,用来安装Command Line Tools
pip install BeautifulSoup4
pip install requests
pip install lxml
pip install pymongo
如果用mac的话自带的python版本可以满足我们的需求,里面内置了pip,所以只需要在终端敲上面的命令就可以了。当然,有更简单的安装方式,在pycharm中安装,选择File->Default Settings 如图:
firstPic.png
选择右下角‘+’标志,如图:
secPic.png然后搜索你要的库的名字进行安装即可,以上就是mac下的安装方式,不得不说,mac是最简单的。。。
linux安装
windows安装
全部安装完之后,启动python解释器键入
import requests
import lxml
from bs4 import BeautifulSoup
import pymongo
没有报错则环境安装完毕
安装MongoDB
thrPic.png然后
cd bin
新建一个
mongo.conf
文件,编辑该文件,写入:dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true
其中dbPath是数据库存储位置,logPath是log的存储位置,记得在对应位置创建文件夹,如图所示 fourthPic.png
接下来在命令行键入./mongod --config mongo.conf
,得到如下信息则启动成功
写在最后
这篇我们讲解了环境的配置,如果大家有任何问题欢迎留言讨论或咨询,我有时间会一一回复大家,下一章我们正式开始学习爬虫
有兴趣的同学可以加群498945822一起交流学习哦~~
发现问题的同学欢迎指正,直接说就行,不用留面子,博主脸皮厚!