先说下需求:
one(一)
一台MAC电脑
(二)Python环境搭建(所有命令都是在terminal中输入的)
- 安装:
/usr/bin/ruby -e "$(curl -fsSL
- 安装pip:这里我在terminal中输入
python -v
,homebrew会自动帮你升级Python到2.7.11版本的。2.7.11版本里自带了pip工具。 - 安装virtualenv:
pip install virtualenv
- 安装request和beautifulsoup4:
pip install requests beautifulsoup4
参考
我想要的内容是这段话:“即使热恋者的情感是错觉、幻象或自恋行为,那又何妨,所谓人生就是一段不断追求情爱的路程。 by 森山大道”。它在图中画红线的地方。在<heda>
标签里的<meta>
中,之后会用到,先往下看。
图片的链接在哪里?显然不在<head>
中,往下找,然后就在<body>
中,发现2处和图片类似的链接。看图
首先,抓取我们需要的哪三个内容:
进入python环境,然后敲入下面的代码:
import requests
import bs4
response =
soup = bs4.BeautifulSoup(response.text,"html.parser")
这样,就可以将网页信息存储到soup中了。你可以敲入print soup
试试。
soup.title.string[3:7]
title是tag值,string是tag=title的字符串的值,也就是<title></title>
之间的值,因为只有一个<title>
tag,所以不用做判断,直接获取即可。
接下来,获取一段话。
要截取的内容这段话在<meta>
中,而这里又有太多的<meta>
了,怎么办。这里要用到select方法了,它可以查找所有的<meta>
,并返回一个列表。还要用到get方法,get可以获得tag的属性,如tag: <meta attr='abc'>
tag.get('attr')值等于abc。这里我们要获取的属性是name,通过name='description'来区分。
for meta in soup.select('meta'):
if meta.get('name') == 'description':
print meta.get('content')
接下来,在两个img标签中,查找第2个img标签标定的链接。这里通过find_all方法,它可以查找所有的符合要求的标签。
soup.find_all('img')[1]['src']
这样,我们就把所需要的信息找出来了。
终端示例def echoInfo(num):
return num
data = map(echoInfo, range(0,10))
print data
全部的代码示例如下:
import argparse
import re
from multiprocessing import Pool
import requests
import bs4
import time
import json
import io
root_url =
def get_url(num):
return root_url + '/one/' + str(num)
def get_urls(num):
urls = map(get_url, range(100,100+num))
return urls
def get_data(url):
dataList = {}
response = requests.get(url)
if response.status_code != 200:
return {'noValue': 'noValue'}
soup = bs4.BeautifulSoup(response.text,"html.parser")
dataList["index"] = soup.title.string[4:7]
for meta in soup.select('meta'):
if meta.get('name') == 'description':
dataList["content"] = meta.get('content')
dataList["imgUrl"] = soup.find_all('img')[1]['src']
return dataList
if __name__=='__main__':
pool = Pool(4)
dataList = []
urls = get_urls(10)
start = time.time()
dataList = pool.map(get_data, urls)
end = time.time()
print 'use: %.2f s' % (end - start)
jsonData = json.dumps({'data':dataList})
with open('data.txt', 'w') as outfile:
json.dump(jsonData, outfile)