Python爬虫: 抓取One网页上的每日一话和图

先说下需求：

one

（一）
一台MAC电脑

（二）Python环境搭建(所有命令都是在terminal中输入的)

安装：
/usr/bin/ruby -e "$(curl -fsSL
安装pip：这里我在terminal中输入python -v,homebrew会自动帮你升级Python到2.7.11版本的。2.7.11版本里自带了pip工具。
安装virtualenv：
pip install virtualenv
安装request和beautifulsoup4：
pip install requests beautifulsoup4
参考

网页源文件

我想要的内容是这段话：“即使热恋者的情感是错觉、幻象或自恋行为，那又何妨，所谓人生就是一段不断追求情爱的路程。 by 森山大道”。它在图中画红线的地方。在<heda>标签里的<meta>中，之后会用到，先往下看。
图片的链接在哪里？显然不在<head>中，往下找，然后就在<body>中，发现2处和图片类似的链接。看图

图片链接地址

首先，抓取我们需要的哪三个内容：
进入python环境，然后敲入下面的代码：

import requests
import bs4
response = 
soup = bs4.BeautifulSoup(response.text,"html.parser")

这样，就可以将网页信息存储到soup中了。你可以敲入print soup试试。

soup.title.string[3:7]

title是tag值，string是tag=title的字符串的值，也就是<title></title>之间的值，因为只有一个<title>tag，所以不用做判断，直接获取即可。

接下来，获取一段话。

要截取的内容

这段话在<meta>中，而这里又有太多的<meta>了，怎么办。这里要用到select方法了，它可以查找所有的<meta>，并返回一个列表。还要用到get方法，get可以获得tag的属性，如tag: <meta attr='abc'> tag.get('attr')值等于abc。这里我们要获取的属性是name，通过name='description'来区分。

for meta in soup.select('meta'):
    if meta.get('name') == 'description':
        print meta.get('content')

接下来，在两个img标签中，查找第2个img标签标定的链接。这里通过find_all方法，它可以查找所有的符合要求的标签。

soup.find_all('img')[1]['src']

这样，我们就把所需要的信息找出来了。

终端示例

def echoInfo(num):
    return num

data = map(echoInfo, range(0,10))
print data

全部的代码示例如下：

import argparse
import re
from multiprocessing import Pool
import requests
import bs4
import time
import json
import io

root_url = 

def get_url(num):
    return root_url + '/one/' + str(num)

def get_urls(num):
    urls = map(get_url, range(100,100+num))
    return urls

def get_data(url):
  dataList = {}
  response = requests.get(url)
  if response.status_code != 200:
    return {'noValue': 'noValue'}
  soup = bs4.BeautifulSoup(response.text,"html.parser")
  dataList["index"] = soup.title.string[4:7]
  for meta in soup.select('meta'):
    if meta.get('name') == 'description':
      dataList["content"] = meta.get('content')
  dataList["imgUrl"] = soup.find_all('img')[1]['src']
  return dataList

if __name__=='__main__':
  pool = Pool(4)
  dataList = []
  urls = get_urls(10)
  start = time.time()
  dataList = pool.map(get_data, urls)
  end = time.time()
  print 'use: %.2f s' % (end - start)
  jsonData = json.dumps({'data':dataList})
  with open('data.txt', 'w') as outfile:
    json.dump(jsonData, outfile)