热门搜索 :
考研考公
您的当前位置:首页正文

Python数据分析之简书粉丝敌我差距

来源:东饰资讯网

爬虫分析及代码

简书的原因,这里只能爬取粉丝的前100页,一页就是9个粉丝,总共只能爬取900个粉丝,爬取的字段也是很简单:

  • 粉丝id
  • 关注量
  • 粉丝量
  • 文章数(这里我把没写过文章的定义为非活跃用户)
import requests
from lxml import etree
import pymongo

client = pymongo.MongoClient('localhost', 27017)
jianshu = client['jianshu']
luopan = jianshu['luopan']
xiangyou = jianshu['xiangyou']

urls =  for i in range(1,101)]
for url in urls:
    html = requests.get(url)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="user-list"]/li')
    if len(infos) > 0:
        for info in infos:
            id = info.xpath('div/a/text()')[0]
            topic = info.xpath('div/div[1]/span[1]/text()')[0].strip('关注 ')
            fans = info.xpath('div/div[1]/span[2]/text()')[0].strip('粉丝 ')
            article = info.xpath('div/div[1]/span[3]/text()')[0].strip('文章 ')
            content = {
                'id':id,
                'topic':topic,
                'fans':fans,
                'article':article
            }
            # print(id,topic,fans,article)
            xiangyou.insert_one(content)
    else:
        break

敌我差距

此部分通过python数据分析及pyecharts库可视化。

  • 首先看看粉丝的质量:

向右奔跑前辈的粉丝质量明显比我高很多,也会和一些大咖互粉,什么时候大咖也和我互粉呢~由于只能爬取前900个粉丝,差异会扩大很多倍。

  • 看看活跃粉丝差异

这个差距不是很大,这也是简书一直来的问题,大量用户都是不写文章的,简书就是让我们简单的书写我们的人生,大家也可以多写写文章啦,无论是学习,生活,工作,总有你的精彩~

Top