Scrapy爬简书30日热门 —— 总是套路留人心

Scrapy 第一篇：单层次页面爬取 | 结巴分词

最近刚接触Scrapy基础，不太适应（主要是各种设置和之前不太一样）。不过其分块思维吸引人，编写逻辑清晰，抓取速度也快。

今天爬了简书30天热门的标题，简单做了个词频统计（想看分析的直接跳到后面吧~）
过程比较简单就不详细叙述。

1、 首先是Scrapy出现Crawled (403）

猜想可能是爬虫被发现了，改了下User_agent可以运行
Scrapy爬虫防止被"ban"的几种方法：
（下面这篇博文讲得很透彻）

2、其次是jieba分词这一块出了问题

查了资料终于解决，原来是.pyc文件问题。
脚本每次运行时均会生成.pyc文件；在已经生成.pyc文件的情况下，若代码不更新，运行时依旧会走pyc。

所以解决办法就是要删除jieba库里面的.pyc文件，重新运行代码。同时命名脚本时，不要与py预留字、模块名等相同。对其它库亦是一样的。

最后换成了wordart，可以上传字体（哎宝宝还是想试试tagxedo>_<）。

4、用几乎相同的方式获取“首页投稿”专题里的文章的标题，结果又返回403，添了User_agent ，改了相关的setting，加了Cookies,还是不行

猜测数据隐藏在JS里面了，逛知乎发现一帖子，也是这个问题

心有余而力不足啊~~~（唉，暂且搁置）

用的jieba 来分词

用语料库在线（）统计词频
词云用wordart（就是之前的TaGul ）。
一起来看结果：

隔着屏幕都闻到一股浓浓的鸡汤味呀~^_

用图上的高频词汇，

版本（一）：

一生有几个10岁，喜欢自己特别努力的样子

版本（二）：

这第二个，，，
特么忙了半天原来给自己挖了个坑，
我是有多无聊。。。不说了，去哭会~

本篇就是这样了~