用Python爬下淘宝上面几万条数据,聊聊淘宝上飞

2019-05-06 作者:计算机教程   |   浏览(66)

www.2003.com 1

温馨提示,本文某些内容可能会引起不适

 

目标:爬取淘宝上关键词为“飞机杯”的商品数据,和销量前十的所有评论。

温馨提示,本文某些内容可能会引起不适

工具:Python Scrapy 爬数据,Excel World Cloud 分析数据

目标:爬取淘宝上关键词为“飞机杯”的商品数据,和销量前十的所有评论。

数据抓取

www.2003.com 2

简单找出翻页方法,数据都藏在这里

https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1504329067199_977&callback=jsonp978&q=飞机杯&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=,48

https://s.taobao.com/search?data-key=s&data-value=88&ajax=true&_ksTS=1504329110124_1174&callback=jsonp1175&q=飞机杯&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=,48&s=44

https://s.taobao.com/search?data-key=s&data-value=132&ajax=true&_ksTS=1504329292131_1421&callback=jsonp1422&q=飞机杯&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=,48&s=88

www.2003.com 3

做好相应的应对措施就好了,不会的可以看看之前的 爬虫三步走(一)获取源码

工具:Python Scrapy 爬数据,Excel World Cloud 分析数据

数据解读

在进行简单数据处理后,看看发现了什么?

www.2003.com 4

竟然在10-20元有这么多商品,哇,难以想象。

你平时买多少的?

我们看看销量

www.2003.com 5

看来大多数飞机杯销量都不大好,在40下,我们来研究下销量大于10K的,有这些:

价格是亮点

最后我们来研究下评论。

www.2003.com 6

使用评论做成的图云

www.2003.com 7

商品种类的词云

www.2003.com 8

太污了,我还只是个孩纸

商品名称词云

www.2003.com 9

最后来试试情感分析, 参考了@王树义 老师写的 如何用Python做情感分析?

主要用到了snownlpTextBlob

Sentiment(polarity=0.9578947368421052, subjectivity=0.6252631578947367)

0.96,看来人们的评价还是极高的。

如果你想购买某件商品,可以先把评论抓了,然后做个分析什么的。这可能就是学Python的应用吧~

数据抓取

最后

其实数据采集不算难,最难的是分析清理,因为本人能力不够,对数据挖掘尚浅。就飞机杯数据来说,还有很深的信息可以挖掘,如果你感兴趣,可以来公众号获取。

公众号:萌新的学习日记 爬下几万条数据,聊聊淘宝上的飞机杯

www.2003.com 10

 

简单找出翻页方法,数据都藏在这里

www.2003.com 11

 

https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1504329067199_977&callback=jsonp978&q=飞机杯&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=,48

https://s.taobao.com/search?data-key=s&data-value=88&ajax=true&_ksTS=1504329110124_1174&callback=jsonp1175&q=飞机杯&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=,48&s=44

https://s.taobao.com/search?data-key=s&data-value=132&ajax=true&_ksTS=1504329292131_1421&callback=jsonp1422&q=飞机杯&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170902&bcoffset=4&p4ppushleft=,48&s=88

www.2003.com 12

 

做好相应的应对措施就好了

数据解读

在进行简单数据处理后,看看发现了什么?

www.2003.com 13

 

竟然在10-20元有这么多商品,哇,难以想象。

你平时买多少的?

我们看看销量

本文由www.2003.com发布于计算机教程,转载请注明出处:用Python爬下淘宝上面几万条数据,聊聊淘宝上飞

关键词: