互联网购物现在已经是非常普遍的购物方式,在互联网上购买商品并且使用之后,很多人都会回过头来对自己购买的商品进行一些评价,以此来表达自己对于该商品使用后的看法。商品评价的好坏对于一个商品的重要性显而易见,大部分消费者都以此作为快速评判该商品质量优劣的方式。所以,与此同时,有些商家为了获得好评,还会做一些 "好评优惠" 或者 "返点" 活动来刺激消费者评价商品。
既然商品评价对于消费者选购商品而言至关重要,那么我想试试可以从这些评价信息中获取到怎样的价值,来帮助消费者快速获取到关于该商品的一些重要信息,给他们的购物带来更加可靠地保证?
所以,我认为,一种快速、全面、高提炼度和高对比度的信息获取和展示方式将会非常必要。 于是,我采用分布式快速抓取京东的评价信息,然后使用 pandas 对抓取到的数据进行分析。
话不多说先附上使用地址
体验地址:http://awolfly9.com/jd/
体验示例地址:http://awolfly9.com/article/jd_comment_analysis
想要分析京东商城的商品评价信息,那么需要做些什么呢
采用分布式抓取,尽量在短时间内抓取需要分析的商品足够多的评价信息
将抓取到的评价信息都存储到数据库
从数据库中取出所有数据进行数据分析
利用 Django 搭建后台,将数据抓取和数据分析连起来
前端显示数据抓取和分析结果
采用分布式抓取的目的是快速的在短时间内尽量抓取足够多的商品评价,使分析结果更精确
使用 Django 搭建一个简易的后台 jd_analysis ,将分布式抓取数据和数据分析连起来,并且将分析结果返回前端显示。
在客户端第一次请求时,生成一个 GUID ,并且存储在 cookie 中。然后开启一个定时器,带上 GUID 不断的向 jd_analysis 后台请求结果。 jd_analysis 后台利用请求的 GUID 从 redis 中获取抓取信息和分析结果的所有内容,返回给前端。前端显示请求到的结果。
购买和评论时间折线图
购买渠道柱状图
以上就是完整的抓取京东商品的评价信息并且使用 pandas 分析评价然后利用 Django 搭建后台前端显示抓取和分析结果的所有步骤。
再次贴上使用地址:http://awolfly9.com/jd/ 欢迎多多尝试,多挑毛病~
如果你对这个项目感兴趣欢迎和我交流沟通,我也建立了这个项目和数据分析的微信群,也可以加我好友进微信群,我的个人微信
1
awolfly9 OP 服务器已挂,正在重启
|
2
xiaoyu9527 2017-04-20 13:43:46 +08:00
这个真屌。
有没有实现思路? |
3
awolfly9 OP @xiaoyu9527 上面不是已经说明了完整的实现思路吗
|
4
yanchao7511461 2017-04-20 13:53:59 +08:00
不错啊
|
5
gimp 2017-04-20 13:55:27 +08:00
挺好的
|
6
awolfly9 OP @yanchao7511461 谢谢
|
8
zhy 2017-04-20 13:58:24 +08:00
分布式抓取?就是有很多台机器很多 ip 了?
|
11
onelove 2017-04-20 15:37:58 +08:00
厉害,学习了。
|
12
justtery 2017-04-20 15:56:12 +08:00 via Android
叼叼叼,来学习一下
|
14
0Zyc 2017-04-20 16:31:15 +08:00
全球购 item.jd.hk 类似这样链接好像都不行,功能很棒。思路很不错学习了。
|
16
xuyl 2017-04-20 22:47:02 +08:00
很好,如果开源出来就好了。
|
17
hanbing135 2017-04-21 07:51:32 +08:00 via Android
词云啥意思
|
18
AlisaDestiny 2017-04-21 18:58:46 +08:00
可以的小伙子,下次再京东买东西就先在你这分析一下。
|
19
maemo 2017-04-22 08:08:02 +08:00
楼主, ip 的问题是怎么解决的
|
20
awolfly9 OP @hanbing135 百度下词云
|
21
awolfly9 OP @AlisaDestiny 欢迎多多尝试~
|
22
awolfly9 OP @maemo 可以参考我之前的开源项目 https://github.com/awolfly9/IPProxyTool
|