spider_news_cctv
2002 年至今的所有新闻联播内容,总计 4W 多
https://github.com/hailong0707/spider_news_cctv
spider_news_all
证券日报,证券时报,证券日报网,南华早报,中国经营网,经济观察报,财经网,证券时报网,中证网,华尔街见闻 相关模块的整站爬取。证券日报,证券时报数据量可观,近 70W.
https://github.com/hailong0707/spider_news_all
spider_news_gov
中国发展改革委员会 内容爬取已经文档下载,包含对 Word 文档的内容解析。
https://github.com/hailong0707/spider_news_gov
spider_news_finance
SinaFinance, FTChinese, CFI 三个财经类网站的数据爬取
https://github.com/hailong0707/spider_news_finance
提供工具的参考学习,数据的用途等其他相关风险,自负。
1
yuprince Sep 4, 2015
这工具写的挺好玩。
|
2
Moker Sep 4, 2015
最近在爬微信。。。
|
4
pangtianyu Sep 4, 2015
好多人都是爬妹子 终于有个不一样的
|
5
ljbha007 Sep 4, 2015
做数据分析? 机器学习 然后炒股?
|
6
regent Sep 4, 2015
做新闻研究的可以用哦
|
8
hailong0707 OP @pangtianyu 我也想爬妹子,做成 RESTful API ,写 Android 客户端 :)
|
9
hailong0707 OP @ljbha007 确实是数据分析,通过历年的新闻数据,结合实际,总结相关新闻预测的准确性
|
10
ariestiger Sep 5, 2015
有点意思, 最近也在抓上市公司的专利数据和司法裁判数据。
|
11
JQ Sep 6, 2015
.pyc 文件就不要上传了吧
|
12
lj2546855 Sep 6, 2015 via Android
还得加点东西,比如说全球股市,PMI,CPI,公司财务报表,纳斯达克,证监会公告,隔夜拆借利率,汇率,克强指数,日经,恒生,黄金期货价格,成交量,算上天气、节日等影响因素,可以做出一个股票预测软件 o
|