http://anynb.com 是开源 ourjs 的一个 DEMO 网站,原来只爬了一些知名的博客,后来发现还是有些人访问的。
现在加入了三大门的网站股票频道新闻,为了避免法律风险只爬了标题和链接,内容指向原文
最新开源代码在 0.1.1 的分支 https://github.com/newghost/ourjs/tree/0.1.1 可能不稳定
稳定简单版的代码可查看默认分支 https://github.com/newghost/ourjs/tree/0.1.x
http://anynb.com 是开源 ourjs 的一个 DEMO 网站,原来只爬了一些知名的博客,后来发现还是有些人访问的。
现在加入了三大门的网站股票频道新闻,为了避免法律风险只爬了标题和链接,内容指向原文
最新开源代码在 0.1.1 的分支 https://github.com/newghost/ourjs/tree/0.1.1 可能不稳定
稳定简单版的代码可查看默认分支 https://github.com/newghost/ourjs/tree/0.1.x
1
yh7gdiaYW Jan 18, 2016
时间字体太难看了啊
|
3
figofuture Jan 18, 2016
只是爬爬新闻还好,先马克下。
|
4
GhostEX Jan 18, 2016
有意思啊,整站花了多久做出来的?
|
5
master13 Jan 18, 2016
所以,你认为只要把内容指向原文就能“避免法律风险”吗?
|
8
fising Jan 18, 2016
有什么意义吗。
|
10
Andy00 Jan 18, 2016
想求教一下题主是如何保证抓取每个页面都能拿到标题?是统一用 h1 标签抓取的吗?
|
13
Andy00 Jan 18, 2016
还是不太懂,求教题主细说一下
我之前的做法都是把整个页面拿下来然后用用正则表达式提取,所以需要去找每个网站的页面 html 代码然后写对应的正则,感觉这种做法效率太低了,求教更高效的做法 |
14
onion83 Jan 18, 2016
那个进度条对于视频网站才有意义,一般的文字网站我觉得太晃眼了。
|
15
newghost OP @Andy00
anynb 全部使用 JavaScript(DOM),用 JavaScript 操作DOM再简单不过了。你可以参考以下技术 https://github.com/atom/electron https://github.com/nwjs/nw.js http://phantomjs.org/ 有空我会整理一篇文章出来…… |
17
Andy00 Jan 18, 2016
学习了学习了!
我之前都是用 java 写,感觉入了个坑。。。决定转投 js 了 |
18
magicdawn Jan 18, 2016
可以直接从 chrome devtools 复制出 selector, 放到 cheerio 的 selector 里...完美
其他语言, BeautifulSoup / CsQuery / goquery 应该也可以, 估计要改改... 这个 node 的 cheerio 真是无敌了 |
20
cheneydog Jan 18, 2016
下一步添加市场情绪分析吧。
|
21
magicdawn Jan 19, 2016
@newghost 那这个 DOM 动态渲染你是咋做的~
我觉得 DOM 动态渲染分两种, 一种是 ajax 接口然后去渲染, 一种是淘宝那样, 内嵌 js 数据, 去渲染 前面一种直接用它接口就好, 后面估计要去找 js |
24
magicdawn Jan 19, 2016
|
28
kelaodo Jan 20, 2016
赞一个
|