1
hjc4869 2015-06-07 12:24:53 +08:00
|
2
oott123 2015-06-07 12:32:26 +08:00 via Android
这算法不难吧,Readability 啊 Pocket 之类的不就有类似的嘛。
|
3
isaced 2015-06-07 12:33:09 +08:00
真厉害,试了下 cnBeta、36Kr、SegmentFault,甚至连我一个人博客随便一篇文章都能识别出来...
|
4
wy315700 2015-06-07 12:35:27 +08:00
这不就是搜索引擎的技术吗,
|
5
also24 2015-06-07 12:36:36 +08:00
以前似乎是直接抓取 description 的,不知道现在是怎样
|
7
Livid MOD OP |
9
Laforet 2015-06-07 14:59:27 +08:00
现在机械语义分析可用性已经很高了,比如下面这个bot
https://www.reddit.com/user/bitofnewsbot 还有上次推特财报被提前公布也是用了爬虫+语义分析,跳过人工审阅直接发新闻。 |
11
orzfly 2015-06-07 15:11:31 +08:00
|
12
binux 2015-06-07 15:21:17 +08:00
|
14
icedx 2015-06-07 17:30:11 +08:00 via Android
Verizon 家的Message+ 表示不服
|
15
inmyfree 2015-06-07 23:59:55 +08:00
哈哈,推荐我写的一个小东东哈,基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/) [效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/) [开源项目git地址](https://github.com/inmyfree/readability) |
16
0x17e 2015-06-08 00:46:25 +08:00
新闻类的页面的正文提取是最简单的,包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX,如果能把每个回复都单独提取出来合并成正文,那么才算是厉害的算法,可惜目前主流的笔记软件好像还没有这样的功能,除了某些采集软件。
|