1
hjc4869 Jun 7, 2015
|
2
oott123 Jun 7, 2015 via Android
这算法不难吧,Readability 啊 Pocket 之类的不就有类似的嘛。
|
3
isaced Jun 7, 2015
真厉害,试了下 cnBeta、36Kr、SegmentFault,甚至连我一个人博客随便一篇文章都能识别出来...
|
4
wy315700 Jun 7, 2015
这不就是搜索引擎的技术吗,
|
5
also24 Jun 7, 2015
以前似乎是直接抓取 description 的,不知道现在是怎样
|
7
Livid MOD OP PRO |
9
Laforet Jun 7, 2015
现在机械语义分析可用性已经很高了,比如下面这个bot
https://www.reddit.com/user/bitofnewsbot 还有上次推特财报被提前公布也是用了爬虫+语义分析,跳过人工审阅直接发新闻。 |
12
binux Jun 7, 2015
|
14
icedx Jun 7, 2015 via Android
Verizon 家的Message+ 表示不服
|
15
inmyfree Jun 7, 2015
哈哈,推荐我写的一个小东东哈,基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/) [效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/) [开源项目git地址](https://github.com/inmyfree/readability) |
16
0x17e Jun 8, 2015
新闻类的页面的正文提取是最简单的,包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX,如果能把每个回复都单独提取出来合并成正文,那么才算是厉害的算法,可惜目前主流的笔记软件好像还没有这样的功能,除了某些采集软件。
|