Telegram 的网页主要内容提取真是一个黑科技

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

› Telegram Messenger

› Telegram Messenger for iOS

› Telegram Messenger for Android

› MTProto

› Telegram Bot Platform

This topic created in 3982 days ago, the information mentioned may be changed or developed.

大家可以试试把各种链接（微博，Twitter，V2EX……）发到聊天框里，Telegram 似乎总是可以提取到页面上最重要的内容。

微博

提取

16 replies • 2015-06-08 00:46:25 +08:00

hjc4869

Jun 7, 2015

自己试了一下，这个是在服务端采集的，所以具体细节无从得知了。。

oott123

Jun 7, 2015 via Android

这算法不难吧，Readability 啊 Pocket 之类的不就有类似的嘛。

isaced

Jun 7, 2015

真厉害，试了下 cnBeta、36Kr、SegmentFault，甚至连我一个人博客随便一篇文章都能识别出来...

wy315700

Jun 7, 2015

这不就是搜索引擎的技术吗，

also24

Jun 7, 2015

以前似乎是直接抓取 description 的，不知道现在是怎样

Livid

MOD

PRO

Jun 7, 2015

@also24 谢谢提醒，我找一些没有 desc 的页面试试。

Livid

MOD

PRO

Jun 7, 2015

好吧，看起来，确实和 desc 有关系：

http://vagabond.github.io/rants/2015/06/05/a-year-with-go/

czheo

Jun 7, 2015

@also24 现在好像也基本上是这样

Laforet

Jun 7, 2015

现在机械语义分析可用性已经很高了，比如下面这个bot

https://www.reddit.com/user/bitofnewsbot

还有上次推特财报被提前公布也是用了爬虫+语义分析，跳过人工审阅直接发新闻。

xhacker

Jun 7, 2015

@also24 @Livid: desc 是什么？

orzfly

Jun 7, 2015

@xhacker http://en.wikipedia.org/wiki/Meta_element#The_description_attribute

binux

Jun 7, 2015

http://checi.org/nanchong/

xhacker

Jun 7, 2015

@orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……

icedx

Jun 7, 2015 via Android

Verizon 家的Message+ 表示不服

inmyfree

Jun 7, 2015

哈哈，推荐我写的一个小东东哈，基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
[效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
[开源项目git地址](https://github.com/inmyfree/readability)

0x17e

Jun 8, 2015

新闻类的页面的正文提取是最简单的，包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX，如果能把每个回复都单独提取出来合并成正文，那么才算是厉害的算法，可惜目前主流的笔记软件好像还没有这样的功能，除了某些采集软件。