1
ququzone OP http://code.google.com/p/cx-extractor/ 这个是我目前在用的算法
|
3
sohoer 2013-09-26 09:39:19 +08:00
感谢分享,也正在寻找。
|
4
mywaiting 2013-09-26 11:46:02 +08:00
虽不明,但觉厉~
|
5
cctvsmg 2013-09-26 11:51:27 +08:00
可以参考下印象笔记的剪藏插件
|
6
yushiro 2013-09-26 11:55:18 +08:00
还有一种是readability的方法, 适合提取英文的HTML正文, 对中文支持不是很好(至少以前是这样, 现在不清楚)
|
7
ququzone OP @justfindu
@sohoer @mywaiting 看来还是有人对这个有需求,我把目前简单的实现开源出来供大家参考: https://github.com/ququzone/html-extracor |