1
pandachow 2015-09-25 01:02:12 +08:00 via iPhone 2
我仿照它做了一个,加了不少规则,现在对中文网页优化好很多。已经给产品用上了,反馈也不错,过段时间打算开源。
|
2
pandachow 2015-09-25 01:22:10 +08:00 via iPhone
有一点比较大的区别是加了规则之后用梯度提升决策树训练的,不再是 readability 的硬规则,所以需要一些网页做训练。
|
3
adrianzhang 2015-09-25 01:40:21 +08:00
IFTTT ,粘!
|
4
missdeer 2015-09-25 06:45:34 +08:00 via Android
用 evernoteclipper
|
7
icedx OP @adrianzhang 求分享管道
|
9
iugo 2015-09-25 14:49:23 +08:00
红+沙发.
一直在用. |
13
pandachow 2015-09-25 15:54:41 +08:00
@icedx general 来说,正文准确率还可以。但是硬规则过滤的结果其实非常依赖前端的规范与否,此时如果发现某几个网页结果不好的时候,多数情况只能单独为它加规则或者改让前端改网页,维护和修改成本不低。
机器学习的好处在于如果不好,就拿这个网站的几个页面专门训练,直到算出来结果正确为止,最多会维护几个模型而已,。。。 |
16
icedx OP |
17
adrianzhang 2015-09-25 16:48:15 +08:00
@icedx 不需要分享的吧?有很多公共的 readability 2 pocket 一类的 receipts.
|
18
icedx OP @adrianzhang 去搜下😂
|
19
adrianzhang 2015-09-25 16:52:49 +08:00
|