1
baijiahei OP 咋都是进来瞄一眼就跑的啊,没人帮忙解答一下吗?
之前 RSS 很多被下架 原因都是什么 |
2
natashahollyz 2020-12-03 11:25:26 +08:00
个人觉得不构成。
流量还是回到源站的话,这没什么问题。 转载注明出处也没啥问题。源站注明拒绝转载除外。 |
3
baijiahei OP @natashahollyz 我也是这么想的 但是 RSS 类的为啥被下架那么多呢 是因为不受控 有外网内容?
|
4
natashahollyz 2020-12-03 11:29:21 +08:00
@baijiahei 苹果说有违反中国法律的内容。。。大概能猜到是什么了
|
5
czfy 2020-12-03 11:29:21 +08:00
10 分钟一次,这个频率挺高了其实
只抓标题,理论上肯定比抓全文风险更低 |
6
natashahollyz 2020-12-03 11:32:20 +08:00
@baijiahei 抓全文可能涉及到版权,抓标题应该不涉及。如果源站不让抓,通知你一下,你不抓就是了。法律风险微乎其微
|
7
ztxcccc 2020-12-03 11:33:00 +08:00
看 robot.txt 做事
频率合理 只爬公开页面 不直接盈利 至少被告的时候还能抗诉下 |
8
westoy 2020-12-03 11:38:30 +08:00 1
通用搜索引擎并不是定向爬取+定向利用
定向爬取定向利用是有争议的, 对方是有机会搞你的 feed 是平台主动把数据展示给你 几个性质不一样的 |
9
baijiahei OP @natashahollyz 大概是想象的样子 毕竟 rss 是用户自定义 不可控
|
10
baijiahei OP @natashahollyz 是的
|
11
natashahollyz 2020-12-03 11:50:45 +08:00 via iPhone
@baijiahei 时政别碰,搞不好喝茶。其它的不要怕
|
12
baijiahei OP @natashahollyz 没这想法 很多东西是红线
|
13
opengps 2020-12-03 12:11:33 +08:00
爬虫现在没有明确边界,除了已经想到的问题,多关注这一行里的新闻及时调整吧
|
14
opengps 2020-12-03 12:12:44 +08:00
文中有看到类比百度,这是个不太合适的类比,毕竟百度给源站带去流量,可能是源站期望的效果。
|
15
jones2000 2020-12-03 14:26:20 +08:00
找个律师事务所咨询下不就可以了。
|
16
2088TXT 2020-12-03 17:23:41 +08:00
百度也是 看 robot.txt 协议吧
|