针对的是本站某个帖子:
首先是一个用 Python 登录各网站的项目: https://www.v2ex.com/t/541855
可以看出都是从网上找来的代码,而且很多都是未经过验证就放上去了,没想到这个还能有 5k star ??
然后是作者所谓的教程: https://www.v2ex.com/t/550157 看一下所谓的教程: https://github.com/CriseLYJ/Python-crawler-tutorial-starts-from-zero/blob/master/%E7%88%AC%E8%99%AB%E9%A2%84%E5%A4%87%E7%9F%A5%E8%AF%86.md 随便搜索一句话:
随便进一篇文章: http://www.zhongruitech.com/692280656.html
左边是 github 的文章,右边是搜到的文章
请问这样一个完全靠“抄”的项目和教程真的很好吗?
102
lynskylate 2019-03-31 02:12:30 +08:00 via Android
爬虫本身小白就多,入门简单,需求又大,大部分网站反爬措施弱智,天花板相对也低。
|
103
widewing 2019-03-31 02:14:26 +08:00 via Android
@CriseLYJ 兄弟你心态爆炸我也是能理解的,只当是有则改之吃一堑长一智吧。想要站在聚光灯下就要事先做好准备,是吧
|
105
Humorce 2019-03-31 04:44:11 +08:00
once you go python , you are the part of python .
也许这就是 Python 的命运。 |
107
sergiojune 2019-03-31 06:39:13 +08:00
终于有人说出我的心声了,我一直想说他那个 5k+的项目就是抄的,而且转载了还不注明来源,不过我也忍了,毕竟现在抄袭太多,说不了太多,继续做好自己即可,借机推荐下自己的项目,每周一爆,逆向 JS[破解各种网站的 JS [知乎] [豆瓣][拼多多][Incapsula-CDN],持续更新]( https://github.com/SergioJune/Spider-Crack-JS),欢迎 star,会持续更新,可能会有点慢。
|
109
Abbeyok OP @azh7138m 可以去看代码,可能这里没有仔细说代码的项目。网上收集+未经验证+不注明来源
|
110
irainsoft 2019-03-31 07:49:29 +08:00
有点搞不懂,收集和抄在这个事件里面不是一样的意思吗...
上一页作者的暴脾气也是厉害,写这种东西出于严谨应该标注任何非自己原创的东西,哪怕是什么官方文档复制来的东西也应该标注来源 |
111
miao1007 2019-03-31 08:19:29 +08:00 via Android
在 GitHub 上用扩展把 Chinese 字符串的项目给 block 了,世界就清净了。虽然有些极端,但是方便
|
113
okwork 2019-03-31 08:48:00 +08:00 via Android
@Senventise
知识在一定程度上,是可以区分原创和二次整理创作的。我指的是谷歌也不算原创,但在二次整理创作方面做的很好啊。 @Love4Taylor 你了解下欧美几千家媒体和出版社抗议谷歌的情况,谷歌新闻、谷歌图书都怎么干的,没你认为的那么不 evil。 |
114
MrCard 2019-03-31 09:19:34 +08:00
这样抄伤害的是认真写代码的人,写好一个功能不容易,改个 BUG 就得花上一整晚,别人按两个键就复制过来还顺手把作者改成了自己
看到这样一个项目有 5k 我是挺酸的,因为太容易了,但我看到 vue 怎么一点也不酸 |
115
Abbeyok OP @MrCard 没错,顺手一复制就把代码归到了自己手下,嘴上说“我已经说了是收集的”就想把责任推了,还要求别人不能责怪他
|
116
abmin521 2019-03-31 09:31:01 +08:00 via Android
@okwork #113 不得不说 维基,谷歌一定程度打破了信息不对称, 不过他们可以禁止谷歌的爬虫 Deny *
|
117
Akiyu 2019-03-31 09:31:33 +08:00
@hasaki1997
你没有从原作者的角度来考虑这个问题 如果仅仅是拿来借鉴, 组合再一起, 就能获得那么多的 star 的话, 就没有人愿意去创新 (star 不是证明一个项目含金量的绝对手段, 但是大多数人在初次接触时, 都会选择 star 较多的) 这样的教程的确方便了别人, 但是造成这个方便的是这些东西的真正作者 而借鉴却不标明来源, 原作者就得不到应有的回报 |
118
greatghoul 2019-03-31 09:32:09 +08:00 3
|
119
ifxo 2019-03-31 09:33:18 +08:00
全是抄的,无中生有可能吗
|
120
okwork 2019-03-31 09:45:14 +08:00 via Android
@abmin521 #116 谷歌开始搞 news,books 是抡起袖子就搬,根本没和人家商量。早期互联网缺少内容,流行避风港原则,先搞了再说,等你投诉再撤。现在信息都互联网化了,大家发现优质内容必须要得到版权尊重,否则就是垃圾泛滥。
|
121
tumbzzc 2019-03-31 10:10:56 +08:00 via Android
顶一顶
|
122
suzic 2019-03-31 10:21:49 +08:00 via Android
恕我直言,ctrl +c 不注明来源,都是垃圾
|
123
imdoge 2019-03-31 11:17:26 +08:00
原来都是搬运的,我去看了项目发现提到不考虑验证码识别,就溜了。。
|
125
LWXYFER 2019-03-31 11:40:29 +08:00
为什么现在只有 600+ 了? 233333
|
127
azanone 2019-03-31 11:49:55 +08:00 via iPhone
没想到有些用 markdown 的人也会抄,搞得我以为右边的抄了左边的文章
|
128
HuasLeung 2019-03-31 11:58:24 +08:00 via Android
卧槽仔细 check 下还真是一大堆照搬照抄的 昨天我还表示支持…
|
129
Abbeyok OP @HuasLeung 不去看代码的话确实会疏忽。我刚好研究过好几个网站的登录,一看代码就知道有问题
|
130
PP 2019-03-31 12:49:38 +08:00 via iPad
我想可以构建一个新名词来描述这种情况,“ git 农场”,就是 github、gitlab 诸如此类同内容农场的合体。
“ git 农场”搬运大量原创性内容,对各个来源进行隐藏甚至从未获得许可,在进行简单洗稿之后甚至在不加修改的情况下,集中以自有或聚合的名义发布,并从这一过程中获得不当利益。 “ git 农场”对所有原创者和原创内容都造成了侵害,并由于无法提供权威的更正和更新而对误用者造成二次伤害。“ git 农场”的存在,破坏了 github、gitlab 类社区的生态环境,降低了社区质量。 所以,对“ git 农场”要坚决清扫,社区和成员要在这个问题上共同努力。对于聚合性和目录性内容,应该有强制性要求,在进行明确限制的同时避免误伤。 |
131
silvernoo 2019-03-31 13:12:24 +08:00 1
第一次提交是 2 个月之前,这么短时间内 5000stars,水分应该不小
|
132
yuthelloworld 2019-03-31 13:34:55 +08:00
不知道抄个 github repo 能带来什么收益?内心的满足感?
|
133
woshinide300yuan 2019-03-31 13:47:46 +08:00
哈哈哈哈,可笑死我了。
这一代网友不好骗啊! |
134
Leigg 2019-03-31 13:54:51 +08:00 via iPhone
额,个人觉得,一些基础概念性的东西引用权威资料(如百科维基等)并不能断言为抄吧,毕竟文章的核心并不是这些内容,而是代码。
|
135
xuxueli 2019-03-31 14:26:15 +08:00 via Android
|
139
leafre 2019-03-31 15:00:33 +08:00
楼主英明
|
140
miao1007 2019-03-31 15:26:18 +08:00 2
@lianyue13 这个是过滤 Github trending 的,可以定制 keyword https://github.com/miao1007/github-trending-filter
|
141
miao1007 2019-03-31 15:32:41 +08:00
看了下 star 趋势,26 天这个速度大家一看便知
[![Stargazers over time]( https://starchart.cc/CriseLYJ/awesome-python-login-model.svg)]( https://starchart.cc/CriseLYJ/awesome-python-login-model) |
144
hkitdog 2019-03-31 17:32:22 +08:00 via iPhone
这是国人生态...
|
145
E1n 2019-03-31 17:32:54 +08:00
支持楼主
|
147
Binb 2019-03-31 18:14:02 +08:00 via Android
原因很简单搜索靠前、缘分,假设网上看到不错的文章还要先查证是不是原版……要去看原版。什么小说、电视剧不都这样;物质匮乏的年代,人树皮都吃,现在要看商品合格证,还要进口,还要看是否假冒伪劣……
|
148
Binb 2019-03-31 18:16:15 +08:00 via Android
人都是懒得,东西是拿来用的,…的时候才谈原版,伪劣,好坏,善恶…
|
149
xFrye 2019-03-31 18:42:55 +08:00
@CriseLYJ 自己写不是理所当然的吗?抄、借鉴当然可以,在 GitHub 做知识收集的项目我很支持,注明出处就行,这不是什么丢脸的事情,把别人的东西重新编译成自己的东西,我记得有个词叫做洗稿。
|
150
herozzm 2019-03-31 18:45:49 +08:00
@yuthelloworld 面试的时候,面试官一看,哎呀有 5k star 的 repo,加分~
|
151
yehai 2019-04-01 10:58:55 +08:00
好像很多 issue 也不去解决,回答也没有准确的说法,是真的验证过的吗?
|
153
DearTanker 2019-04-01 13:17:58 +08:00
等你明白什么是信息差就能解释所有这类问题了。
|
154
deadEgg 2019-04-01 13:21:08 +08:00
|
155
myliang 2019-04-01 13:30:07 +08:00
github star 对一些真正开源有用的项目还是很有帮助,至少得到了大家的关注,开发者的心里会很有动力
|
156
justff 2019-04-01 15:58:17 +08:00
说的不错,而且 看看 CriseLYJ 的态度已经恼羞成怒了
|
157
ZiLong 2019-04-01 18:00:12 +08:00
5k star 不错了,所以你不努力,这个世界就会交给别人
|
159
ZiLong 2019-04-01 18:46:43 +08:00
@Abbeyok 当然,内容里面都是别人努力的成果,别人的心血.我的意思是大家还是很喜欢类似于***list,awsome***之类的结合,就像如果新华字典缺了前面的索引页,很难用了.所以,整合是很有价值的,需要有人付出努力,我的意思也是在这方面去努力.但是你不能做了索引页,就说后面的内容是你的,或者悄咪咪的不作声,这人家误会是你的,这就不太好了.
|
160
xiaolanger 2019-04-01 22:47:08 +08:00
楼主,你的博客有没有 rss ?
|
161
Abbeyok OP |
162
learningman 2019-04-02 09:39:04 +08:00
我发的 abuse 没了
|
163
learningman 2019-04-02 09:46:14 +08:00
@chen2016 很多人是仓鼠心态吧,感觉有用就 star 了,顺便 fork 一份收藏,你看他有几个 PR
|
164
Abbeyok OP @learningman 无耻之人肯定去删除不良信息了
|
165
my8100 2019-04-04 11:29:54 +08:00
大环境如此,难怪我发的原创内容无人问津,只能安慰自己曲高和寡了
|