
其实就是爬取所有的国内场外基金某一个季度的数据,然后重点关注你需要的数据,比如晨星评级,持仓股,总资产等等。根据你的指标过滤,整合汇总,输出。这样就可以分析出高晨星评价的基金,还有就是哪些股票是基金重仓股。有了很多个季度的数据之后,就可以分析出变化趋势来。
做这个项目一直忐忑不安的。万一真的触碰到法律了,还是就麻烦的。各位 V2EX 们可以讨论,给给建议
1
jackyLu OP |
2
Rache1 2022 年 11 月 14 日 信则有,不信则无。
|
3
fengjianxinghun 2022 年 11 月 14 日
欲加之罪 何患无辞
|
4
Mark24 2022 年 11 月 14 日
欲加之罪 何患无辞
|
5
vzong 2022 年 11 月 14 日
欲加之罪 何患不整你
|
6
4BVL25L90W260T9U 2022 年 11 月 14 日 自己用当然无所谓啦,除非你把对方网站爬挂了。不过,放 GitHub 上你跟我说自己用?
|
7
FallenTy 2022 年 11 月 14 日 你自己搞搞可能人家还不在意,传播多了就看人家想什么时候搞你了
|
8
Features 2022 年 11 月 14 日
放 gayhub 干嘛? 怕官方找不到你?
|
11
pengtdyd 2022 年 11 月 14 日
对于公开的数据,一般只要不弄垮对方服务器,基本没问题。
|
13
Ionian 2022 年 11 月 14 日
没事吧 你大可以说这个是自己手动整理的 公开数据没说不让整理吧
|
14
HunSiKing 2022 年 11 月 14 日
有法律风险的事情, 你还放 GitHub 上, , 这是什么操作?
|
15
liuidetmks 2022 年 11 月 14 日
你要是把这个系统搞崩了,就会找你。
而且这类数据应该是要收费的。 |
16
Jooooooooo 2022 年 11 月 14 日
别人报警你就得喝一壶.
|
17
newmlp 2022 年 11 月 14 日
自己玩玩就行了,不要传播
|
18
zcjfesky 2022 年 11 月 14 日 via Android
晨星数据库账号一个一年收费 15 万左右
你自己玩没事,拿出来传播,做大了之后对方一告一个准 |
19
baleeny 2022 年 11 月 14 日
还发出来问。。。是怕别人找不到你吗
|
20
bt7vip 2022 年 11 月 14 日 via Android
自己爬没风险,自己爬自己用没风险,自己爬自己几个朋友分析没风险,自己爬上传 gayhub 你是怕别人找不到你
|
21
westoy 2022 年 11 月 14 日
这不叫怕, 这叫骑脸输出.......
|
22
penzi 2022 年 11 月 14 日 via Android 中国程序员的法律意识我感觉无限趋近于 0
|
23
HugoChao 2022 年 11 月 14 日 刑不可知 威不可测
|
24
exiahan 2022 年 11 月 14 日 via Android |
25
Ga2en 2022 年 11 月 14 日
先自己问着,然后顺便放出来让别人用。
啧啧 |
26
yopv2 2022 年 11 月 14 日
但凡是爬虫 没授权给你 就看他啥时候逮你了,什么挂不挂的 对方随时可以给你整出来
|
28
darkengine 2022 年 11 月 14 日
你是怕别人不知道么。。。还放个仓库
|
29
ragnaroks 2022 年 11 月 14 日
在国内除了搜索引擎,爬虫没有合法的,自己闷声大发财吧。
|
30
NoDocCat 2022 年 11 月 14 日
刑事你, 与你何干?
|
31
SleepyRaven 2022 年 11 月 14 日
猜测是因为 issue 里那个老外想和你合作,所以楼主才来这里问一下有没有风险吗
|
32
fournoas 2022 年 11 月 14 日
口袋罪,想治你就治你
|
33
6ufq0VLZn0DDkL80 2022 年 11 月 14 日 看似是提问,其实是来打广告的
|
35
msg7086 2022 年 11 月 14 日 只要不公开,不让人知道,就没什么大问题。
如果公开,那就不能让人知道是你干的。 比如说账号不能和你的个人信息关联起来,不要发帖宣传,等等。 |
36
aoling 2022 年 11 月 14 日
@luxuemin2108 你发地址出来是出于炫耀推广的,不是真正的提出问题
|
37
gesse 2022 年 11 月 14 日
放 https://sr.ht/ 上
|
38
jinzhongyuan 2022 年 11 月 14 日
你这问题不小啊
|
40
fank99 2022 年 11 月 14 日
别碰个人的任何信息,例如:身份找、手机号、姓名、住址,在这个基础上,控制访问频率,风险会大大减少
|
41
lisxour 2022 年 11 月 14 日
1. 只采集本就公开的数据
2. 没违反网站反爬虫采集规则、Robots 协议、转载声明、数据使用说明等 3. 不涉及个人信息倒卖 那么基本就没啥问题 |
42
MMMMMMMMMMMMMMMM 2022 年 11 月 14 日
挂代理爬,他没证据的
|
43
x86 2022 年 11 月 14 日
我拷,刑呀
|
44
ScoutWang 2022 年 11 月 14 日
面向监狱编程
|
46
byte404 2022 年 11 月 14 日 via Android
爬虫自己藏着用就行了,还放出来嘚瑟,我身边好几个被搞,你传 github 他们报警也能找到你
|
47
stroh 2022 年 11 月 14 日
我前前前同事就是这么进去的,关了半年,出来,找工作没人要,自己开饭馆了
|
48
xingHI 2022 年 11 月 14 日 判断爬虫行为是否违法。从法律专业角度来看,首先要看爬取行为本身是否合法,然后是对于数据的使用是否合法。
OP 爬取晨星国内基金的数据,从技术方法来看采用模拟登陆然后获取数据的方式,并未去破坏晨星国内基金的平台正常使用,可以看作是用户正常登陆后,记录所看到的内容,并非采用入侵等方式,所以爬取行为合法。然后再来看对于数据的使用,从目前来看 OP 将其公布在 Github 上,并演示了简单的分析;对于公布数据这个行为,晨星国内基金的数据也是通过合法爬虫的方式来获取,其属于不完全独创性的数据库(法律上暂未明确),但楼主的简单分析显然是合理使用行为,不构成侵权,但将数据公布在 Github 上具有一定法律风险。 来自计算机+法律双专业学生的建议:只公开技术方法,不公开数据本身。 |
49
lijiangang886 2022 年 11 月 14 日
说的这么详细,你到底是来咨询爬虫法律风险的还是来推销你的项目的?
|
50
Weixiao0725 2022 年 11 月 14 日
看这 fork 数量比 star 还要多。。
|
51
RuralHunter 2022 年 11 月 14 日
爬取公开的数据根本没问题,不要听楼上那些神神经经瞎扯的。
|
52
stonesirsir 2022 年 11 月 14 日
这个吧,据说爬国外没事,国内的的话就。。。
|
53
luojiyin87 2022 年 11 月 14 日
未经授权,都是违法。
|
54
Aloento 2022 年 11 月 14 日
这种事情还是建议你人在国外再干
|
55
llldean 2022 年 11 月 15 日
看来企查查和天眼查还是牛逼阿
|
57
likang8210 2022 年 11 月 15 日
sqlalchemy.exc.ProgrammingError: (pymysql.err.ProgrammingError) (1146, "Table 'fund_work.fund_morning_manager_assoc' doesn't exist") 运行 11 的时候,少了表
|
59
Joeith 2022 年 11 月 15 日
先 folk 为敬
|
60
cheng6563 2022 年 11 月 15 日
你看这个口袋又大又宽
|
63
ccjy778899 2022 年 11 月 15 日 via iPhone 国内你讲法律?严格立法,普遍违法。选择执法。问题是,他们会不会拿你执法,如果要对你执法,你肯定违法,怎么弄都违法
|
64
yangchao4228 2022 年 11 月 15 日
@Joeith 先 start 为敬[狗头]
|
67
nuk 2022 年 11 月 16 日
没人告就没人管,不管违法不违法,前提是要匿名,没有你的信息怎么告?
|
68
xingHI 2022 年 11 月 16 日
@2bNot2b 快毕业了,我的邮箱: [email protected]
|