3
DoraJDJ 2016-12-16 17:48:48 +08:00 via Android
直接用 GitHub 的 API 不行吗?
|
4
bazingaterry 2016-12-16 17:53:22 +08:00 via iPhone
自己爬自己,噢,无限递归 😯
|
5
upczww 2016-12-16 17:55:31 +08:00 via Android
有 api
|
8
lucifer4he 2016-12-16 18:50:01 +08:00
多注册几个账号。多用几个 token 问题解决 啊哈哈
总比爬起来解析数据好受点 |
9
gdsagdada 2016-12-16 19:06:50 +08:00
不道德, github 现在还在亏损,楼主给它省点带宽
|
10
Mdrights 2016-12-16 19:48:35 +08:00 via iPhone
已經有 Telegram 的 bot 了
|
11
nsa 2016-12-16 21:37:33 +08:00 via iPhone
可以先用 ghtorrent 的练
|
12
imcj OP @lucifer4he 从我个人的需求上的确是解决问题了。我觉得弄一个开放的 GITHUB 数据库这件事听起来不错。
@gdsagdada 爬取目标网站数据这件事情不算不道德,算的话,那 google 怎么说? Github 亏损这件事情,我觉得从另外一个角度上来看,这是他们赢取资本的策略。 @nsa 感谢推荐。 |
13
qdk0901 2016-12-19 08:56:22 +08:00 1
不好爬,我之前写过一个,挂 vps 上爬了一个月,用 tor 不停切换出口 ip 来绕过限制,只爬了 300 多万用户 /仓库的信息,也不是全部信息,只有一部分,比如只有用户 /仓库前几页的 following/followers/stars 等信息。
这东西还是放弃吧,最终也没什么卵用 |
14
qdk0901 2016-12-19 08:59:57 +08:00
|
15
holajamc 2016-12-19 09:20:48 +08:00 1
做过一个,嗯目前已经改成了毕设项目……
HolaJam/github_relationship |
17
holajamc 2016-12-20 16:33:45 +08:00
就是我也在做关羽 github 的一个程序
描述 github 用户之间的关系,用户和 repo 的关系 |
19
holajamc 2016-12-21 11:01:14 +08:00
@imcj github 可以看到项目地址……为了给 github 省带宽就没有写多线程~目前只是做了用户关系,做好了 Neo4j 版本和 MariaDB 版本, MongoDB 正在做,然后就是 repo 的接口也是写好了的包括自己的 repo , star 的 repo 和 fork 的 repo
|
25
Codewj 2016-12-22 14:50:41 +08:00 via iPhone
楼主的项目进行的怎么样了
|
29
gaocegege 2016-12-26 14:21:39 +08:00
https://github.com/gaocegege/scala-github-relationship
之前无聊的时候有做过类似的,一开始单机多线程类似事件驱动来爬的, API rate limit 很成问题,后来只能用单线程同步来做。 对于 limit 的问题,比较好的解决方案是用多几个帐号,用 token ,好像用的好的话 20 多个帐号就可以爬全站。 |