V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
mingde816
V2EX  ›  程序员

求助帖 如何收集 B 站所有用户 UID

  •  
  •   mingde816 · 2025 年 5 月 19 日 · 6454 次点击
    这是一个创建于 250 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,想收集 B 站所有用户的 UID ,但是 B 站现在用户 UID 位数已经达到了 16 位,简单的遍历似乎已经无法完成这个任务。 目前的进展: 测试了一个 16 位 UID 的上下账户,发现是连续的,疑似 B 站的散列是制造了一些固定的前缀,再以此分配 UID ,可以按一定间隔尝试寻找锚定点,进行查找。 下面这篇专栏也有一样的发现。 https://www.bilibili.com/opus/833100467182501892

    第 1 条附言  ·  2025 年 5 月 20 日

    看了一个测量B站Lv6用户占比的视频,我觉得不太科学,故想收集全部UID。

    看了几个讨论暴力请求的,基本是没有可能,因为猪也是这么想的。

    47 条回复    2025-05-21 11:16:36 +08:00
    moefishtang
        1
    moefishtang  
       2025 年 5 月 19 日
    https://space.bilibili.com/{uid}
    bilibili 个人主页后面跟随的就是用户 id ,从 uid=1 开始,不停++,尝试访问对应的个人主页
    能访问成功就记录用户 Username 和对应的 uid ,不能则标记为空 uid ?
    感觉这个方法有点笨,而且会不会被 bilibili 风控?
    NaVient
        2
    NaVient  
       2025 年 5 月 19 日
    当然是看 b 站的泄露代码看看 uid 的生成规则啦(不是
    至少对 21 年以前的用户是有效的
    mingde816
        3
    mingde816  
    OP
       2025 年 5 月 19 日
    @moefishtang 16 位 UID 你拿什么遍历,而且高并发直接风控,一秒 10 个用户都做不到(实测)
    Belmode
        4
    Belmode  
       2025 年 5 月 19 日
    提供个思路,感觉技术可行:做个 B 站 XX 插件、脚本,让别人去下载,收集使用插件、脚本的人的 uid ,并且同时收集他们的关注列表。


    我告诉你,最好不要干这种事,这是非法的!收集用户信息这种行为比爬页面还危险的多,非常可拷,起步就是 6 个月,罪名是:非法侵入计算机信息系统罪。你没有那些巨头流氓有证,能“合法”搜刮用户信息,你小公司、个人敢干就等着吧。(身边亲眼所见被抓的)
    jaTomn
        5
    jaTomn  
       2025 年 5 月 19 日   ❤️ 5
    提供一个思路,找几个粉丝最多的 up 主,dfs 粉丝树
    mingde816
        6
    mingde816  
    OP
       2025 年 5 月 19 日
    @jaTomn 可查看的粉丝数量有限,不多于 200 个
    jaTomn
        7
    jaTomn  
       2025 年 5 月 20 日
    @mingde816 #6 看来 b 友早有防备
    loser123
        8
    loser123  
       2025 年 5 月 20 日
    @moefishtang 按理来说没拿到鉴权的 token 是无法获得对应用户信息的, 除非没做水平鉴权
    mingde816
        9
    mingde816  
    OP
       2025 年 5 月 20 日
    @loser123 这个玩意貌似吃 IP ,我第一遍每秒稳定 40 个请求,总共是 10200 条请求,请求到第 4800 个开始风控,我做了并发和速率限制,然后后面全部失效。我第二遍尝试总共成功了一次,第三遍成功了 900 次。然后现在稳定风控。()
    defaw
        10
    defaw  
       2025 年 5 月 20 日
    除了扫没有办法,有一个取巧的办法是买别人在 b 站加强风控之前爬好的数据。
    Doiiars
        11
    Doiiars  
       2025 年 5 月 20 日
    搜索引擎抓过的东西可以用搜索引擎加速的。
    bojue
        12
    bojue  
       2025 年 5 月 20 日
    @Belmode 爬虫招聘页面也是吗?最近也在纠结,低频爬了大厂的招聘信息(跑起来每天 10s/1 条的样式),还没处理聚合
    guo4224
        13
    guo4224  
       2025 年 5 月 20 日 via iPhone   ❤️ 13
    滚,别爬劳资的资料
    Belmode
        14
    Belmode  
       2025 年 5 月 20 日
    @bojue #12 有些人明明肉身在境内,又没有大厂那种合法强盗的“证”,又偏要犟,等到刀斧加身,才知道后悔。
    lucasdev
        15
    lucasdev  
       2025 年 5 月 20 日
    @mingde816 #3 这就是最简单直接的思路,应对风控需要准备号池和 ip 池,都可以买。
    Belmode
        16
    Belmode  
       2025 年 5 月 20 日
    @bojue #12 我只能这么说,你自己玩没事,但是万一你被对方发现了或者你爬的数据暴露出去,又实锤从你这拿的,那你就完了。
    bojue
        17
    bojue  
       2025 年 5 月 20 日
    @Belmode #16 感谢
    RlyehHime
        18
    RlyehHime  
       2025 年 5 月 20 日 via iPhone
    好奇要这个干吗的
    h1298841903
        19
    h1298841903  
       2025 年 5 月 20 日
    @mingde816 #6 200 个也不少了吧,这样递归查询,同时查询粉丝和关注,在通过搜索关键字,通过视频查询 UP 主,感觉几轮下来,就收集的差不多了,剩下的估计就是僵尸号了。 可以通过抽样的方式,看自己搜集的比例。
    duanxianze
        20
    duanxianze  
       2025 年 5 月 20 日
    行走在违法犯罪的边缘
    Shatyuka
        21
    Shatyuka  
       2025 年 5 月 20 日
    刑啊
    teble
        22
    teble  
       2025 年 5 月 20 日
    可刑可拷
    evan1
        23
    evan1  
    PRO
       2025 年 5 月 20 日
    试试去爬 google 。google 搜一下 site:bilibili.com {uuid},有结果就有对应的用户,没结果就没用户。
    Wxh16144
        24
    Wxh16144  
       2025 年 5 月 20 日   ❤️ 1
    入职 B 站,打入内部。之前不还爆出来员工擅自修改特定用户 web 端直接重定向到某个网页么。那就说明内部很草台
    evan1
        25
    evan1  
    PRO
       2025 年 5 月 20 日
    @evan1 #23 我真是个天才!
    evan1
        26
    evan1  
    PRO
       2025 年 5 月 20 日
    @evan1 #23 但是看了下 google 的 robots.txt ,不让随便爬 search 。
    x86
        27
    x86  
       2025 年 5 月 20 日
    带预算自然有人给你做
    lisxour
        28
    lisxour  
       2025 年 5 月 20 日
    这种东西还要问吗,不靠自己用号码池抓,你要不打电话给 b 站运维,让他把数据库导出打包发给你?
    Laobai
        29
    Laobai  
       2025 年 5 月 20 日
    太刑了
    binge921
        30
    binge921  
       2025 年 5 月 20 日
    太刑了
    JoeDH
        31
    JoeDH  
       2025 年 5 月 20 日
    收集的理由?
    sir283
        32
    sir283  
       2025 年 5 月 20 日 via Android
    用 selenium 调用浏览器访问?
    FlashEcho
        33
    FlashEcho  
       2025 年 5 月 20 日
    @Belmode #4 B 站有好几个大规模搜集用户信息的爬虫站(虽然因为反爬收集地不全),比如:
    laplace.live
    aicu.cc

    我感觉如果没有商业冲突,至少 B 站是懒得管的,他们内控都一团糟,普通开发都能去生产数据库查用户隐私开盒用户,外部的网站就更懒得管了
    abc1310054026
        34
    abc1310054026  
       2025 年 5 月 20 日
    这可能是个 XY Problem ,你想收集 UID 用来干什么?
    C02TobNClov1Dz56
        35
    C02TobNClov1Dz56  
       2025 年 5 月 20 日   ❤️ 1
    你可以试试到 b 站入职, 当现场运维人员, 然后到备份库里面导一份全量的 uid)
    la2la
        36
    la2la  
       2025 年 5 月 20 日
    V 站联系 B 站数仓人员,每天用 excel 给你拷出来一点
    stone9527
        37
    stone9527  
       2025 年 5 月 20 日
    @JoeDH 这种事儿怎么能说出来啊
    suyuyu
        38
    suyuyu  
       2025 年 5 月 20 日
    看了一下我的是 8 位
    edward1987
        39
    edward1987  
       2025 年 5 月 20 日
    B 站主页啥的有风控,但是活动页不一定有风控 可以找几个活动看下请求
    franswish
        40
    franswish  
       2025 年 5 月 20 日
    没玩过爬虫技术,以下是我的一些突发想法和问题:
    有没有懂法的人介绍下,爬虫行为是否触犯法律和爬取速率、数据量有关系吗?
    除了本贴提到的爬 b 站用户 UID (商业网站),以前还看到过想自动化爬取公开招标公告的(政府、机构、国企网站),前者只有在比较快的速率和相对大的数据量下才会有实际使用价值,而后者说只是想用脚本替掉自己每天手动刷新(也就是说只需要每天若干次爬取即可),两者都算非法入侵计算机信息系统吗?
    反过来说,如果我发动很多人集中访问某个地址,行为中不包含任何自动化手段,是否不管我发动多少人,都不算非法入侵计算机信息系统?
    duanxianze
        41
    duanxianze  
       2025 年 5 月 20 日
    @franswish 最后一个,并不是,即使手段合法,实际造成了损失,一样可以判非法入侵计算机信息系统
    1018ji
        42
    1018ji  
       2025 年 5 月 20 日
    遍历出来在 b 站发视频卖,起不美哉
    shadowyue
        43
    shadowyue  
       2025 年 5 月 20 日
    你不用想做全量测试,做随机抽查,做概率测试,样本量多一点,结果就已经八九不离十了
    shadowyue
        44
    shadowyue  
       2025 年 5 月 20 日
    油管上应该也有类似的内容,是分析油管有多少个视频的,你去搜搜
    MrKeanu
        45
    MrKeanu  
       2025 年 5 月 20 日
    你们的想法怎么这么有趣,我怎么想不到去爬 16 位的全量 uid 这种骚操作
    Inception7
        46
    Inception7  
       2025 年 5 月 21 日
    @evan1 只搜的到知名 up 主 自搜查不到
    duzhuo
        47
    duzhuo  
       2025 年 5 月 21 日
    @Inception7 昨天试了 duckduckgo 是可以的,site:space.bilibili.com
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2621 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:35 · PVG 19:35 · LAX 03:35 · JFK 06:35
    ♥ Do have faith in what you're doing.