V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Hermitist
V2EX  ›  程序员

请教, 大数据行业兄弟们,类似这样的数据一般是如何收集来的

  •  
  •   Hermitist · 4 天前 · 2185 次点击

    只想知道如何最低成本合法的拿到类似的公开数据, 比如各国企业信息, 海关信息等.

    avocadata.com/

    第 1 条附言  ·  4 天前
    我其实是想问如何用比较低的成本拿到 raw 数据, 然后自己处理.
    9 条回复    2026-01-21 13:04:54 +08:00
    tiezlk443
        1
    tiezlk443  
       4 天前
    凉了
    rayyume
        2
    rayyume  
       4 天前
    wind bloomberg
    oness
        3
    oness  
       4 天前
    低成本是不可能的,早期网站没有风控时采集的。天眼查、企查查都是很早的时候( 2015 前)积累的数据。
    JoeJoeJoe
        4
    JoeJoeJoe  
    PRO
       4 天前
    慎重爬取 gov 数据
    tunggt
        5
    tunggt  
       4 天前
    在国内的话,机关单位和央国企的数据,别乱采集。

    即使是公开的,你采集了,随时可以抓你。
    rossroma
        6
    rossroma  
       4 天前
    这类企业一般都有国资背景,纯私企没后台是干不了的
    CaptainD
        7
    CaptainD  
       4 天前
    一般有何政府合作的机构售卖

    以专利数据为例,专利法规定专利数据必须公开,USPTO 、EPO 等主要国家地区的知产数据都有公开可下载的链接,中国知识产权局也会每周打包放在网站供下载,也有知识产权出版社售卖这些数据

    但是中国知识产权局网站很不稳定,无论爬虫还是下载都会经常失败,我怀疑他们是故意的,明面遵守专利法公开数据,私下找机构获利
    Hermitist
        8
    Hermitist  
    OP
       4 天前
    @JoeJoeJoe @tunggt 国内的狗都不碰, 也不值钱.

    @CaptainD 你的回复很珍贵, 我主要就是想拿到国外的数据,请问有更具体的路径吗? 方便加你联系方式请教吗?
    CaptainD
        9
    CaptainD  
       4 天前
    @Hermitist #8 我对专利数据研究比较多,其他我不了解,微信:enNieTE0MDAwNDY2OTk=
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2676 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 09:44 · PVG 17:44 · LAX 01:44 · JFK 04:44
    ♥ Do have faith in what you're doing.