V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
darren2900
V2EX  ›  程序员

大数据如何快速过滤????

  •  
  •   darren2900 · Jul 23, 2018 · 2841 views
    This topic created in 2842 days ago, the information mentioned may be changed or developed.

    mysql 里有 1000W 手机号,如何将提供的 100W 号码在 1000W 里出现过的快速过滤掉?

    3 replies    2018-07-24 19:55:54 +08:00
    gorilla
        1
    gorilla  
       Jul 23, 2018
    Pandas,或者 Spark
    两个数据集,求差集~
    linyinma
        2
    linyinma  
       Jul 23, 2018
    [这种问题最好还是和需求结合起来说明]
    如果单纯说算法这是很简单的将 1000W 条数据从 MySQL 导出创建 bitmap 索引,查询算法就是 O ( 1 ),这是最快的
    darren2900
        3
    darren2900  
    OP
       Jul 24, 2018
    需要实时,用户上传 100W 号码,就直接把 100W 中在 1000W 出现的过滤掉,1000W 记录当前是在 mysql
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2499 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 15:13 · PVG 23:13 · LAX 08:13 · JFK 11:13
    ♥ Do have faith in what you're doing.