123go
V2EX  ›  算法

超大运算量的实现方案

  •  
  •   123go · Feb 20, 2021 · 2309 views
    This topic created in 1915 days ago, the information mentioned may be changed or developed.

    公司在做一批数据处理。 大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比,得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试,每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话,处理完所有数据,大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。 请问类似这种场景,有什么最佳实现吗?

    4 replies    2021-02-20 17:25:41 +08:00
    faceair
        1
    faceair  
       Feb 20, 2021 via Android
    临时租六台云主机,拆分子任务
    jr55475f112iz2tu
        2
    jr55475f112iz2tu  
       Feb 20, 2021
    本质上就是要投入资源:
    1. 投入人力资源,优化算法,成本是优化算法需要的时间对应的人力成本,当然有可能最后也优化不出来想要的效果,受硬件约束
    2. 投入硬件资源,买服务器,成本是服务器使用费
    lekai63
        3
    lekai63  
       Feb 20, 2021
    既然是跑算法。 那看看各家云函数?好像 python 都是支持的。
    云函数易扩展,搞大并发咯
    linkedsh1005
        4
    linkedsh1005  
       Feb 20, 2021
    hadoop
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2997 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 73ms · UTC 12:46 · PVG 20:46 · LAX 05:46 · JFK 08:46
    ♥ Do have faith in what you're doing.