V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
etoahn
V2EX  ›  算法

有什么高效的算法对 url 中的路径参数做模式识别分类么

  •  
  •   etoahn · 2023-02-03 09:10:26 +08:00 · 1165 次点击
    这是一个创建于 646 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如我有以下 url(输入)

    https://www.showcase.com/user/home
    
    https://www.showcase.com/bill/BlKLSJDFLJERSDF
    https://www.showcase.com/bill/BSERlKLSSDFEJSDF
    https://www.showcase.com/bill/BSDREWRDF
    https://www.showcase.com/bill/BSERDWEDFEJSDF # 类似 url 可能有 100+个
    
    https://www.showcase.com/bill/BlKLSJDFLJERSDF/detail
    https://www.showcase.com/bill/BSERlKLSSDFEJSDF/detail
    https://www.showcase.com/bill/BSDREWRDF/detail
    https://www.showcase.com/bill/BSERDWEDFEJSDF/detail # 类似 url 可能有 100+个
    
    
    https://www.showcase.com/topic/234566833245234566
    https://www.showcase.com/topic/200000234523456683
    https://www.showcase.com/topic/2586683567243w56324 # 类似 url 可能有 100+个
    
    
    # 其它大量 url , 正则规则不固定,只能通过统计分析
    
    

    分类为(输出)

    https://www.showcase.com/user/home
    https://www.showcase.com/bill/{param} 
    https://www.showcase.com/bill/{param}/detail
    https://www.showcase.com/topic/{param}
    

    暂时只想到用模式识别, 不知大佬有无其它方法

    4 条回复    2023-02-03 13:43:41 +08:00
    Coderuancun
        1
    Coderuancun  
       2023-02-03 09:20:11 +08:00
    分词处理,有那种分词处理算法
    acmerliu
        2
    acmerliu  
       2023-02-03 09:21:29 +08:00
    隐马尔可夫
    Jooooooooo
        3
    Jooooooooo  
       2023-02-03 10:39:28 +08:00
    这不是正则吗
    34127chi
        4
    34127chi  
       2023-02-03 13:43:41 +08:00
    这不是正则吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2659 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:06 · PVG 12:06 · LAX 20:06 · JFK 23:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.