• 请不要在回答技术问题时复制粘贴 AI 生成的内容
5shengxin
V2EX  ›  程序员

请问,随机一部中国现行法律或者地方法规,我要如何通过程序对其进行有效的拆分? 因为法律条文的格式有规范,尝试过正则表达式,但是确实还是会有错误的情况出现,并不是最好的方式。有没有更好的解决方案,请具体说一说

  •  
  •   5shengxin · Mar 26, 2021 · 3298 views
    This topic created in 1896 days ago, the information mentioned may be changed or developed.
    17 replies    2021-03-31 10:30:56 +08:00
    jr55475f112iz2tu
        1
    jr55475f112iz2tu  
       Mar 26, 2021
    这种应该要标注+ BERT 再搞搞吧?
    cherryas
        2
    cherryas  
       Mar 26, 2021
    原书扫描
    ch2
        3
    ch2  
       Mar 26, 2021
    正则表达式只是做词法分析用的,你的需求很显然是必须进行语法分析才能实现的,用 yacc 自己搞一套就是了
    只要格式是规范的,语法分析器就能把文本搞成结构化的数据,边界错误可以通过改文法产生式来兼容,很简单的
    favourstreet
        4
    favourstreet  
       Mar 26, 2021 via Android
    楼主您这一提地方法规,这难度就上来了
    TimePPT
        5
    TimePPT  
    PRO
       Mar 26, 2021 via Android
    有些电子书排版软件自带的章节切分很好用,最好是带自定义规则的。我就用这个干过切条目的事
    alexkkaa
        6
    alexkkaa  
       Mar 26, 2021 via Android
    拆分? 怎么拆分
    rekulas
        7
    rekulas  
       Mar 26, 2021
    参考国外成熟产品的方案,都是用语法分析或者 AI 学习,可能只有新手才会想到正则。。。
    Meltdown
        8
    Meltdown  
       Mar 27, 2021 via Android
    以前想着用自然语言处理来找法律漏洞
    hejw19970413
        9
    hejw19970413  
       Mar 27, 2021
    人工录入,在怎么好的词性分析也不可能读懂人立的规矩
    ljpCN
        10
    ljpCN  
       Mar 27, 2021 via iPhone
    es 建索引?
    siyemiaokube
        11
    siyemiaokube  
       Mar 27, 2021 via iPhone
    先说清楚你的拆分是怎么个拆分……
    alphatoad
        12
    alphatoad  
       Mar 28, 2021
    自然语言不能用 context-free grammar
    5shengxin
        13
    5shengxin  
    OP
       Mar 29, 2021
    @siyemiaokube @alexkkaa 就是根据这一部法律的条文的行文规范,比如你输入整部的刑法最终应该拆解出几编,几章,几节,并且这些条文间应该要有层级关系,但不仅限于这个规范,因为很多地方法规他是没有编章节条这些章节切分的,他可能是阿拉伯数字的编号,也可能是中文的数字编号,最好是好可以提炼出关键字,以用于做后续的关联!
    @ch2 因为只懂 python 和 java,并且都是小菜鸡,有这方面的成熟方案吗?
    @rekulas 成熟方案是哪些,可以具体说说嘛?
    @favourstreet 是啊,地方法规的规范确实不确定,但大体上还是有迹可循,一般都会标明 123,现在是只处理那些有编号的条文?
    @alphatoad 然后呢?
    @hejw19970413 就是想解决人工录入的问题,想要复制粘贴整个文档,然后拆成具有层级的条文
    @Meltdown 这个我也想过
    其实不仅仅是法律,只要是正式的文书基本上都有固定的格式
    ch2
        14
    ch2  
       Mar 29, 2021 via iPhone
    @5shengxin Python 的 yacc 很好用的,这玩意本来是做编程语言用的。用来分析带格式的文本就是杀鸡用牛刀根本不在话下,不需要写几条规则就能全部解析出来了
    rekulas
        15
    rekulas  
       Mar 29, 2021
    @5shengxin ROSS Intelligence 搜搜这个的资料了解下看,具体案例我不是行业人士也不是很清楚,只记得几年前就有国外团队涉足这个领域了而且拿到了不少投资
    5shengxin
        16
    5shengxin  
    OP
       Mar 29, 2021 via Android
    @rekulas ok 谢谢
    hejw19970413
        17
    hejw19970413  
       Mar 31, 2021
    立法其实就是让人不出边界,边界问题是有迹可循的,但是边界内的问题其实就是辩论会
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3425 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 11:08 · PVG 19:08 · LAX 04:08 · JFK 07:08
    ♥ Do have faith in what you're doing.