爱意满满的作品展示区。
hanzewei

法律文档 AI 处理: deepdoctection 开源项目的技术架构分析

  •  
  •   hanzewei · 2 days ago · 814 views

    最近在研究法律文档的 AI 处理方案,发现了一个值得关注的开源项目 deepdoctection ( GitHub 3173+ stars ),基于深度学习的文档分析 Pipeline 。

    核心能力:

    • Layout Analysis:基于 DocTr 模型检测文档区域(标题、段落、表格、图片)
    • OCR 集成:支持 Tesseract 、PaddleOCR 等多种引擎
    • 表格识别:TableTransformer 模型处理表格结构
    • Pipeline 编排:灵活组合不同模型

    但在法律文档场景中发现几个痛点:

    1. 条款编号体系(如 3.2.1 条)在 OCR 后层级关系丢失
    2. 交叉引用(详见第 5.3 条)断裂
    3. 定义术语的关联关系无法自动提取
    4. 合同 redline 版本的字符级变更追踪缺失

    我的思考是,Document AI 只是底层能力,法律场景需要一个平台化的工作台来串联 OCR 、大模型推理、合同审查等完整工作流。我们正在做的 aiworkdeck 就是这个方向——插件化的 AI 原生法律工作台。

    有人也在做类似的法律文档处理方案吗?想交流一下技术选型的经验。

    3 replies    2026-06-14 23:50:01 +08:00
    spediacn
        1
    spediacn  
       1 day ago via iPhone
    我刚做完一个管理办法的修订,委员会最终采纳了我的办法。

    1. 组阁。选四个大模型组四个团队,选一个简单模型组秘书处
    2. 定班子。每一个大模型团队都定一套团队班子,根据实际需求来定,我这次选的是公文专家、律法专家、网络专家、安全专家、政务专家、文献专家

    组阁有两种方式:一是团队能力均等,每一个团队都组同样的专家队伍;二是内阁成员分司履责,各自有各自的出发点,配置不同的专家队伍。我用的是

    流程:
    秘书处发起审议会议,内阁成员分别提交各自的修正案清单;然后秘书处整理清单,去除已经共识部分,列出分歧清单。将分歧清单按章节分包;

    秘书处发起修正案一读,四团队就修正案每一条分歧发起自己的提案,可以支持任何团队的提案(含自己、含其他),否定任何团队的提案(含自己)。秘书处整理共识和分歧内容,再次将分歧清单分包;

    秘书处发起修正案二读,这时四团队可以支持、否定、反驳其他团队和自己团队的内容,提交新的提案,秘书处整理共识和分歧内容,再次将分歧清单分包;

    秘书处发起修正案三读,过程和二读一样,直到再次分包。

    秘书处
    spediacn
        2
    spediacn  
       1 day ago via iPhone
    秘书处根据分歧内容量决定是否发起四读(实际这时一大部分分歧趋同,没有遇到)

    秘书处就剩下分歧项目进行投票,4:0 通过,3:1 通过修正项但做修正记录; 2:2 搁置; 1:3 和 0:4 均为否决(撤销修正项)

    最近会发现,产物相当完美,合理修正内容和不合理修正内容都有明确理由,否定项也很完美,把我担忧的都描述了。我们是逐项检查的,委员会有其他专家也用了 chatgpt 来通篇审核,但效果都不如这个好。我的四模型团队用了 chatgpt 、kimi 、mimo 、minimax ,用 deepseek-v4-flash 做秘书处。

    注意需控制独立会话,四模型团队间不可以共享会话、团队内专家必须独立会话,议题一旦提交就立刻清理会话,用新会话讨论新议题。提示词均由秘书处生成和提供。
    spediacn
        3
    spediacn  
       1 day ago via iPhone
    顺便实测:但模型跑一轮审核出结果 1-200 万令牌就够,但结果差强人意,再修来修去,最终耗费了到 2000 万令牌结局也不好。四模型跑完实际消耗就是 4000 万令牌,但结局很明确的满意。

    委员会逐项审核均通过,还有 2 项遗漏,原因是知识库没检索到内部资料和三定方案的引用依据,和这套方案关系不大。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5941 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 02:23 · PVG 10:23 · LAX 19:23 · JFK 22:23
    ♥ Do have faith in what you're doing.