文章如下所示 我想提取文章中的代理机构,中标机构 ,项目名称等信息 有没有好用的分析方法或者好用的库
‘’‘ 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目成交公告 一、采购人:蓬莱市教育和体育局 地址:蓬莱市海市路 177 号(蓬莱市教育和体育局) 联系方式:0535-5647984(蓬莱市教育和体育局) 采购代理机构:山东金诺建设项目管理有限公司烟台分公司 地址:山东省烟台市莱山县(区)迎春大街 177 号润华大厦 1 号楼 1703a 联系方式:0535-6905395 二、采购项目名称:山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 采购项目编号(采购计划编号):SDGP370684202002000108 三、公告发布日期:2020 年 7 月 21 日四、成交日期:2020 年 7 月 27 日五、采购方式:竞争性谈判六、成交情况: 标包 货物服务名称 供应商名称 地址 成交结果 A 山东省烟台市蓬莱市蓬莱市教育和体育局电器设备采购项目 山东新华书店集团有限公司 山东省济南市市中区英雄山路 189 号 15.28 万元 七、采购小组成员名单:标包 A:谭莉、刘青志、景仕壮八、公告期限:2020 年 7 月 29 日 至 2020 年 7 月 29 日九、采购项目联系方式: 联系人:张婷婷 联系方式:0535-6905395 十一、未中标(成交)供应商的未中标(成交)原因:1 、蓬莱渤海电子科技有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 2 、蓬莱市远望电脑网络工程有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 3 、烟台雅瑞商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 4 、烟台钟金商贸有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) 5 、龙口军浩办公设备有限公司:评审得分较低(其他情形本项目采用最低评标价法,报价高导致未中标) ’‘’
1
TimePPT 2020-07-28 11:20:37 +08:00
格式规整用正则,不规整得上 NLP
这个叫做非结构化文档数据的结构化抽取 |
2
Mutoo 2020-07-28 11:23:33 +08:00
OpenAI 最近新出的 GPT-3 可以完成这种自然语言信息提取,非常牛逼。不过不知道啥时候支持中文。
|
4
luolitao 2020-07-28 16:38:30 +08:00
原始网页上有分段信息,再加点关键字搜索基本上就可以匹配了,关键字和正则可以满足 99%左右的需求。
|