• 请不要在回答技术问题时复制粘贴 AI 生成的内容
taozhijiangscu
V2EX  ›  程序员

关于基于 CRF 的 NER(命名实体识别)

  •  
  •   taozhijiangscu · Feb 22, 2016 · 4666 views
    This topic created in 3738 days ago, the information mentioned may be changed or developed.
    这样的,观光了一下据说 CRF 是目前 NER 最好的识别标注算法。在下有几点不明,在此请教:
    ( 1 )按照[ZZ]( http://www.chokkan.org/software/crfsuite/tutorial.html#id488968), 作者的英文语料是用 word, pos 作为属性,最后用来预测 label 的。中文关于 NER 的语料,只找到人民日报 199801 的语料,这个语料是分词后,将 ns nr nz 等作为和 v n pp 等词性并列来处理的,就是词性已经是预测的目标而不是作为训练的参数了。
    ( 2 )然后我写了这个[例子]( https://github.com/taozhijiang/chinese_nlp/blob/master/crf_ner/ner.py),那么问题来了:我的测试句子分词结果必须同人民日报训练预料的分词结果一次才有用?(暂测是这样的)
    ( 3 )还有没有中文 NER 的语料啊?
    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4878 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 57ms · UTC 09:39 · PVG 17:39 · LAX 02:39 · JFK 05:39
    ♥ Do have faith in what you're doing.