其实主要是把一篇文章的关键词(所有出现次数大于等于1的英文单词,不考虑词组)全部提取出来然后按我自己的算法来建立索引就OK了,python直接写其实也挺方便,
不过还是想问问,有专门处理这类问题的库么?尤其是如果能直接从网页上抓取并过滤html就好了。因为实验要设计挺多不同领域的文档做统计,我就不想复制到txt了。。。。
嘿嘿,首次发主题,谢谢诸位.
不过还是想问问,有专门处理这类问题的库么?尤其是如果能直接从网页上抓取并过滤html就好了。因为实验要设计挺多不同领域的文档做统计,我就不想复制到txt了。。。。
嘿嘿,首次发主题,谢谢诸位.