如何从一个网页上面提取几个关键词来概括网页内容呢?我想分析一些网页,并找出相关的网页匹配到一起。
网页内容繁多,我想到一个简单的办法是只看 document.title 里的文字,网页的主题多数时候就在 title 里面了。
如果要分析整个网页的内容就复杂多了,有没有相关的资料可以推荐我看看呢?
另外匹配的时候单纯看相同的关键词好像也不够准确,如果一个网页里面讲的是台球,另一个网页里面讲的都是桌球,应该也要匹配到一起,因为是一个东西。
网页内容繁多,我想到一个简单的办法是只看 document.title 里的文字,网页的主题多数时候就在 title 里面了。
如果要分析整个网页的内容就复杂多了,有没有相关的资料可以推荐我看看呢?
另外匹配的时候单纯看相同的关键词好像也不够准确,如果一个网页里面讲的是台球,另一个网页里面讲的都是桌球,应该也要匹配到一起,因为是一个东西。