V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
ArchiTech

提取网页关键词的思路

  •  
  •   ArchiTech · Oct 24, 2019 · 4938 views
    This topic created in 2378 days ago, the information mentioned may be changed or developed.
    如何从一个网页上面提取几个关键词来概括网页内容呢?我想分析一些网页,并找出相关的网页匹配到一起。
    网页内容繁多,我想到一个简单的办法是只看 document.title 里的文字,网页的主题多数时候就在 title 里面了。

    如果要分析整个网页的内容就复杂多了,有没有相关的资料可以推荐我看看呢?

    另外匹配的时候单纯看相同的关键词好像也不够准确,如果一个网页里面讲的是台球,另一个网页里面讲的都是桌球,应该也要匹配到一起,因为是一个东西。
    7 replies    2019-10-26 04:06:33 +08:00
    zdnyp
        1
    zdnyp  
       Oct 24, 2019
    NPL、卷积神经网络
    chinauniverse
        2
    chinauniverse  
       Oct 24, 2019
    做一个贝叶斯模型,在线学习,越用越智能。预测个大概应该不成问题
    naomhan
        3
    naomhan  
       Oct 24, 2019
    大部分有 description
    abclearner
        4
    abclearner  
       Oct 24, 2019
    信息提取了解一下 如 if-idf
    zhaiblog
        5
    zhaiblog  
       Oct 26, 2019
    https://github.com/kingname/GeneralNewsExtractor
    这个项目以及项目中提及的论文《基于文本及符号密度的网页正文提取方法》应该能帮到你
    ArchiTech
        6
    ArchiTech  
    OP
       Oct 26, 2019
    @zhaiblog 这个是把网页的内容提取了出来,但是并没有分析内容,最终提取出核心的几个关键词吧?
    感谢回复!
    ArchiTech
        7
    ArchiTech  
    OP
       Oct 26, 2019
    也感谢楼上其他人的回复,神经网络的办法我看了下,train model 的部分感觉很大工程啊。。。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5879 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 63ms · UTC 02:48 · PVG 10:48 · LAX 19:48 · JFK 22:48
    ♥ Do have faith in what you're doing.