V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
freefreesea
V2EX  ›  分享创造

刚做了个全网突发热点功能

  •  
  •   freefreesea · 17 小时 45 分钟前 · 1085 次点击

    热榜站加上了全网突发热点功能。

    逻辑上主要是通过历史很多亿条实时数据,通过文本指纹去判断热点相似性,然后以他在某个时间段内出现在不同的平台数为依据去划分是否属于突发热点。

    朋友们可以帮忙看一看。

    热榜站: https://tgmeng.com

    22 条回复    2025-12-23 09:45:50 +08:00
    wennuan
        1
    wennuan  
       17 小时 37 分钟前
    非常好用
    andykuen959595
        2
    andykuen959595  
       17 小时 28 分钟前
    感觉网页有点卡顿
    cryptovae
        3
    cryptovae  
       17 小时 22 分钟前
    AI 实时简报能不能搞个点击开启,再点击关闭,不然还得下拉找到关闭按钮(第一次我没发现在下面,小屏幕)
    yu65112233ga1ac
        4
    yu65112233ga1ac  
       17 小时 19 分钟前
    为啥叫糖果梦,感觉和功能不太相关。
    freefreesea
        5
    freefreesea  
    OP
       17 小时 15 分钟前   ❤️ 1
    @cryptovae 简报的话,点击旁边的非简报区域就关闭了
    regent
        6
    regent  
       17 小时 14 分钟前
    排版还可以再改进些,信源的名字都变成竖向排版了,例如:
    ZA
    KE
    R
    freefreesea
        7
    freefreesea  
    OP
       17 小时 13 分钟前
    @yu65112233ga1ac 是有点不太相关哈,哈哈哈。不过是因为,个人觉得现在很多技术领域的东西对普通人很不友好,所以能通过自己去做一点对普通大众的日常生活有落地用处的东西,是长久以来的夙愿。甜甜的,美美的,科技不该冰冷
    chunhai
        8
    chunhai  
       16 小时 55 分钟前
    感觉移动端的适配有点问题啊,能不能优化一下。
    sunnysab
        9
    sunnysab  
       16 小时 35 分钟前
    一直有个想法:能不能用 AI 总结新闻并整理出一个事件发展的时间线?像知乎上某个实时问题那样。但我不知道怎么做,可能需要聚类?我做了一套金十的实时新闻,目前只做了获取,觉得理清不同的线才算完美。

    op 的网站很棒,但真正用时,信息源太多了一些?(当然不是坏事 hhh )
    freefreesea
        10
    freefreesea  
    OP
       16 小时 21 分钟前
    @sunnysab 其实有个困难点。
    就是文本指纹聚类,也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的,当然这样存在误判的可能性。最好的方案是交给 ai 去判断,但是数据源太多了,我每天会产生 1500 万+条热点数据,假设每个标题十个字符(极其保守),那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量,那如果是一个月,就是 50 亿个字符了,实际几百上千亿字符。

    问题就在这,一是大部分 ai 支持不了这么大的吞吐,而是就算支持,这个费用也是普通人远远无法承担的,再就是处理返回的时间会非常非常久。这是最大的问题,通俗点就是如何找相同热点。
    freefreesea
        11
    freefreesea  
    OP
       16 小时 8 分钟前
    @sunnysab 你数据量不大的情况下,比如一天就几万条数据,喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了,只要你的数据里包含时间这个属性,他基本就理的明明白白的。
    topang
        12
    topang  
       16 小时 2 分钟前
    好家伙,收藏了! excel 那边的突发好像不行?
    freefreesea
        13
    freefreesea  
    OP
       15 小时 52 分钟前
    @topang 只要主站没问题,excel 应该就没问题,因为是同一套数据。
    我刚看了一下,进去 excel 的时候,里面默认展示的分类是你在网站主页的分类。

    如果主页你是在 [突发热点] / [收藏] 这两个页面的话,进去 excel 里面就会显示没数据,因为这两个数据是独立的,并且突发热点的数据形式在 excel 里面是没法展示的。

    如果你是从非上面两个页面进去 excel ,那数据应该是都是展示正常的。
    yaoppp
        14
    yaoppp  
       14 小时 23 分钟前
    倒计时不用显示多少多少秒吧,改成分钟就够准确了
    yaoppp
        15
    yaoppp  
       14 小时 20 分钟前
    ui 有点儿乱,每个新闻标题前面都有个趋势线的 icon ,后面都有个着火的 icon ,这就没意义了。另外,留言区没有完全适配 light theme
    freefreesea
        16
    freefreesea  
    OP
       13 小时 17 分钟前
    @yaoppp 热点基本是每分钟刷新一次,所以时间显示需要精确到秒级
    freefreesea
        17
    freefreesea  
    OP
       13 小时 17 分钟前
    @yaoppp 新闻标题前面的趋势线 icon 是可以点击的,功能是历史热点追踪,后面带火的,是对应平台自己的热度值。所以还是不太一样的应该
    metalvest
        18
    metalvest  
       8 小时 46 分钟前 via Android
    不大对劲,突发里面有一条是北京大模型第一股,点开只有一条是这个标题,其他的是北京震感之类的
    mertas
        19
    mertas  
       5 小时 5 分钟前
    谢谢,后续能否把同一条行为,聚合整理一下
    freefreesea
        20
    freefreesea  
    OP
       2 小时 0 分钟前 via Android
    @metalvest 是,目前没有用大模型,单纯用的文本指纹判断的,准确度还是有比较大的问题
    freefreesea
        21
    freefreesea  
    OP
       1 小时 59 分钟前 via Android
    @mertas 热的历史追踪吗
    72
        22
    72  
       39 分钟前
    向量搜索+DBSCAN 聚类 会不会让突发热点的相关性强一点
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5941 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 02:25 · PVG 10:25 · LAX 18:25 · JFK 21:25
    ♥ Do have faith in what you're doing.