热榜站加上了全网突发热点功能。
逻辑上主要是通过历史很多亿条实时数据,通过文本指纹去判断热点相似性,然后以他在某个时间段内出现在不同的平台数为依据去划分是否属于突发热点。
朋友们可以帮忙看一看。
热榜站: https://tgmeng.com
1
wennuan 17 小时 37 分钟前
|
2
andykuen959595 17 小时 28 分钟前
感觉网页有点卡顿
|
3
cryptovae 17 小时 22 分钟前
AI 实时简报能不能搞个点击开启,再点击关闭,不然还得下拉找到关闭按钮(第一次我没发现在下面,小屏幕)
|
4
yu65112233ga1ac 17 小时 19 分钟前
为啥叫糖果梦,感觉和功能不太相关。
|
5
freefreesea OP @cryptovae 简报的话,点击旁边的非简报区域就关闭了
|
6
regent 17 小时 14 分钟前
排版还可以再改进些,信源的名字都变成竖向排版了,例如:
ZA KE R |
7
freefreesea OP @yu65112233ga1ac 是有点不太相关哈,哈哈哈。不过是因为,个人觉得现在很多技术领域的东西对普通人很不友好,所以能通过自己去做一点对普通大众的日常生活有落地用处的东西,是长久以来的夙愿。甜甜的,美美的,科技不该冰冷
|
8
chunhai 16 小时 55 分钟前
感觉移动端的适配有点问题啊,能不能优化一下。
|
9
sunnysab 16 小时 35 分钟前
一直有个想法:能不能用 AI 总结新闻并整理出一个事件发展的时间线?像知乎上某个实时问题那样。但我不知道怎么做,可能需要聚类?我做了一套金十的实时新闻,目前只做了获取,觉得理清不同的线才算完美。
op 的网站很棒,但真正用时,信息源太多了一些?(当然不是坏事 hhh ) |
10
freefreesea OP @sunnysab 其实有个困难点。
就是文本指纹聚类,也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的,当然这样存在误判的可能性。最好的方案是交给 ai 去判断,但是数据源太多了,我每天会产生 1500 万+条热点数据,假设每个标题十个字符(极其保守),那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量,那如果是一个月,就是 50 亿个字符了,实际几百上千亿字符。 问题就在这,一是大部分 ai 支持不了这么大的吞吐,而是就算支持,这个费用也是普通人远远无法承担的,再就是处理返回的时间会非常非常久。这是最大的问题,通俗点就是如何找相同热点。 |
11
freefreesea OP @sunnysab 你数据量不大的情况下,比如一天就几万条数据,喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了,只要你的数据里包含时间这个属性,他基本就理的明明白白的。
|
12
topang 16 小时 2 分钟前
好家伙,收藏了! excel 那边的突发好像不行?
|
13
freefreesea OP @topang 只要主站没问题,excel 应该就没问题,因为是同一套数据。
我刚看了一下,进去 excel 的时候,里面默认展示的分类是你在网站主页的分类。 如果主页你是在 [突发热点] / [收藏] 这两个页面的话,进去 excel 里面就会显示没数据,因为这两个数据是独立的,并且突发热点的数据形式在 excel 里面是没法展示的。 如果你是从非上面两个页面进去 excel ,那数据应该是都是展示正常的。 |
14
yaoppp 14 小时 23 分钟前
倒计时不用显示多少多少秒吧,改成分钟就够准确了
|
15
yaoppp 14 小时 20 分钟前
ui 有点儿乱,每个新闻标题前面都有个趋势线的 icon ,后面都有个着火的 icon ,这就没意义了。另外,留言区没有完全适配 light theme
|
16
freefreesea OP @yaoppp 热点基本是每分钟刷新一次,所以时间显示需要精确到秒级
|
17
freefreesea OP @yaoppp 新闻标题前面的趋势线 icon 是可以点击的,功能是历史热点追踪,后面带火的,是对应平台自己的热度值。所以还是不太一样的应该
|
18
metalvest 8 小时 46 分钟前 via Android
不大对劲,突发里面有一条是北京大模型第一股,点开只有一条是这个标题,其他的是北京震感之类的
|
19
mertas 5 小时 5 分钟前
谢谢,后续能否把同一条行为,聚合整理一下
|
20
freefreesea OP @metalvest 是,目前没有用大模型,单纯用的文本指纹判断的,准确度还是有比较大的问题
|
21
freefreesea OP @mertas 热的历史追踪吗
|
22
72 39 分钟前
向量搜索+DBSCAN 聚类 会不会让突发热点的相关性强一点
|