
热榜站加上了全网突发热点功能。
逻辑上主要是通过历史很多亿条实时数据,通过文本指纹去判断热点相似性,然后以他在某个时间段内出现在不同的平台数为依据去划分是否属于突发热点。
朋友们可以帮忙看一看。
热榜站: https://tgmeng.com
1 wennuan 2 天前 |
2 andykuen959595 2 天前 感觉网页有点卡顿 |
3 cryptovae 2 天前 AI 实时简报能不能搞个点击开启,再点击关闭,不然还得下拉找到关闭按钮(第一次我没发现在下面,小屏幕) |
4 yu65112233ga1ac 2 天前 为啥叫糖果梦,感觉和功能不太相关。 |
5 freefreesea OP @cryptovae 简报的话,点击旁边的非简报区域就关闭了 |
6 regent 2 天前 排版还可以再改进些,信源的名字都变成竖向排版了,例如: ZA KE R |
7 freefreesea OP @yu65112233ga1ac 是有点不太相关哈,哈哈哈。不过是因为,个人觉得现在很多技术领域的东西对普通人很不友好,所以能通过自己去做一点对普通大众的日常生活有落地用处的东西,是长久以来的夙愿。甜甜的,美美的,科技不该冰冷 |
8 chunhai 2 天前 感觉移动端的适配有点问题啊,能不能优化一下。 |
9 sunnysab 2 天前 一直有个想法:能不能用 AI 总结新闻并整理出一个事件发展的时间线?像知乎上某个实时问题那样。但我不知道怎么做,可能需要聚类?我做了一套金十的实时新闻,目前只做了获取,觉得理清不同的线才算完美。 op 的网站很棒,但真正用时,信息源太多了一些?(当然不是坏事 hhh ) |
10 freefreesea OP @sunnysab 其实有个困难点。 就是文本指纹聚类,也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的,当然这样存在误判的可能性。最好的方案是交给 ai 去判断,但是数据源太多了,我每天会产生 1500 万+条热点数据,假设每个标题十个字符(极其保守),那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量,那如果是一个月,就是 50 亿个字符了,实际几百上千亿字符。 问题就在这,一是大部分 ai 支持不了这么大的吞吐,而是就算支持,这个费用也是普通人远远无法承担的,再就是处理返回的时间会非常非常久。这是最大的问题,通俗点就是如何找相同热点。 |
11 freefreesea OP @sunnysab 你数据量不大的情况下,比如一天就几万条数据,喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了,只要你的数据里包含时间这个属性,他基本就理的明明白白的。 |
12 topang 2 天前 好家伙,收藏了! excel 那边的突发好像不行? |
13 freefreesea OP @topang 只要主站没问题,excel 应该就没问题,因为是同一套数据。 我刚看了一下,进去 excel 的时候,里面默认展示的分类是你在网站主页的分类。 如果主页你是在 [突发热点] / [收藏] 这两个页面的话,进去 excel 里面就会显示没数据,因为这两个数据是独立的,并且突发热点的数据形式在 excel 里面是没法展示的。 如果你是从非上面两个页面进去 excel ,那数据应该是都是展示正常的。 |
14 yaoppp 2 天前 倒计时不用显示多少多少秒吧,改成分钟就够准确了 |
15 yaoppp 2 天前 ui 有点儿乱,每个新闻标题前面都有个趋势线的 icon ,后面都有个着火的 icon ,这就没意义了。另外,留言区没有完全适配 light theme |
16 freefreesea OP @yaoppp 热点基本是每分钟刷新一次,所以时间显示需要精确到秒级 |
17 freefreesea OP @yaoppp 新闻标题前面的趋势线 icon 是可以点击的,功能是历史热点追踪,后面带火的,是对应平台自己的热度值。所以还是不太一样的应该 |
18 metalvest 2 天前 via Android 不大对劲,突发里面有一条是北京大模型第一股,点开只有一条是这个标题,其他的是北京震感之类的 |
19 mertas 1 天前 谢谢,后续能否把同一条行为,聚合整理一下 |
20 freefreesea OP @metalvest 是,目前没有用大模型,单纯用的文本指纹判断的,准确度还是有比较大的问题 |
21 freefreesea OP @mertas 热的历史追踪吗 |
22 72 1 天前 向量搜索+DBSCAN 聚类 会不会让突发热点的相关性强一点 |
23 saviorjiang 1 天前 卧槽,哥们,f12 ->网络 -> xhr , 为啥一堆玩偶 jj 图片? |
24 snow0 1 天前 热点竟然没看到快播事件 |
25 freefreesea OP @72 慢慢优化吧 |
26 freefreesea OP @saviorjiang 哈哈,excel 里是有彩蛋的 |
27 freefreesea OP @snow0 算法有待优化 |
28 livib 1 天前 能不能直接在站点阅读正文(或者 AI 总结)? |
29 freefreesea OP @livib 当然兄弟能够提供 ai 额度的话,很好实现了。每分钟 20 万个字符左右,一天大概 2.88 亿字符。坐等好兄弟提供 token 了 |
30 aero99 1 天前 有没有自定义分类啊,比如我想设置首页为我挑选的卡片展示墙 |
31 freefreesea OP @aero99 默认展示收藏分类不就好了 |
32 MindMindMax 1 天前 用起来了 |
33 morphyhu 1 天前 又多了一个垃圾网站. |
34 ParfoisMeng 1 天前 书签+1 ,希望持续更新 |
35 oppressed6370 1 天前 用起来了,但是移动端显示不太好啊 |
36 freefreesea OP @oppressed6370 现在移动端应该舒服很多了吧,不舒服的话,具体是指哪部分或者哪种交互 |
37 oppressed6370 1 天前 @freefreesea 现在好了,要手动修改边距缩进,我设置 95 就好了 |
38 freefreesea OP @oppressed6370 嗯,因为有的人嫌下滑的时候,容易一直触发卡片内部滚动。所以就做了边距调整和卡片内热点个数设置。 |
39 bennyfu 1 天前 via iPhone Word2vec 啊 |