
1 yukiww233 2022-09-22 09:54:45 +08:00 微信 /qq 都会对上传的图片 /视频做 ocr 和物体识别, 大概是识别都做了,就废物利用吧 |
2 Morriaty 2022-09-22 10:26:21 +08:00 1. 微信的聊天搜索一定是客户端实现的,要是做成服务端,太湖之光超级计算机来都搞不定。 2. 具体实现的话,我曾经一直认为调服务端 ocr 接口,本地存文字结果是个比较合理的猜想。但随着微信 apk 越来越大,我现在很怀疑是 ocr 模型(甚至是更直接的 text2image 端到端模型)存在本地了。 |
3 learningman 2022-09-22 10:42:15 +08:00 via Android @Morriaty 服务端实现为啥不能,整个腾讯就只能有一台服务器吗,上集群啊 |
4 Exdui 2022-09-22 10:51:10 +08:00 @learningman 集群也要钱,OCR 成本太高了,比鉴黄 /政高 N 倍。 |
5 QUC062IzY3M1Y6dg 2022-09-22 10:52:46 +08:00 会不会是给微信客户端塞了一套机器学习 doge |
6 SenLief 2022-09-22 10:55:05 +08:00 via iPhone 我怀疑是本地做的,微信已经非常庞大了,所以极有可能是本地 ocr 的。 |
7 AS4694lAS4808 2022-09-22 11:08:47 +08:0 |
8 BMAO 2022-09-22 11:39:36 +08:00 via iPhone 现在几十 G 的聊天记录,之前没开这个功能,现在才开的话。他是现在检索并 OCR 一遍存下来?还是实时呢?实时的话就厉害了。 |
9 Morriaty 2022-09-22 12:01:21 +08:00 @learningman 就微信这体量的聊天记录,几万个集群都扛不住啊 |
10 saucerman8 2022-09-22 12:10:20 +08:00 1. 搜索速度如此快,很显然不是搜索的时候才去 ocr 识别,而是在上传图片时就进行了 ocr 。 2. 联网时才可以通过文字搜索图片,断网后搜索失效,证明文字或者标签信息保存在云端。 猜测:每次上传图片就进行了 ocr ,然后保存了 ocr 信息在云端。通过文字搜索的时候,云端返回图片标签信息,然后本地根据标签信息找到本地图片。 (如果配合抓包,应该就比较清晰了) |
11 JsonNode 2022-09-22 12:41:41 +08:00 |
12 SteveRogers 2022-09-22 12:55:00 +08:00 via iPhone @learningman 一定是本地实现的,服务器的海量投入、完全没必要、发动群众利用群众才是成本最低的 |
13 xz410236056 2022-09-22 13:54:40 +08:00 @Morriaty #2 客户端使用的机器学习模型是低精度的,也用不了多少 M 。几十 M 足够识别了 |
14 27149 2022-09-22 14:09:04 +08:00 本地 OCR 模型,识别了以后索引存在本地。识别的时机应该是本地队列,微信在前台的时候。好处是微信多数时候都在前台。队列应该有个顺序,比如单聊>群>静音群这样。 |
15 natforum 2022-09-22 14:48:48 +08:00 被扫描过只能说明你的所有个人隐私信息已经透明公开了 |
16 zhang77555 2022-09-22 16:07:11 +08:00 你上传的图片微信都是要检查敏感词的, 识别的数据顺便存一下也不麻烦 |
17 cjpjxjx 2022-09-22 16:25:16 +08:00 钉钉也可以了 |
18 Seanfuck 2022-09-22 16:31:24 +08:00 识别肯定是服务器做,有些特殊图片,时间不同,发送的结果也不同的(刚开始能发出去,过一阵子私发也发不出去)。小程序上传图片 /文字到自己服务器也是要先调用他们的接口识别一下的。 |
19 bao3 2022-09-23 01:52:11 +08:00 via iPhone 现在我知道了,别说 Apple 6G 内存了,我估计 Apple 16G 内存都不够微信塞的…… |