
一开始听说淘宝会在后台录音,然后推荐当时谈论的商品的时候,我是抱着怀疑态度的。直到这事情真正发生在旁边的人身上。前两天,我两个室友在讨论腕力球,结果他今天打开淘宝直接就给推荐腕力球......之后他告诉我,他的手机当时除了联网放在一边外,没有任何动作,后续也没有查询过相关内容。
少装国产软件保平安。
1 xizismile 2020-05-09 15:34:42 +08:00 via Android 同一个内网下,有人搜了腕力球? |
2 40EaE5uJO3Xt1VVa 2020-05-09 15:37:29 +08:00 怎么说呢,去年我身份证丢了,跟舍友讨论了一下身份证的事。然后室友打开今日头条,推了一个身份证丢了怎么办的文章。哎,后来就干掉所有非必要的麦克风权限了 |
3 imyip 2020-05-09 15:37:50 +08:00 幸存者偏差? |
4 maduoduo 2020-05-09 15:44:18 +08:00 想多了,只是周边或者有人搜了相关的内容,或者输入法输入了相关的内容,然后这些数据被共享给淘宝了而已。 语音监控,上传,然后数据分析,然后再给你推商品,然后你还不买,这个成本太高了,资本家不会做这种事情的。 |
5 fancy111 2020-05-09 15:48:28 +08:00 大惊小怪,正常操作。 |
6 taby 2020-05-09 15:51:36 +08:00 两年前就如此了,当时不少 V 友觉得不可能 t/438433#reply32 |
7 Cheons 2020-05-09 15:51:42 +08:00 via Android 看楼上评论我是不是错过了什么。。 之前合租时淘宝推荐的都是 zwq 什么的自己单租拉网后现在没推荐了 |
8 taby 2020-05-09 15:53:35 +08:00 @maduoduo 输入法只是其中之一,用户行为、广告联盟什么的太多了。另外语音监控成本这个也有待商榷,某飞几年前就用某省的电话语音数据库做自己的数据库了。 |
9 finab 2020-05-09 15:53:53 +08:00 昨天我看书时,碰巧看到了 lemon 这首歌,晚上刷抖音时,就正好被抖音推荐了 实体书。 |
10 taby 2020-05-09 15:58:01 +08:00 福布斯也报道过亚马逊录音采集用户大数据 v2ex.com/t/558550 |
11 shintendo 2020-05-09 15:59:51 +08:00 我觉得,如果真的存在这样的机制,小规模使用的话,成本和收益不现实,大规模使用的话,用户的报告应该又不止现在的数量。 我个人还是倾向于孕妇效应或者归因谬误之类的心理错觉。 |
12 aver4vex 2020-05-09 16:00:03 +08:00 为了证实一下,建议再聊些别的产品,看会不会推荐。 如果监听的话,也不会只监听一次。 |
13 1iuh 2020-05-09 16:00:08 +08:00 幸存者偏差 不信试试能不能复现。 反正我试过是无法复现的。 |
14 183387594 2020-05-09 16:00:21 +08:00 @finab 抖音读脑了 其实楼上说的这些 都不是冷门的东西 。所谓恰好出现 也是大概率事件,想想现在碎片化时代 每天摄入了多少信息 |
15 taby 2020-05-09 16:04:21 +08:00 @shintendo 成本如何计算?如果用户基数大的话,成本可以压缩到很低。比如两大音乐 app,如果你经常听某些免费音乐反复听,过几天会变成 vip 音乐。。当然,不是所有音乐都是如此,不过已经有不少这方面案例。 |
21 1iuh 2020-05-09 16:15:05 +08:00 @taby #18 day1:上午对着手机说 10 次网球, 看这一天会不会推网球给你 day2: 上午对着手机说 10 次乒乓球,看这一天会不会推乒乓球给你 以此类推, 如果 1 周都无法复现,我相信能说明问题 |
22 nijux 2020-05-09 16:15:35 +08:00 |
26 nijux 2020-05-09 16:18:20 +08:00 技术上是可以实现的 |
27 shintendo 2020-05-09 16:18:26 +08:00 @taby 你感觉的准确不一定是事实上的准确,你每天会谈论很多不同内容,也会使用到很多 app,这些 app 在不同时候也会推不同的东西,如果你的{谈论集合}和{推送集合}里有一个匹配的元素,这个元素会给你留下深刻的印象,而那些更多的没有匹配的元素很快被你淡忘了,最后留下的就是“准确”的印象。 准确与否需要统计支撑,不能靠体感。 |
28 taby 2020-05-09 16:21:28 +08:00 @shintendo 起初也以为“幸存者偏差”,但出现次数足够多的话,不能不引起怀疑。两年前跟他人交流过,几十人里有一半是跟我一样的感觉,将信将疑的。而最近,这些人里接近 80%都觉得不是幸存者偏差了,发生的次数和准确度已经超出既往认知。 |
29 1iuh 2020-05-09 16:21:33 +08:00 |
30 shintendo 2020-05-09 16:24:50 +08:00 @taby 还有一种情况是,某个原因(比如热点事件)间接引起了你讨论某个东西,同样的原因也导致了 app 推送这个东西,但你的讨论和 app 的推送没有因果关系。 |
31 1iuh 2020-05-09 16:26:04 +08:00 当然,如果有大佬能反编译搞到相应的源码,或者抓到相关的数据包,那就更能说明问题了。 我们不能只靠“感觉”来判断,对吧? |
32 Jooooooooo 2020-05-09 16:26:35 +08:00 监听麦克风然后分析推荐是做不到的 最简单的就是你找不到阿里内部有部门是做这件事的 reddit 上有在亚马逊做 echo 的员工回答过这个问题 |
35 183387594 2020-05-09 16:32:05 +08:00 @taby 比如 你 平均每天 讨论 2-3 个商品,交流到 3-5 人(你们 /听到你们讨论的人 去搜索 / 或查看类似) 。 每人每天又看到 20-30 个推广广告。 这样过一个月 总得推广中 几次吧。 比如我们市场做活动 在办公室发货飞机杯。 过几天大家的淘宝 都变成飞机杯了。 (因为我好奇啥牌子 多少钱 偷偷搜了下 |
36 xAI 2020-05-09 16:34:02 +08:00 via iPhone 最近好多次这样的情况,还是三方 APP 全关麦克风的情况下。 |
37 hhhsuan 2020-05-09 16:40:27 +08:00 这很容易验证啊,自己验证一下不就知道了? |
39 kruskal 2020-05-09 16:48:42 +08:00 一个人每天说的名词起码数十个,如何决定推荐优先级?销售人员、教师这些口头交流多的人需要分析的量更大。 无论是哪种监听方式总要存储数据进行分析吧,本地分析耗电量上反应不出来?云端分析流量上也会有体现吧,以淘宝的用户规模,那这个数据量得有多大,需要多少计算资源? 我总觉得大规模应用成本上划不来。 |
40 xizismile 2020-05-09 16:56:33 +08:00 via Android 我感觉监听用户通话数据肯定是没有的,这如果被爆料出来,竞争对手抓住机会能把你搞的死死的 |
41 ZField 2020-05-09 17:02:22 +08:00 按照这种操作你换一个物品,看看能不能复现。 这种东西想一想都知道是幸存者偏差 |
&nbp; 42 iFlicker 2020-05-09 17:12:07 +08:00 没法复现的 bug 不是 bug 朋友提过 一起折腾好久 没能复现 |
43 snw 2020-05-09 17:22:52 +08:00 via Android |
44 TypeError 2020-05-09 17:24:26 +08:00 不给国产软件权限和后台就行了 他们都是 spyware,FB 之类的公司同样对待 |
45 kruskal 2020-05-09 17:36:08 +08:00 |
46 Yuicon 2020-05-09 17:37:42 +08:00 技术论坛也会阴谋论么 美国还有要打倒邪恶比尔盖茨的 |
47 Pichai 2020-05-09 17:44:54 +08:00 这个不太清楚。但是我在 chrome 网页版搜索的东西。淘宝,贴吧等都给我推送,我不清楚是怎么回事。 |
48 xFrye 2020-05-09 17:47:07 +08:00 1 、你们用同一个 wifi 2 、室友们可能不止一次地在各种地方搜过腕力球(淘宝、抖音、浏览器,等等) |
49 littiefish 2020-05-09 17:47:18 +08:00 via iPhone @maduoduo 每次出现这种事,都说是幸存者偏差,同一网络的别的人搜了。 |
50 taillll 2020-05-09 17:51:31 +08:00 昨天在线下店买了某个药品,今天淘宝就给我推类似的东西了,淘宝使用了所有可能利用的隐私来搞事,真的醉了 |
51 snw 2020-05-09 17:57:17 +08:00 via Android @kruskal 1.本来就不需要达到 100%人群的推荐效果,对于典型用户有效就行。如果你觉得容易触发,那么就加个计数器,某个次达到命中次数才推荐(当然这里需要存储命中次数数据)。 2.手机离用户一般不会太远,不需要远距离拾音。如果觉得手机与智能音箱拾音能力差得较远,你可以比较一下行车记录仪,同样可以监听“我要拍照”、“我要录像”等词。 |
52 whypool 2020-05-09 17:59:38 +08:00 现在用户画像很成熟了 平台并不是分裂的,比如淘宝,京东,拼多多,百度,都可能使用同一个广告平台数据 最好的数据来源是电信服务商的链路层,虽然有 https,但是并不绝对,这个成本很低的 其次是广告服务商的 sdk 数据采集,什么推送,数据统计什么的,都会有,特别是安卓,重灾区 最后才是大厂自己采集,这个成本高风险大,看看用户使用条款,有木有使用个人数据用于 xx 什么的 |
54 husinhu 2020-05-09 18:01:39 +08:00 via Android 没开录音权限也可以偷听? |
55 Garland 2020-05-09 18:02:21 +08:00 可以思考下如果自己来实现麦克风监听+推荐这一套东西的话,需要做哪些事情,然后套一套 TB 这么大的体量看看这个投入产出比合不合适。 |
56 Garland 2020-05-09 18:03:42 +08:00 补:以及作为一个庞大的上市公司可能会面临的隐私相关问题的质疑 |
57 phpc 2020-05-09 18:06:46 +08:00 安卓 9.0 已经限制了应用的后台录音权限。 用微信 7.0.0 版本可以复现,语音通话锁屏几分钟后,你可以听见对方的声音,但是对方听不到你的声音。微信后期的版本可以后台语音通话可能是因为开了前台服务? |
58 laydown 2020-05-09 18:07:37 +08:00 为什么楼上一些人说如果弄这个就必须得每个人都这样搞呢,也可能是在用户里随机抽人进行监听啊。 |
59 ax521 2020-05-09 18:10:19 +08:00 via Android 估计除非你讨论炸 zf,才会引火烧身 |
60 maemual 2020-05-09 18:11:25 +08:00 你就说后台不断的监控录音,手机电量怎么扛得住 |
61 lneoi 2020-05-09 18:15:20 +08:00 其他不说,就是不断监听同时分析关键词,上传数据,手机电量耗电很快吧 更大可能像是楼上说的,你们讨论了,然后有人去搜了,然后都推荐给同一个区域的你们。 |
62 geekzhu 2020-05-09 18:18:01 +08:00 相信的人用手机试试,拿出来证据。不相信的人,也用手机试试,拿出来证据。这不就行了? |
64 6167 2020-05-09 18:28:43 +08:00 这样吧,回头在手机边上念上 2 小时的“充气娃娃”,你看看再打开软件会不会给你推送,当然,你要先保证你之前没有搜索过这个东西 |
65 fcten 2020-05-09 18:29:38 +08:00 想多了。这种事情收益没多少(和通过搜索历史 /浏览历史推荐相比),一旦被证实负面影响极大。傻子才做这种高风险低收益的事情。 |
66 int64ago 2020-05-09 18:30:36 +08:00 via Android 用脚趾头想想可能么?真是黑多了什么都可以黑一下。。。 虽然淘宝 APP 很垃圾 |
67 chmlai 2020-05-09 18:31:49 +08:00 siri 小爱这种听一个启动词和听一个列表差别挺大的吧。 |
68 fcten 2020-05-09 18:32:07 +08:00 另外,会推荐腕力球,可能是他在别的地方搜索了(不一定是淘宝),甚至可能是他的室友搜索了。用户行为的数据可以通过多种途径获取,靠后台录音是非常不靠谱的一种方式。。 |
69 across 2020-05-09 18:35:02 +08:00 估计就和“冰淇凌销量”提高时“鲨鱼杀人数量”也会上升一样。 (夏天到了) 室友为什么讨论腕力球,因为附近有人买了腕力球 附近有人网购了腕力球,于是给同一区段的人都推荐了 |
70 opengps 2020-05-09 18:35:42 +08:00 最初用后台录音是为了保活,并不是探测隐私。即使有录音,我猜想也是这个用途,个人表示这种大厂没必要用这么低级的方式来获取你信息 不过现在某些黑色做法是用录音收集数据,这是你需要重视的点 |
71 FallenTy 2020-05-09 18:38:40 +08:00 如果真的监听,就可以稳定复现。这玩意传了这么多年,也没见一个稳定复现的视频,就在那我感觉,我觉得,这点科学精神都没有? |
73 gkiwi 2020-05-09 18:39:50 +08:00 不要再提麦克风了,也不用录音! [用加速器就能知道你说了啥] 。。。 中文介绍: https://www.secrss.com/articles/17376 NDSS 的: https://www.ndss-symposium.org/wp-content/uploads/2020/02/24076.pdf 论文: https://arxiv.org/pdf/1907.05972.pdf |
74 hslx111 2020-05-09 19:31:11 +08:00 这个是不太可能的,你的朋友可能之前搜索过相关关键字的可能性比较大 |
75 Email 2020-05-09 19:51:24 +08:00 我有一个微信群叫 “XXX 的养老院” 其实是个很普通的聊天群, 然后晚上网易新闻给我推了个 正经的养老院的广告, 然后就把网易新闻卸载了 |
78 yafoo 2020-05-09 20:06:15 +08:00 via Android 前几天路边小摊买了几双袜子,然后拼多多出现了袜子的推荐。。。 |
79 yumiao9411 2020-05-09 20:19:15 +08:00 via Android 大数据下面还有什么隐私好说的,现在在 b 站刷个视频油管那边隔天都能推送差不多类似的(甚至是被转载到 b 的原版... |
80 hoyixi 2020-05-09 20:35:59 +08:00 肯定有人说阴谋论,但是我坚信,摄像头和麦克风肯定都在被用来偷窥。 |
81 SunnyFeng 2020-05-09 20:43:19 +08:00 这个问题讨论一千遍一万遍还是那样,相信的人永远相信,不相信的人永远不相信。只想说在我们这互联网环境获取你隐私远远不用这么复杂、这么大费周章。 |
82 shijingshijing 2020-05-09 20:50:35 +08:00 @kera0a 现在的麦克风早就不是动圈式的,跟加速度计和陀螺仪一样,用的是基于 MEMS 技术的硅麦克风,而且一台手机上有多个,功耗高早就不成立了。真正需要功耗的是边监听边写入 Flash,单独监听不怎么耗电。 |
83 lamany 2020-05-09 20:56:14 +08:00 之前我想了个从来没关注过的东西,也绝对买不起的东西。 然后开车时大声对手机说了好几遍名字,然后不去搜索。 过了一两天,微信就给我推广告了。 也不知是不是巧合。 各位有兴趣可以试试,平时自己越不会关注的东西(奢侈品、车、房什么都行)越好。 然后在手机不是熄屏的时候大声多说几次试试看。 |
84 s609926202 2020-05-09 20:57:42 +08:00 via iPhone 大概率是搜狗输入法的原因,建议卸载了再测试一下 |
85 soros996 2020-05-09 20:59:49 +08:00 今天不是有个贴子 想从 苹果转向安卓 求拍醒的麻?看看这个就可以了,不用拍,自已看 |
86 ciaoly 2020-05-09 21:04:33 +08:00 via Android @maduoduo 都说“语音数据上传到后台进行分析成本高不靠谱”,那为啥不能在本地分析完语音数据再上传分析结果呢?现在手机配置越来越高、甚至于还有专门的 AI 核,连“边缘计算”的概念都起来了,在手机后台跑个语音转文字服务还实现不了吗? |
87 kera0a 2020-05-09 21:21:39 +08:00 via iPhone @shijingshijing 为啥和我说这个? |
88 ccc008 2020-05-09 21:24:26 +08:00 @ciaoly “手机后台跑个语音转文字服务”。拿讯飞离线语音听写来说,它 sdk 有 30 多 M 。很容易被发现并抓包的。 |
89 MrStark 2020-05-09 21:38:55 +08:00 如果是 iOS 系统的话,直接关了淘宝的麦克风权限,然后过一段时间再看看有没有,最好弄个表,开一段时间,关一段时间,看看这两段时间的推荐内容是不是和你切身相关,如果有精力的话可以弄多几段,这样比较有说服力。 |
90 gggxxxx 2020-05-09 21:44:29 +08:00 v2 好歹是程序员论坛,自己验证一下好么?既然有猜测了,重现一下不久可以证实了? 一群人都在商业技术角度指点江山,喷了..... 哪个 youtuber 或者自媒体什么的,那这个选题做一期试验,点击率绝对高。 |
91 cbais7890 2020-05-09 23:34:16 +08:00 如此多种实现方式, 为什么要用难度最高的语音识别, 这不是一个技术论坛吗 ? 你的朋友通讯录有你 -> 识别为好友 -> 关联你们两个的偏好 -> 商品交叉推荐 -> 你朋友前几天搜过腕力球 -> 突发奇想跟你讨论 -> 你受影响上淘宝搜索 -> 正好看到交叉推荐的结果 在数据隐私近乎没有的中国, 要达成这个结果远远不止这一种方式 |
92 axxahut233 2020-05-10 00:05:28 +08:00 不是很简单的问题吗?老老实实做五次实验验证一下很难吗? |
93 April5 2020-05-10 01:03:44 +08:00 的确遇到过两次,而且有一次是中午跟我爸说的方言(潮汕话),晚上推荐就来了= = |
94 ruandao 2020-05-10 02:17:45 +08:00 不一定是幸存者偏差 成本其实不高 语音识别成文字,然后提交文字就可以了 现在搜狗输入法都有离线语音识别了,所以是可行的 |
95 CoderGeek 2020-05-10 02:48:31 +08:00 有的 现在这个市场 高 dau 的头部应用为了数据 变现你想到的和想不到的都有 |
96 mxT52CRuqR6o5 2020-05-10 02:50:43 +08:00 via Android @cbais7890 对的,我不太认为会监听语音的原因之一就是明明有比语音识别靠谱的多的方法去实现这个需求,为什么非得把思路限制在语音识别上 |
97 bib 2020-05-10 06:56:23 +08:00 via Android 楼主说的很对,高见,祝你早平安。 |
98 snw 2020-05-10 07:47:56 +08:00 via Android @kruskal 关键词监听不需要普通语音转文字层面的分析,也不需要写大量数据,不会在耗电上有太大反映。而且别忘了毒瘤应用们本来就耗电。 |
99 jangit 2020-05-10 07:57:09 +08:00 via iPhone 自从我把输入法换成 gboard 之后就没出现这种事情了 |