V2EX frogex 的所有回复 第 1 页 / 共 2 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    frogex    全部回复第 1 页 / 共 2 页
回复总数  24
1  2  
2019-01-19 15:46:52 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@xiao38245
手机淘宝是二进制的协议吧,要破协议,这个我没经验。而且直接抓接口的方法淘宝随便封更容易,感觉还是模拟人的操作稍微靠谱点
2019-01-19 10:50:03 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@IWSR
那能怎么办?讨论爬虫的帖子超级多,可讨论反爬的实在太少了,工作这么久身边也基本没一个人做过这些的
2019-01-18 16:21:03 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@dengtongcai
请看全文,不仅是登陆,是要长期稳定的爬,且能过各种滑块,目前最方案在 23F, 放 win 虚拟机跑了
2019-01-18 11:35:34 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@dengtongcai
爬简单,要能稳定长期、全自动化、有效的爬才难啊
2019-01-18 11:34:41 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yinaqu
淘宝检测了什么我不确定是不是只在 sufei_data 那个 js 里,从我分析看,至少有检测了 10 个函数,至少 headless 都 pass 了和非 headless 一样的结果。其他的实在看不下去了,都是混淆过的代码,命名 abcdefg,函数各种混着赋值,似乎要人肉维护一个函数调用关系
2019-01-18 11:32:06 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@soulmine
我也知道,公司安全的负责人也说,你一个人怎么能应付一个团队,不要硬肛,要想别的办法,但什么大淘客还是不行啊,搜不到我要的。 但这爬东西又是公司必须的任务,之前从来没搞过,忧虑了好久,总没彻底去解决。

淘宝也有付费 api,不过 leader 还是希望能神不知鬼不觉的用爬虫比较好
2019-01-18 10:08:23 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@lkwfive
没试过这个,有空试下吧,不过用什么工具 taobao 应该还是都会检测的
2019-01-18 10:02:59 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yinaqu
工作很多年了,90%时间写 C++
2019-01-18 09:35:43 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yumenlong
不会 pyqt,不过应该不只是 selenium 的问题,光看 taobao 的 js 就有 chromedriver 的指纹检测
2019-01-18 09:34:41 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@yangsi
当然可以,主要是不能确定靠什么检测的,试过 PhantomJS 也是不行
2019-01-17 19:25:59 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200
阿西吧, 这样也就必须一台机器前台运行了吧,如果抓取量大了就很慢了。 另外,你是怎么获取数据?
2019-01-17 15:56:12 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@murmur
这些在问题里都提到了,都做过了啊
2019-01-17 15:50:24 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200
你这个用按键精灵?感觉更不好稳定吧,如果位置什么的有偏差就做不了啊
我目前是
1.selenium + chrome headless, 爬列表页面,价格等数据有小几率获取,获取不到的记录-1。
2.另外启 selenium + chrome noheadless,随机获取-1 的数据循环重新请求价格,销量。
3.cookie 每天更换一次,chrome noheadless,每天早上 9 点爬虫会更新 cookie,时间不对(不是当天的 cookie )就手动扫码获取 cookie

如果 1 爬完了,2 这里还有大量的-1 记录,我就有点慌了,会不停的手工获取 x5sec 的数据直接抓接口了
2019-01-17 15:15:24 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@ioven app 的逆向就要破协议了,这个我更加没经验,有什么方法吗
2019-01-17 15:11:46 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200 感觉不是频率这么简单吧,我要的数据不是特别多,所以爬的时候很克制了。 不过目前能爬完也是 kill + 等待拉起的方式,过搜索列表页还可以,过商品详情页就很难了,有时一直弹窗要验证
2019-01-17 14:59:03 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@ioven 不是工具问题,而是怎么突破反爬啊
2019-01-17 14:54:07 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@5200 怎么 low 的方法?只要不人工就不 low 啊
2 个月前有一个接口可以拿
https://detailskip.taobao.com/service/getData/1/p1/item/detail/sib.htm?itemId=x&modules=dynStock,qrcode,viewer,price,duty,xmpPromotion,delivery,activity,fqg,zjys,couponActivity,soldQuantity,originalPrice,tradeContract&callback=onSibRequestSuccess,
加 cookie 和 referer 就好了,现在封了,要在 cookie 里带一个 x5sec 才能过,不然返回 rgv587 这样的东西。而这个 x5sec 是通过滑块后才能获取,且只有半小时时间。
2019-01-17 14:50:48 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@zr8657
其实是要拿详情页的成交量而不是价格,实时的数据里面和外面有些不同的,包括价格。
手机验证码没遇到。翻页的验证码我是尝试 3 次滑动,没过 kill 掉记录时间,让父进程 x 分钟后拉起接着爬,虽然慢一点好歹也可以爬完。商品搜索列表页封的不严,但商品详情页就很严了,kill 很多次都还弹验证
2019-01-17 14:37:17 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@momocraft
我主要看了下 taobao 的那个 index.js 会有这么一句
function i() {
if (a())
return !1;
try {
return !!u.createElement("canvas").getContext("webgl")
} catch (n) {
return !1
}
}
function a() {
return "ontouchstart"in u
}
实际上对于 i()的返回值,有头无头都试过了是一样的,所以姑且认为没靠这些检查。
话说这也是个死坑,哪天淘宝又改了这个 js 用别的检测方法也就没用了
2019-01-17 14:21:21 +08:00
回复了 frogex 创建的主题 Python 淘宝反爬求解
@autulin 登陆没啥,手工获取 cookie,我的任务每周爬个 3 天就差不多可以了。 问题主要是滑块不好过,非 headless 下大概率过,但这显然不够好
1  2  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5198 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 13ms UTC 03:40 PVG 11:40 LAX 19:40 JFK 22:40
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86