第一次写抖音爬虫,似乎遇到了奇怪的问题,是某种反扒机制吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
lwj253698
V2EX    Python

第一次写抖音爬虫,似乎遇到了奇怪的问题,是某种反扒机制吗?

  •  
  •   lwj253698 2018-05-26 22:26:56 +08:00 via iPad 15046 次点击
    这是一个创建于 2696 天前的主题,其中的信息可能已经有所发展或是发生改变。
    自己抓到的 url 的参数比网上教程的案例多了好几个属性,相同指令(比如都是用同一关键词搜索)的 url 的最后几个属性_rticket,as,cp,mas 随着时间变化,使用 python 再去 get 这些指令时返回的 json 就全是错误信息(服务器繁忙),而不是抓到的数据 json 这样了……
    现在考虑这是某种校验机制,不知道猜测是否合理。。。
    so weird,求 dalao 解救!
    39 条回复    2022-05-18 13:50:29 +08:00
    soho176
        1
    soho176  
       2018-05-26 22:30:09 +08:00
    抖音 app 咋抓的?
    lwj253698
        2
    lwj253698  
    OP
       2018-05-26 22:32:10 +08:00 via iPad
    @soho176 就抓包啊
    chengxiao
        3
    chengxiao  
       2018-05-26 22:33:18 +08:00
    这种带加密校验的 不知道服务端加密方法的话 很难破解吧
    可能只有反编译去找加密方法了
    lwj253698
        4
    lwj253698  
    OP
       2018-05-26 22:35:33 +08:00 via iPad
    @chengxiao 真的是加密吗。。。能不能绕过它呀 我现在看到的每一个 url 后面都是加了这几个属性的,唯独分享时的那个 url 好像没有
    chengxiao
        5
    chengxiao  
       2018-05-26 22:40:42 +08:00
    @lwj253698 服务端肯定有校验的呀
    soho176
        6
    soho176  
       2018-05-26 23:00:43 +08:00
    问一下站长啊,我就在本贴回复了一下,为啥我的 ip 被封了?我的联通宽带分配的固定 ip,结果现在就是无法访问了
    402124773
        7
    402124773  
       2018-05-26 23:02:30 +08:00
    这种 app 在客户端这边也都是有加密的。例如,你抓客户端登陆,肯定不是 post 用户名和密码。而是加密后的东西。现在很多 app 大部分代码都在 so 库里面。
    playniuniu
        8
    playniuniu  
       2018-05-26 23:15:09 +08:00 via iPhone   2
    抖音的 app 是经过加密签名的 加密函数好像在 libuser.so 里面 网上有一篇详细分析加密过程的教程 可以参考一下
    nine99
        9
    nine99  
       2018-05-26 23:19:00 +08:00
    先用抓包工具的重放一遍那个请求看看 ,一般都是你的 python 发的请求在细节上和它原来的不一样导致的。如果 确定一样也不行,你再逆向下,看这几个参数怎么来的。
    nine99
        10
    nine99  
       2018-05-26 23:20:53 +08:00
    实在不行就直接用 hook 的方法来爬吧。
    lwj253698
        11
    lwj253698  
    OP
       2018-05-27 00:50:33 +08:00
    @playniuniu 好的!!谢谢
    lwj253698
        12
    lwj253698  
    OP
       2018-05-27 00:51:39 +08:00
    @nine99 我直接赋值那个包的 url 然后用 get 方法获得 response 的 json...如果这个都不一样的话我是真的不知道还有什么可能了
    lwj253698
        13
    lwj253698  
    OP
       2018-05-27 00:53:55 +08:00
    刚刚发现一个问题,我猜抖音对指令应该是向前兼容的,也就是说有一些疑似为校验的参数貌似不赋值居然也可以... 参见 http://(hhhh)cuijiahua.com/blog/2018/03/spider-5.html/comment-page-1/#comments
    lwj253698
        14
    lwj253698  
    OP
       2018-05-27 00:55:45 +08:00
    = =实在是浪费了我六七个小时呢
    empty9
        15
    empty9  
       2018-05-27 01:26:22 +08:00
    之前研究过,逆向了他们 apk 实际上很简单,唯一坑的地方是有的 api 都是要求你登录,并验证 cookies。
    fange01
        16
    fange01  
       2018-05-27 01:27:23 +08:00
    若若的问一句,是爬抖音的视频,导入其他平台做流量吗》?
    patx
        17
    patx  
       2018-05-27 01:33:51 +08:00 via Android
    抖音我没试过,其他的视频网站只会对 url 参数做签名。
    k00baa
        18
    k00baa  
       2018-05-27 03:26:21 +08:00
    apk 逆向,然后 hook,那些参数就出来了
    locktionc
        19
    locktionc  
       2018-05-27 08:32:36 +08:00
    as,cp, mas 的算法请看这里:![]( http://7sbpmp.com1.z0.glb.clouddn.com/2018-05-27-08-28-44.png)
    _rticket 只需要根据它的格式随机生成一个字符串即可,也可以省略。
    myliyifei
        20
    myliyifei  
       2018-05-27 08:50:21 +08:00 via Android
    有一个人分享的抖音 url,因为名字的原因。我想从 url 分析,找到这个人的抖音 id,可以吗
    WinMain
        21
    WinMain  
       2018-05-27 10:01:12 +08:00
    github 上有一个很好用的,为了做视频分类,已经爬了十来万视频了。。
    https://github.com/LoadChange/amemv-crawler
    nine99
        22
    nine99  
       2018-05-27 10:44:10 +08:00
    header 的参数设了吗
    peterpei
        23
    peterpei  
       2018-05-27 10:46:28 +08:00 via Android
    @myliyifei 同样有这样的思路,借鉴了抖音 id 长度并没有发现有相同长度的 id 号,看起来是加密了。。。
    lwj253698
        24
    lwj253698  
    OP
       2018-05-27 13:45:59 +08:00 via iPad
    @locktionc read error ?
    lwj253698
        25
    lwj253698  
    OP
       2018-05-27 13:49:03 +08:00 via iPad
    @WinMain 其实我对这个分类倒是不是太在意。。。因为我接下来还会做一些筛选,打算用 opencv 筛选出只有人像上半身的视频
    lwj253698
        26
    lwj253698  
    OP
       2018-05-27 13:49:45 +08:00 via iPad
    @empty9 如何验证 cookie 呢?用那几个参数吗?
    locktionc
        27
    locktionc  
       2018-05-27 13:50:04 +08:00
    @lwj253698 用的七牛云图床,我这里可以正常显示图片。
    lwj253698
        28
    lwj253698  
    OP
       2018-05-27 13:50:18 +08:00 via iPad
    @fange01 不是呀,帮老板搜集训练集。。。
    lwj253698
        29
    lwj253698  
    OP
       2018-05-27 13:58:39 +08:00 via iPad
    @peterpei 是那个 iid 的参数吗
    lwj253698
        30
    lwj253698  
    OP
       2018-05-27 13:59:53 +08:00 via iPad
    @locktionc 嗯嗯看到了…比我想象得要简单( )
    lwj253698
        31
    lwj253698  
    OP
       2018-05-27 14:17:10 +08:00 via iPad
    @locktionc emmm 其实我发现其实只要把这几个参数全部省略掉就可以访问了,也是很奇怪了
    KomeijiSatori
        32
    KomeijiSatori  
       2018-05-27 15:22:16 +08:00
    ![Snipaste_2018-05-27_15-21-51.jpg]( https://i.loli.net/2018/05/27/5b0a5c9a9a2a6.jpg)

    买个 Surge 吧
    locktionc
        33
    locktionc  
       2018-05-27 16:13:38 +08:00
    @lwj253698 不能省略,因为一旦省略,他们就知道这不是正常的 App 请求。于是就可以封你。即使你用代理每一次请求都换,他也可以来一次封一次。省略了以后你的爬虫就是去送死。
    hteen
        34
    hteen  
       2018-05-27 20:39:22 +08:00
    @locktionc 为什么我抓的接口里面 mas 是 54 位 str, 你给加密方法是 50 位 str
    bankroft
        35
    bankroft  
       2018-06-06 20:09:45 +08:00
    我的博客写过抖音全站爬虫,发不了链接,百度搜索 bankroft
    wjx1993
        36
    wjx1993  
       2018-06-21 23:21:26 +08:00
    为什么抖音我都抓不到包?
    cjcgynpu
        37
    cjcgynpu  
       2018-06-26 12:41:32 +08:00
    嗯, 去哪儿前反爬虫工程师去了头条。
    只能说这么多了。
    lwj253698
        38
    lwj253698  
    OP
       2018-07-06 16:44:07 +08:00
    @cjcgynpu = =现在必须要登陆了 真滴要死
    Trinity888
        39
    Trinity888  
       2022-05-18 13:50:29 +08:00
    @lwj253698 楼主,现在抖音 App ,还能爬虫获取数据吗?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     861 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 19:43 PVG 03:43 LAX 12:43 JFK 15:43
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86