
1 kungfuchicken 2015 年 2 月 16 日 煎蛋防护比较弱... |
2 zqjilove 2015 年 2 月 16 日 近期正好想了解python爬虫。看了视频,有些收获。谢了 |
3 jason52 OP @zqjilove 欢迎提问,我觉得后面讲的有点快了,有网上教人画马那个梗的感觉,是个圈圈画好,下一步,直接就是一匹栩栩如生的马出来了。 不过有没法讲的太详细,必须假设有一定的html基础和python基础。边界的确定有点麻烦。。。 另外,在制作过程后期压制视频的时候,(之前没弄过),真心体会到 码率叫你做人这句话。第一个版本压制出来3G多。经过我多次试验,已经找到比较合适的参数,可以在20min下90m以内,比这个版本更加清晰,比较适合screencast。 另外视频托管,优酷土豆之类都嫌贫爱富,上传上去转压的一塌糊涂,还是直接发布视频文件最为清晰。 同时不知道斗鱼用了什么黑科技,竟然这么清晰。。。烧钱吧 |
4 jimmy66 2015 年 2 月 16 日 虽然之前看过这个了http://blog.fishc.com/3646.html,但是还是要感谢了 |
5 Sylv 2015 年 2 月 16 日 via iPhone |
7 jookr 2015 年 2 月 16 日 谢了 谢了 |
8 caixiexin 2015 年 2 月 16 日 看到好多人写爬虫第一个作品就是爬煎蛋23333 |
9 SquirrelMAN 2015 年 2 月 16 日 说话中气不足啊,要多运动了。。 视频内容不错,有帮助 |
10 jason52 OP @SquirrelMAN 大概早上debug妹子图时间长了()~~~所以拿无聊图来演示~~ |
11 doomgiant 2015 年 2 月 16 日 非常感谢,mark回去看! |
12 reticentfat 2015 年 2 月 16 日 谢谢,下班回家练练 |
13 xiaket 2015 年 2 月 16 日 看了两三分钟后觉得用Linux下的工具抓会更方便, 于是又花几分钟测试写脚本, 在第八分钟前就能跑了... 新人入手玩爬虫还是入Linux的坑更合适, curl/sed/awk做这个事情比pyquery方便太多了, 而且方便多进程提高效率. 顺便慰问下在Windows下开发的同学们, 你们真是辛苦了... |
14 zhangchioulin 2015 年 2 月 16 日 有空就把视频看了,谢谢 |
15 66beta 2015 年 2 月 16 日 煎蛋把全文RSS给关了,楼主有兴趣做一个不? |
16 ZHenJ 2015 年 2 月 16 日 应该加个帅选,只要NSFW的(跑 |
17 ETiV 2015 年 2 月 16 日 via iPhone 我只想知道淘宝上卖代理的关键词是啥 |
18 Earthman 2015 年 2 月 16 日 via Android 楼主试试传bilibili,可以直传,免二压 |
19 mozutaba 2015 年 2 月 16 日 难道不是先抓1024? |
20 jason52 OP @ETiV 我一直以为他不是独立托管的。。。没有邀请码呀~~ @xiaket 简单的是shell方便,要带cookie,代理起来就麻烦一点了。而且正则表达式技术完全是对字符串的解析嘛~~~库还是要用用的。。import 在手,天下我有耶shahua(`^) @mozutaba 出门左转hard--seed走起 O(∩_∩)O哈哈~ @kungfuchicken 站长你好~~摸摸头~~~站长不要改版~~~放新人一条生路~~~阿门~~~ @66beta 雅虎不有个管道啥的。。。专门搞这个~~~ |
21 lightryanking 2015 年 2 月 16 日 = =你们玩的太高级了。。。不会python啊 以前火车头采过1024 |
22 |
23 aaaa007cn 2015 年 2 月 17 日 @jason52 我觉得简单的用用 urllib、urllib2 差不多 要是 cookie、referer、ua、代理一起上 我宁可在 python 中调用 curl 也不想和各种 opener 去搅 直到遇到了 requests 但是 curl 直接支持 socks 代理在某些情况下还是要比 python 方便点 |
24 gyorou 2015 年 2 月 17 日 http://blog.nigbee.pink:3000/ 这个行么。 打开前先确定周围没人特么。 |
26 yepinf 2015 年 2 月 18 日 “先上淘宝买代理吧。。。。” 求个靠谱链接 |
27 jimmy66 2015 年 2 月 20 日 re.findall 返回的是list不是元组。。原谅我的强迫症吧 |
29 Delbert 2015 年 2 月 26 日 你视频里面是 cat pic |sed 's/"/\n/g'| grep 'http.*(gif|jpg)' 但是我需要改成 cat pic |sed 's/"/\n/g'| grep 'http.*[gif|jpg]' 才可以正常正则筛选。 是我和你grep的版本不同吗? |
30 wind3110991 2015 年 4 月 1 日 mark下先~ |
32 ivanchou 2015 年 4 月 21 日 百度云链接失效了? |
33 plantparknet 2015 年 7 月 12 日 现在这种方法失效了,必须要用header~~ |
34 plantparknet 2015 年 7 月 12 日 jandan增加反爬虫了。。。 |
35 jason52 OP @plantparknet 大概练手的家伙太多了。。。 |
36 plantparknet 2015 年 7 月 12 日 @jason52 终于有机会需要把教程更新下啦~~ |
37 jason52 OP @plantparknet 最近忙成狗,应该暂时不更新啦~~~不过要加个header你可以仿照后面几课试试。~~~ |
38 Want 2016 年 8 月 15 日 你的视频链接掉了 快点更新啊 |
39 ibiner 2016 年 8 月 16 日 不错。 1 呢? |
40 kela 2016 年 8 月 16 日 via Android 求视频 |
41 Dye8 2016 年 8 月 26 日 via Android 视频链接挂了 |