
项目地址: https://coding.net/u/raawaa/p/jav-scrapy/git
jav-scrapy ,一个爬取 AV 磁力链接的小爬虫。

$ git clone https://git.coding.net/raawaa/jav-scrapy.git $ cd jav-scrapy $ npm install # 安装 npm 包依赖 $ npm link # 使 jav-scrapy 全局可执行 Usage: jav [options] Options: -h, --help output usage information -V, --version output the version number -p, --parallel <num> 设置抓取并发连接数,默认值: 2 -t, --timeout <num> 自定义连接超时时间(毫秒)。默认值: 10000 -l, --limit <num> 设置抓取影片的数量上限, 0 为抓取全部影片。默认值: 0 -o, --output <path> 设置磁链抓取结果的保存位置,默认为当前用户的主目录下的 magnets.txt 文件 更新了一下,增加了搜索功能,比如:
$ jav -s ipz # 只抓取以 ipz 开头的番号 $ jav -s ipz-634 # 只抓取番号 ipz-634 又增加了「下载影片封面」的功能,到此为止觉得已经够自己用的了,短期不会再更新了,放几个用例吧:
# 下载影片封面到~/porn_covers/目录下,图片文件名为番号,并行下载数为 10 $ jav -c ~/porn_covers/ -p 10 # 抓取 ipz 开头的所有番号的磁链,并保存在~/magnets.txt 中,并行抓取数 20 $ jav -s ipz -p 20 -o ~/magnets.txt # 抓取番号 ipz-634 这部影片的磁链 $ jav -s ipz-634 -o ~/magnet.txt # 抓取「连裤袜」主题的所有影片磁链...并行数 10 $ jav -b http://www.javbus.in/genre/28 -p 10 -o ~/magnets.txt 1 iShao 2015-10-31 14:21:49 +08:00 via Android 从来只看自己喜欢的演员的作品…已经收藏全了 |
3 cxbig 2015-10-31 14:26:02 +08:00 恭喜 LZ 找到学习的原动力 |
6 leavic 2015-10-31 14:30:52 +08:00 其实我前两天写了个 scrapy 爬虫,把 javbus 上的所有 AV 信息都抓完了,一共 8 万多部。 |
7 scream7 PRO 看不懂的样子 |
9 Chappako 2015-10-31 14:39:25 +08:00 不知道这样或者分享番号,算不算违法 |
10 Andy1999 2015-10-31 14:43:54 +08:00 via iPhone 高端技术传播淫秽资料罪加一等 |
11 leavic 2015-10-31 14:48:04 +08:00 @raawaa 你从 page/1 这样开始抓的话,最终只能抓到不到 50 页,这是 wordpress 分页插件造成的,我是从演员表那里开始抓的,女优数都有 3 万多。 |
12 exoticknight 2015-10-31 14:48:47 +08:00 代码写的不错……下载来 学代码 学代码 学代码 |
13 Hipponensis 2015-10-31 14:51:24 +08:00 参考一下,我去写个 Scrapy 抓。 |
14 DennyDai 2015-10-31 14:52:46 +08:00 嗯我只看第十九行代码就够了 |
15 raawaa OP @leavic 我昨晚抓到第 103 页的时候出现了 404 错误。用浏览器浏览,末页也是到 102 页。在昨天以前我浏览这个站可不是这样的。 |
16 leavic 2015-10-31 15:07:07 +08:00 @raawaa 那他现在还放大了页面数了,我最开始抓的时候只有 48 页,抓完后我就觉得数据不对,调到 48 也一看是两个月前的数据,这网站都这么久了。 其实我觉得 javbus 也是抓的 dmm ,然后让网友自己提交磁链形成的,否则我抓取来的 8 万多条数据,这要人工编辑得花多大功夫, 3 万多个女优的名字能全知道的就不可能是人类。 |
19 xwartz 2015-10-31 15:12:17 +08:00 |
20 Kuro 2015-10-31 15:14:09 +08:00 能否抓取有 HD 种子的片子,前几天想实现发现因为 javmoo 反爬虫就搁置了。 |
22 Kuro 2015-10-31 15:20:19 +08:00 发现 javbus 这个网站已经有高清分类了,不错~ |
23 ipconfiger 2015-10-31 15:22:10 +08:00 1024 |
24 qile1 2015-10-31 15:22:53 +08:00 via Android 一直想弄一个可仪抓取电影网站图片及介绍的爬虫,把家里的电影介绍都更新,以后没网本地观看,可惜不会 |
26 lk920724 2015-10-31 15:30:05 +08:00 electron-v0.33.9-darwin-x64.zip 这个貌似下载的很慢额 |
28 JiaFeiX 2015-10-31 15:59:41 +08:00 via iPhone 请问 gif 图用的什么软件生成的? |
29 zzy8200 2015-10-31 16:18:50 +08:00 via iPhone 然而服务器根本挂不了 BT …… |
30 GPU 2015-10-31 16:46:14 +08:00 楼主想撸出血啊? |
31 ChiangDi 2015-10-31 16:47:57 +08:00 楼主都是有孩子的人了啊... 直接找老婆不就好了...... |
32 kn007 2015-10-31 17:03:44 +08:00 高调收藏。。。 |
33 kn007 2015-10-31 17:05:52 +08:00 话说源码放 github 估计会有很多星星。。。 |
34 fyyz 2015-10-31 17:13:28 +08:00 丝进入高科技领域依然是丝(逃 |
35 raawaa OP @JiaFeiX 用的 silentcast $ sudo add-apt-repository ppa:sethj/silentcast $ sudo apt-get update $ sudo apt-get install silentcast |
36 raawaa OP |
37 bingu 2015-10-31 17:21:02 +08:00 via iPad 这贴干货真多。 |
38 raawaa OP |
39 ready2race 2015-10-31 17:26:23 +08:00 1943 年,美国心理学家亚伯拉罕马斯洛在《人类激励理论》论文中提出---生理需要是推动人们行动最首要的动力 |
41 hantsy 2015-10-31 18:08:57 +08:00 好几年没看 AV 了,,,这么多怎么看得完。也不推荐一下哪个好一点。 |
42 iloveayu 2015-10-31 18:09:36 +08:00 via iPad 丧心病狂。。。 |
43 LWXYFER 2015-10-31 19:17:32 +08:00 学习学习,我要自己抓。 |
44 sxd 2015-10-31 19:28:09 +08:00 我只能说 域名太 |
45 VmuTargh 2015-10-31 19:48:12 +08:00 via Android 噫,好污 |
48 moe3000 2015-10-31 20:25:51 +08:00 污得不行啊 |
49 yuzhouwww 2015-10-31 20:46:47 +08:00 get |
50 LancerComet 2015-10-31 20:51:50 +08:00 这么污的东西必须兹词 |
52 jerryhethatday 2015-10-31 21:04:37 +08:00 楼主制作这个 gif 的工具叫啥?看起来挺高端的 |
53 coldfog 2015-10-31 21:08:10 +08:00 为什么我点进来整个页面都黑了?你做了什么? |
54 raawaa OP @jerryhethatday 叫 silentcast |
56 linux40 2015-10-31 22:00:26 +08:00 我又多了一个网站。。。 |
57 aszxqw 2015-10-31 22:05:56 +08:00 npm install 好慢好慢。 |
58 raawaa OP @aszxqw 可以用淘宝的镜像: npm.taobao.org |
59 49 2015-10-31 22:17:56 +08:00 via Android 收藏比回复还多… 你们啊!绅士 |
62 cszchen 2015-10-31 23:32:30 +08:00 我正在想干这个事呢,然后做一个客户端 |
65 acrisliu 2015-10-31 23:44:05 +08:00 via Android 楼主有没有 nodejs 入门教程推荐? |
66 pabno 2015-10-31 23:44:05 +08:00 baseUrl 这个变量定义的很有深度,值得好好研究 |
68 raawaa OP @sxd whilst 的测试函数必须是同步函数啊,向我这个需要用到异步 http 请求来判断页面是否存在的情况,的就没法用 whilst 了。 |
69 raawaa OP @acrisliu 其实我 node.js 没怎么深入学,什么流啊子进程啊之类的都不会。我现在还处在 Javascript 打基础的阶段。 Javascript 的话我强烈推荐 Kyle Simpson 写的《 You Don't Know JS 》系列丛书,或者看此人在 pluralsight 上开的「 Advanced Javascript 」视频课程。这些在网上都有资源下载。 |
72 wbsdty331 2015-11-01 12:42:29 +08:00 污,不过我喜欢 23333 |
74 XianZaiZhuCe 2015-11-01 14:07:13 +08:00 认真的,小心被查,不开玩笑 |
76 coolicer 2015-11-02 09:55:11 +08:00 哈哈,不错。 |
77 godjarl 2015-11-02 10:25:06 +08:00 这是我学习 node 的理由嘛 |
78 4912941 2015-11-02 11:19:31 +08:00 <img src=" "/>为什么会报错呢 |
79 raawaa OP @4912941 window 下好像是会有点问题。要注意 2 点: - 请跳出 jav-scrapy 这个目录再运行 jav 命令,不要在 jav-scrapy 目录里直接运行 jav 命令,如果实在要在 jav-scrapy 目录里运行的话,运行 node jav.js ,后跟选项; - windows 里不要用'~'之类的 Linux 下特有的路径符号。 |
81 0xfan 2015-11-02 12:18:57 +08:00 80 回复, 178 人收藏,你们啊 |
82 hi54yt 2015-11-02 13:27:31 +08:00 |
84 kaiwei 2015-11-05 11:39:19 +08:00 弱问磁力链接是种子吗 还是直接就能下载电影了? |
86 sinux 2015-11-06 16:51:21 +08:00 想问一下,那个总进度的不断前进的命令条是怎么做的? |
87 raawaa OP |
89 flw01 2015-11-25 17:24:51 +08:00 我们现在在招聘 node.js,坐标广州,感兴趣的私聊我哈, http://www.lagou.com/jobs/1284459.html |
90 greatghoul 2015-12-01 20:02:36 +08:00 好样的。 |
91 qingwalashi 2015-12-04 23:13:42 +08:00 我用 python 尝试写了爬虫,有两个链接,没有任何返回值。问题,一个是网站的图片貌似写了判断,代码下载图片会显示一个拒绝的网站。还有一个是,你如何获得磁力链接的地址的?我直接打开 XHR 的链接,没有任何返回值。 |
92 raawaa OP @qingwalashi 图片就是直接获取图片资源的 url 然后下载呗;磁链就是直接从 html 文本里提取呗。 |
93 qingwalashi 2015-12-05 21:14:40 +08:00 @raawaa 磁力链接获 html 解析不到撒 |
94 raawaa OP @qingwalashi 你说的是「 javbus 」这个站么? |
95 pangtianyu 2015-12-13 02:42:23 +08:00 其实这个好像算是传播盗版…… |
96 0rangeT1ger 2015-12-15 19:03:09 +08:00 对于我等来说, 第 16 行代码最为重要. |
97 halbert 2015-12-18 15:04:32 +08:00 via Android @ready2race 一百多年前 弗洛伊德就说过 “力比多”是人类一切活动的基础… |
98 huage 2015-12-22 15:30:58 +08:00 学以致用啊,很好! |
99 eraise 2015-12-22 19:40:44 +08:00 一直不知道如果不工作,代码还能干吗,现在知道了。。 |