把一个小爬虫写成了个简单的网站(Avdict) 是不是没救了。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
syhsyh9696
V2EX    问与答

把一个小爬虫写成了个简单的网站(Avdict) 是不是没救了。

  •  1
     
  •   syhsyh9696 2017-10-11 15:05:21 +08:00 9938 次点击
    这是一个创建于 2925 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网站不是很大,部署挺方便,我在自己家 nas 里部署了个,功能一点一点往上加吧。

    恳请大家提点意见,几个小时后关吧,小水管可能会猝死...

    Demo

    Source code

    32 条回复    2017-10-12 12:46:44 +08:00
    kslr
        1
    kslr  
       2017-10-11 16:13:53 +08:00
    NSFW
    ys0290
        2
    ys0290  
       2017-10-11 16:15:43 +08:00 via iPhone
    技术交流,嗯!
    takanasi
        3
    takanasi  
       2017-10-11 16:22:33 +08:00   1
    你人在国内吗?
    cominghome
        4
    cominghome  
       2017-10-11 16:40:25 +08:00
    哇,大兄弟玩的 6 啊,来一个长期会员
    ranleng
        5
    ranleng  
       2017-10-11 16:49:05 +08:00 via Android
    收藏之
    wfd0807
        6
    wfd0807  
       2017-10-11 17:21:08 +08:00
    666
    laoertongzhi
        7
    laoertongzhi  
       2017-10-11 17:41:48 +08:00
    有趣~
    mokeyjay
        8
    mokeyjay  
       2017-10-11 17:47:48 +08:00
    项目 666666,但是你居然敢挂国内,作死噢,赶紧下了吧
    jpyl0423
        9
    jpyl0423  
       2017-10-11 17:59:05 +08:00
    自己也撸过一个, 不过就我一个人用
    simonlify
        10
    simonlify  
       2017-10-11 18:03:57 +08:00
    666
    jko123
        11
    jko123  
       2017-10-11 18:52:02 +08:00 via Android
    起码自适应弄好吧
    misaka19000
        12
    misaka19000  
       2017-10-11 19:01:52 +08:00 via Android
    10s 没打开
    Tunar
        13
    Tunar  
       2017-10-11 19:20:25 +08:00 via Android
    俺要封面
    syhsyh9696
        14
    syhsyh9696  
    OP
       2017-10-11 20:04:03 +08:00
    @kslr 哈哈哈是的相当危险。
    syhsyh9696
        15
    syhsyh9696  
    OP
       2017-10-11 20:04:51 +08:00
    @takanasi 我还只是个学生啊(逃
    @cominghome 你可以自己部署一下体验自己做站长的感觉(逃
    syhsyh9696
        16
    syhsyh9696  
    OP
       2017-10-11 20:05:23 +08:00
    @mokeyjay 哈哈没部署,跑在 development 下
    syhsyh9696
        17
    syhsyh9696  
    OP
       2017-10-11 20:06:38 +08:00
    @chen2016 您的意思是,影片那个封面大小吗?还是在手机上不合适?如果是后者的话请见谅,我最近学学响应式,我对前端真是一窍不通哇。
    syhsyh9696
        18
    syhsyh9696  
    OP
       2017-10-11 20:07:41 +08:00
    @misaka19000 可能是我小鸡的问题抱歉抱歉。
    @Tunar 14 多万张,老哥要吗给你数据库哈哈哈
    codermagefox
        19
    codermagefox  
       2017-10-11 20:15:06 +08:00
    楼主牛逼,做了我一直想做不敢做的事
    7654
        20
    7654  
       2017-10-11 20:21:13 +08:00
    看完只能说 NB
    jko123
        21
    jko123  
       2017-10-11 20:29:35 +08:00 via Android
    @syhsyh9696 你用的是 bootstrap,自带自适应,只需要加个 meta
    sxm
        22
    sxm  
       2017-10-11 20:41:06 +08:00 via Android
    几个月前用 PHP 做过一个,各种尺寸图片全部抓取差不多 400G 左右,再写了个数据展示,基本和原站类似。当时踩的坑是,单个文件夹内存放了百万+的小文件,导致之后文件夹复制删除那耗时惨不忍睹。
    syhsyh9696
        23
    syhsyh9696  
    OP
       2017-10-11 20:55:49 +08:00
    @sxm 源站是,javlibrary 还是 dmm.r18 。

    如果是全下载的话还是应该影片文件夹分别储存啊~
    我分析了一下数据库里的 url,里面的很多照片是可以构造出来的,所以我没抓图片。

    主要是我硬盘不够用了(哭, 已经 4 个移动硬盘了,ssd 里还有好多电影没法存呢(哭
    clearbug
        24
    clearbug  
       2017-10-11 21:45:49 +08:00 via Android
    到底咋播放啊?用手机点 video 找不到播放入口啊
    tf141
        25
    tf141  
       2017-10-11 21:51:00 +08:00
    半天没打开。。。。。。
    sxm
        26
    sxm  
       2017-10-11 21:54:22 +08:00
    @syhsyh9696 源站是 javbus,当时也只是写写玩的,只按图片类型及尺寸分文件夹,忘记了单个文件夹内文件过多的问题。之后转移到另一块硬盘上时才发现,那复制速度,差不多一天了。删除时只好把硬盘上的其他大文件又转移下,然后直接格盘了。影片数量大概 30 多万吧,我发现大图他是直接引用 DMM 的,而 DMM 编号与番号略有差异,所以抓取时就直接存图片 URL,毕竟也要不了多少容量。硬盘我也是不够用,本机上的 2 块硬盘可用空间常年是 20G 不到,移动硬盘我是用 3.5 硬盘+硬盘盒
    tedd
        27
    tedd  
       2017-10-11 21:56:18 +08:00
    居然有 30 多万部? Orz
    syhsyh9696
        28
    syhsyh9696  
    OP
       2017-10-11 23:31:36 +08:00 via Android
    @sxm 这样子 Javbus 骑兵步兵都有,这个很不错,但是我感觉分类稍微乱了点,而且 jbus 在 github 上已经有许多项目了。我现在还是个穷学生啊…只有一台笔记本,等以后挣钱了搞一套像样的存储好好整理一番再数据挖掘下(逃

    我可是拥有天使萌所有影片的(逃
    sosloop
        29
    sosloop  
       2017-10-11 23:38:40 +08:00 via Android
    赶紧 fork,^_^,感谢楼主
    yangonee
        30
    yangonee  
       2017-10-12 11:11:00 +08:00 via Android
    用 avgle 啊,有 api
    syhsyh9696
        31
    syhsyh9696  
    OP
       2017-10-12 12:04:02 +08:00
    @yangonee 我这个也有哇,只不过还没完善好
    jasondan
        32
    jasondan  
       2017-10-12 12:46:44 +08:00
    = =握爪,楼主。我之前也搞过类似的,不过不敢放给大家用
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3875 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 10:20 PVG 18:20 LAX 03:20 JFK 06:20
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86