爬虫爬到的大量图片是直接放到数据库中还是放到文件系统中? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
shoumu
V2EX    程序员

爬虫爬到的大量图片是直接放到数据库中还是放到文件系统中?

  •  
  •   shoumu
    shoumu 2013-07-26 17:41:13 +08:00 9641 次点击
    这是一个创建于 4462 天前的主题,其中的信息可能已经有所发展或是发生改变。
    30 条回复    1970-01-01 08:00:00 +08:00
    mazesoul
        1
    mazesoul  
       2013-07-26 17:43:52 +08:00
    文件系统
    pubby
        2
    pubby  
       2013-07-26 17:47:42 +08:00   1
    看多大量以及后续怎么用

    我这边是直接扔leveldb中
    linzhi
        3
    linzhi  
       2013-07-26 18:17:20 +08:00
    放到文件系统是什么意思 求科普
    reusFork
        4
    reusFork  
       2013-07-26 18:18:36 +08:00
    文件系统也是数据库
    shoumu
        5
    shoumu  
    OP
       2013-07-26 19:48:48 +08:00
    @pubby 会对每一张图片进行处理,后面可能涉及到少量图片的查找,显示
    shoumu
        6
    shoumu  
    OP
       2013-07-26 19:49:20 +08:00
    @linzhi 就是数据库中存放图片的路径,图片存放到系统的某个目录下
    shoumu
        7
    shoumu  
    OP
       2013-07-26 19:49:32 +08:00
    @reusFork 文件系统不是数据库吧
    JimGee
        8
    JimGee  
       2013-07-26 20:39:33 +08:00
    图片放在数据库中好像是二进制形式的。存入和读出还要经过转换的。
    zippera
        9
    zippera  
       2013-07-26 20:56:23 +08:00
    @JimGee 放在文件系统。如果需要调用,那么再处理一下文件名存入数据库。
    loveminds
        10
    loveminds  
       2013-07-26 21:19:51 +08:00
    当然是文件系统中,把图片丢进数据库不太方便
    soli
        11
    soli  
       2013-07-26 21:23:32 +08:00
    如果是小图片,则几个图片写到一个文件中,然后在数据库里记录文件名和偏移。
    JimGee
        12
    JimGee  
       2013-07-27 23:18:33 +08:00
    @zippera 我讲了图片直接放在数据库中的缺点,就是为了引出文件系统的好处哟。

    @soli 也可以读出的时候用CSS偏移或旋转,就不用在数据库中做标记了。
    scusjs
        13
    scusjs  
       2013-07-27 23:25:34 +08:00   1
    文件系统+数据库索引
    reusFork
        14
    reusFork  
       2013-07-28 09:03:40 +08:00
    @JimGee 他说的偏移跟你理解的偏移不是一回事
    refresh
        15
    refresh  
       2013-07-28 09:12:55 +08:00
    mongodb欢迎你
    zzWinD
        16
    zzWinD  
       2013-07-28 09:38:59 +08:00 via Android
    我们用的是mongodb grifs 不知道
    mckelvin
        17
    mckelvin  
       2013-07-28 10:50:15 +08:00 via Android
    总共5G左右的图,笔者后来选择了存文件系统,分目录。
    shoumu
        18
    shoumu  
    OP
       2013-07-28 15:40:20 +08:00
    @refresh
    @zzWinD
    我也用的是mongodb,但是不知道讲图片直接存到数据库中还是存它的地址哪种的效率更好
    Alexisused
        19
    Alexisused  
       2013-07-28 17:03:39 +08:00
    请问你爬的是煎蛋的妹子图么^_^ , 如果是跟大家分享一下呗
    shoumu
        20
    shoumu  
    OP
       2013-07-28 17:07:03 +08:00   1
    @Alexisused
    爬人人的头像相册,爬妹子图是个好想法,你写个呗,^_^
    manoon
        21
    manoon  
       2013-07-28 17:30:26 +08:00
    @shoumu goodidea!
    Alexisused
        22
    Alexisused  
       2013-07-28 21:08:05 +08:00
    @shoumu 最近压力大啊 都是加班的节奏 没心思爬 靠你了
    lewisc402
        23
    lewisc402  
       2013-07-28 22:30:16 +08:00
    咨询下LZ 用的是什么样的爬虫啊??是基于scrapy这样的框架的基础上的?还是全部自己写的?
    xinrui5577
        24
    xinrui5577  
       2013-07-29 12:04:02 +08:00
    求楼主的代码。。我也想要一个。
    4BVL25L90W260T9U
        25
    4BVL25L90W260T9U  
       2013-07-29 13:53:04 +08:00 via Android
    很早之前爬过煎蛋妹子图,过了好久了,再爬一次试试
    cevincheung
        26
    cevincheung  
       2013-07-29 14:32:57 +08:00
    mongodb路过
    xdyl
        27
    xdyl  
       2013-07-30 11:17:44 +08:00
    FastDFS
    cxshun
        28
    cxshun  
       2013-07-30 13:29:50 +08:00
    @Alexisused 哈哈,这个好想法,这段时间正好在想有啥东西可以去做做,构思一下。
    wodemyworld
        29
    wodemyworld  
       2013-07-30 13:33:50 +08:00   1
    请扔mongodb,分布式存储,这对将来的分析和综合都有好处,要不以后改起来的话能头痛死你

    以往的做法是,每张图片有很多的tag,全靠tag来提供信息,检索、分类等都有很好的效果,当然了,前提是你已经有tag系统了,这个你要是没有的话就先别做了,这个工作量不小~
    Alexisused
        30
    Alexisused  
       2013-07-31 10:09:55 +08:00
    @cxshun 好好搞 骚年 我坐等现成的了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     948 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 19:32 PVG 03:32 LAX 12:32 JFK 15:32
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86