数据开发纯小白,想问个问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
macvis
V2EX    程序员

数据开发纯小白,想问个问题

  •  
  •   macvis 2023-07-22 21:29:34 +08:00 1453 次点击
    这是一个创建于 817 天前的主题,其中的信息可能已经有所发展或是发生改变。

    hdfs 可以存储文件对象,就是 jpg doc xls avi 这种纯文件,

    hadoop 具有 hdfs 文件系统管理功能,

    hive 则是 hadoop 的 hql 管理版增强包,

    那么推论则是,hive 可以通过 hql 来管理 hdfs 内的文件对象

    但是呢,我看 hive 的建表文件一定要有个分隔符,而且不管是 textfile 还是 sequencefile 都要有分隔符,要么逗号要么\001 ,那么 hive 在写入数据是一定会去解析文件吗?

    换言之,如果我想用 hive 来实现文件对象的管理,就是用 hql 来查询文件对象,即 doc xls jpg 这种纯文件,hive 能实现吗

    9 条回复    2023-07-23 12:49:49 +08:00
    F281M6Dh8DXpD1g2
        1
    F281M6Dh8DXpD1g2  
       2023-07-22 21:35:22 +08:00
    你要读 excel 自己写个 serde 就行了
    hive 管理的是数据不是文件,jpg 你也可以当成数据,不过没啥意义
    macvis
        2
    macvis  
    OP
       2023-07-22 21:38:58 +08:00
    @liprais 突然明白了,我不必拘泥于文件格式,写入读取时关注序列化与反序列化,要存取什么使用对应的 serde 就好了,对吧
    Alias4ck
        3
    Alias4ck  
       2023-07-22 21:45:22 +08:00
    你这种非结构化的数据 ,hive 是无法处理的,
    对于传统的 RDBMS 处理这种数据的方式也是基本存储对应的文件路径,也不会直接解析二进制数据
    你真的想在 hadoop 上存储这个的话 ,你可能需要的是 hbase 或者 es
    不过主流方案也是存储它在 hdfs 上面的路径吧
    rrfeng
        4
    rrfeng  
       2023-07-22 21:49:38 +08:00 via Android
    hdfs 是 ext4
    hive 是 mysql

    这样对比是不是容易理解了
    macvis
        5
    macvis  
    OP
       2023-07-22 21:56:38 +08:00
    @rrfeng 这个我就秒懂了
    macvis
        6
    macvis  
    OP
       2023-07-22 21:56:56 +08:00
    @Alias4ck 谢谢哈, 我去看看 hbase
    rrfeng
        7
    rrfeng  
       2023-07-22 21:58:38 +08:00 via Android
    HBase 是 MongoDB 。

    不如说一下你的原始需求
    macvis
        8
    macvis  
    OP
       2023-07-22 22:04:47 +08:00
    @rrfeng 公司要搞一个数据中台,接入其他部门的数据,结构化的非结构化的都要存。
    xue777hua
        9
    xue777hua  
       2023-07-23 12:49:49 +08:00
    可以实现 增加一个 udf 就行 用来解析文件
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1679 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 16:15 PVG 00:15 LAX 09:15 JFK 12:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86