在本机用 Python 做数据挖掘,大家一般用什么数据库? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
huzhikuizainali
V2EX    Python

在本机用 Python 做数据挖掘,大家一般用什么数据库?

  •  
  •   huzhikuizainali 2021-04-22 21:24:05 +08:00 3141 次点击
    这是一个创建于 1634 天前的主题,其中的信息可能已经有所发展或是发生改变。
    考虑到数据的安全性,排除租用云的情况。如果在本机做数据挖掘。大家一般用什么数据库?是 mysql ?还是 sql server ?(收费版? express ?)为什么?希望根据自己的实际工作需求,给出优点和槽点。
    16 条回复    2021-04-23 12:42:26 +08:00
    noqwerty
        1
    noqwerty  
       2021-04-22 22:01:56 +08:00 via Android
    SQLite 和 clickhouse
    hellogitooxx
        2
    hellogitooxx  
       2021-04-22 23:25:54 +08:00
    mysql
    vertigo
        3
    vertigo  
       2021-04-22 23:33:46 +08:00
    问就是 mongodb,自由的一批
    huzhikuizainali
        4
    huzhikuizainali  
    OP
       2021-04-22 23:36:42 +08:00 via iPad
    @noqwerty 求分享。和 mysql 对比如何?优势是什么? SQLite 和 clickhouse 中文知识生态如何?
    huzhikuizainali
        5
    huzhikuizainali  
    OP
       2021-04-22 23:37:33 +08:00 via iPad
    @vertigo 具体好在哪里。求分享。
    ipwx
        6
    ipwx  
       2021-04-22 23:42:38 +08:00
    做算法的一般不用数据库。。。。

    结构化的数据用传统数据库也没用(比如 Knowledge Graph 知识图谱)
    vertigo
        7
    vertigo  
       2021-04-22 23:43:46 +08:00   1
    @huzhikuizainali 如果只是本地挖掘,而不是生产环境批量搞.其实对数据的各种维度变化和存储结构变化更多(毕竟是随着想法变),例如分析一组消费数据,一会想存用户年龄,一会又想存用户留存.用 mongo 就直接在程序里加个字段即可(关系型数据库基本只能重新建表),同时因为本身的 bson 格式存储,可以直接扔各种 json 格式数据进去且方便多层检索.

    总体而言就是自由,轻量化,不会因为种种条框打断更重要的思考过程(俗称一把梭)
    huzhikuizainali
        8
    huzhikuizainali  
    OP
       2021-04-22 23:48:55 +08:00 via iPad
    @vertigo 谢谢分享。数据库入门有什么推荐的书籍。不涉及某一特定数据库。也不是上来就教 sql 语言。(不排斥以特定数据库,特定语言为主线进行讲解。但最好面能广一些)通过案例来普及一些数据库常识性知识。不抽象。
    noqwerty
        9
    noqwerty  
       2021-04-23 00:14:52 +08:00 via Android
    @huzhikuizainali 这要看你数据量和结构,本地如果数据量不大的情况我个人认为没必要 MySQL/PostgreSQL,SQLite+pandas 足够应对大多数需求。

    提到 clickhouse 是因为我们之前的一组数据需要 columnar database,MySQL 超过 4096 列就不支持了。
    huzhikuizainali
        10
    huzhikuizainali  
    OP
       2021-04-23 00:49:41 +08:00 via iPad
    @noqwerty 谢谢分享。数据库入门有什么推荐的书籍。不涉及某一特定数据库。也不是上来就教 sql 语言。(不排斥以特定数据库,特定语言为主线进行讲解。但最好面能广一些)通过案例来普及一些数据库常识性知识。不抽象
    knightdf
        11
    knightdf  
       2021-04-23 09:48:38 +08:00
    csv
    es
    buliugu
        12
    buliugu  
       2021-04-23 09:49:44 +08:00
    py 做数据挖掘用啥数据库?当然是 csv 啦(逃
    z740713651
        13
    z740713651  
       2021-04-23 10:34:27 +08:00
    csv +1 后面也可以对接 hdf5
    mongo 也很舒服
    丑 sql 真的好麻烦
    MinQ
        14
    MinQ  
       2021-04-23 10:57:53 +08:00
    csv+10086
    princelai
        15
    princelai  
       2021-04-23 12:09:13 +08:00
    我主要是时序数据,所以选择了 timescaledb,其实就是 postgresql 魔改版本,所以其他数据基本都入到我这个库里了,本地小数据我都用 pandas 输出为 parquet/feature,读写非常快,压缩比也很高
    leven87
        16
    leven87  
       2021-04-23 12:42:26 +08:00
    一般就是 CSV 就好,先数据清洗整理,生成一个符合要求的 csv,方便下次调用
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     943 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 22:58 PVG 06:58 LAX 15:58 JFK 18:58
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86