Python 做爬虫对网页上的表格进行转存 Mysql,有什么轮子好用值得推荐? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
qazwsxkevin
V2EX    Python

Python 做爬虫对网页上的表格进行转存 Mysql,有什么轮子好用值得推荐?

  •  
  •   qazwsxkevin 2019 年 1 月 30 日 3216 次点击
    这是一个创建于 2583 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我是在想,是否有什么现成的轮子,直接把页面上的表格,像是几何视觉光投影那样,直接照到下面的纸( Mysql )上成型(不必完美,至少都已经进了 mysql,后期修正这些也好做),不用把时间耗在研究 html 代码上,对 td,tr 去历遍,挑选读值.....
    或者我这种思维是不对的
    大家使用爬虫对表格进行处理,有何高招经验?
    11 条回复    2019-01-31 14:37:55 +08:00
    David1119
        1
    David1119  
       2019 年 1 月 30 日   3
    pandas
    读取:pd.read_html
    保存:df.to_csv 或者 df.to_sql
    xpresslink
        2
    xpresslink  
       2019 年 1 月 30 日
    以我的实践经验来看最省事的方案是

    scrapy + djangoitem + django ORM + Mysql

    几乎只要写很少代码(通常几十行代码)就可以把网页数据入库了。

    前提是你要会 django 和 scrapy,xpath 方法精熟。
    AicherZX
        3
    AicherZX  
       2019 年 1 月 30 日
    @xpresslink 为什么不是 scrapy + sqlalchemy + mysql
    xpresslink
        4
    xpresslink  
       2019 年 1 月 30 日
    @AicherZX 你非要这么说,还可以 peewee 或直接 pymysql 啊
    这不是还有一个省事儿的约束条件么
    locoz
        5
    locoz  
       2019 年 1 月 30 日
    @David1119 #1 卧槽,pandas 还有这种东西,666666,这效果也太好了
    locoz
        6
    locoz  
       2019 年 1 月 30 日
    2 楼说的这个应该是对 html 上的表格最好的解析方式之一了,用之前爬过的一个表格页测试了一下
    http://data.eastmoney.com/stock/tradedetail/2019-01-30.html,虽然这个页面是 js 生成的表格但用来测试的话挺合适的,效果如下:

    丢进去 html 字符串让它解析,一行出结果
    xiaozizayang
        7
    xiaozizayang  
       2019 年 1 月 31 日
    表格的标签很明显,写一个针对此情况的通用爬虫不难
    yanzixuan
        8
    yanzixuan  
       2019 年 1 月 31 日
    @xpresslink 我写爬虫都是自己撸。requests+parsel+sqlalchemy+mongodb。
    mongodb 作为测试环境,随便搞不用担心字段问题。
    然后导出 mongodb 的表,自动生成 sqlalchemy 的表。
    生产环境用 mysql
    xpresslink
        9
    xpresslink  
       2019 年 1 月 31 日
    @yanzixuan 爬虫其实没有什么一定之规,都是用最省事儿的方案实现了再说,因为人家页面没准过两天就改版了。
    更不要说有反爬虫的方案了。
    wwg1994
        10
    wwg1994  
       2019 年 1 月 31 日
    d5
        11
    d5  
       2019 年 1 月 31 日
    powerbi
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3394 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 04:48 PVG 12:48 LAX 20:48 JFK 23:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86