Python 做爬虫对网页上的表格进行转存 Mysql，有什么轮子好用值得推荐？ - V2EX

Python 做爬虫对网页上的表格进行转存 Mysql，有什么轮子好用值得推荐？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

值得关注的项目

Stackless Python

结巴中文分词

Python 编程

Styles

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 2583 天前的主题，其中的信息可能已经有所发展或是发生改变。

我是在想，是否有什么现成的轮子，直接把页面上的表格，像是几何视觉光投影那样，直接照到下面的纸（ Mysql ）上成型（不必完美，至少都已经进了 mysql，后期修正这些也好做），不用把时间耗在研究 html 代码上，对 td,tr 去历遍，挑选读值.....
或者我这种思维是不对的
大家使用爬虫对表格进行处理，有何高招经验？

11 条回复 2019-01-31 14:37:55 +08:00

1

David1119

2019 年 1 月 30 日

3

pandas
读取：pd.read_html
保存：df.to_csv 或者 df.to_sql

2

xpresslink

2019 年 1 月 30 日

以我的实践经验来看最省事的方案是

scrapy + djangoitem + django ORM + Mysql

几乎只要写很少代码（通常几十行代码）就可以把网页数据入库了。

前提是你要会 django 和 scrapy，xpath 方法精熟。

3

AicherZX

2019 年 1 月 30 日

@xpresslink 为什么不是 scrapy + sqlalchemy + mysql

4

xpresslink

2019 年 1 月 30 日

@AicherZX 你非要这么说，还可以 peewee 或直接 pymysql 啊
这不是还有一个省事儿的约束条件么

5

locoz

2019 年 1 月 30 日

@David1119 #1 卧槽，pandas 还有这种东西，666666，这效果也太好了

6

locoz

2019 年 1 月 30 日

2 楼说的这个应该是对 html 上的表格最好的解析方式之一了，用之前爬过的一个表格页测试了一下
http://data.eastmoney.com/stock/tradedetail/2019-01-30.html，虽然这个页面是 js 生成的表格但用来测试的话挺合适的，效果如下：

丢进去 html 字符串让它解析，一行出结果

7

xiaozizayang

2019 年 1 月 31 日

表格的标签很明显，写一个针对此情况的通用爬虫不难

8

yanzixuan

2019 年 1 月 31 日

@xpresslink 我写爬虫都是自己撸。requests+parsel+sqlalchemy+mongodb。
mongodb 作为测试环境，随便搞不用担心字段问题。
然后导出 mongodb 的表，自动生成 sqlalchemy 的表。
生产环境用 mysql

9

xpresslink

2019 年 1 月 31 日

@yanzixuan 爬虫其实没有什么一定之规，都是用最省事儿的方案实现了再说，因为人家页面没准过两天就改版了。
更不要说有反爬虫的方案了。

10

wwg1994

2019 年 1 月 31 日

@locoz 代码是这样吗：pd.read_html('http://data.eastmoney.com/stock/tradedetail/2019-01-30.html')，我怎么得到的是一个空列表

11

d5

2019 年 1 月 31 日

powerbi

关于帮助文档自助推广系统博客 API FAQ Solana 3394 人在线 最高记录 6679

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 28ms UTC 04:48 PVG 12:48 LAX 20:48 JFK 23:48
Do have faith in what you're doing.

ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86