scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Yingruoyuan
V2EX    Python

scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中

  •  
  •   Yingruoyuan 2017-07-04 14:10:52 +08:00 4890 次点击
    这是一个创建于 3072 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如淘宝信息,spider 抓取后写入一张商品表,一张店铺表,如何把抓取到的信息指定到对应的 pipeline 来写入不同的表?网上搜索的结果大多是说要 pipeline 对应 spider,我这个应该是反过来,让 spider 指定对应的 pipeline

    12 条回复    2017-07-04 16:09:46 +08:00
    seven2016
        1
    seven2016  
       2017-07-04 14:22:13 +08:00   1
    定义多个 item,然后在 pipline 解决就可以了
    knightdf
        2
    knightdf  
       2017-07-04 14:22:58 +08:00
    if spider.name != spider1:
    return item

    每个 pipeline 只处理对应的 spider 数据就行了
    Yingruoyuan
        3
    Yingruoyuan  
    OP
       2017-07-04 14:32:35 +08:00
    @seven2016 我有定义 item 及 pipeline 来对应不同的表结构,但是不明白在 spider 中把指定的数据输入到指定的表中?我现在遇到了所有的数据都输入到一张表中,另外一张表没有数据输入的现象
    @knightdf ,可以一个 spider 抓取多个 pipeline 的数据吗?因为涉及到关联的对应关系,想一起抓下来
    knightdf
        4
    knightdf  
       2017-07-04 14:40:45 +08:00
    @Yingruoyuan 可以,在不同的 parse callback 生成不同的 item 就可以了。
    你理解的方式不对,pipeline 只是对所有结果做处理的一个东西,属于结果输出路径上的一个点
    Yingruoyuan
        5
    Yingruoyuan  
    OP
       2017-07-04 14:52:13 +08:00
    @knightdf 我又 google 了一些资料,但是越看越迷糊了;
    生成了 item 之后,yield 传递到 pipeline,在 pipelines.py 我定义了多个 class 来处理不同的数据,但我在 spider 里面获取到数据后该怎么让对应的 pipeline 来处理呢?
    1130335361
        6
    1130335361  
       2017-07-04 15:02:49 +08:00
    Yingruoyuan
        7
    Yingruoyuan  
    OP
       2017-07-04 15:06:17 +08:00
    @1130335361 有指定呢,在 settings.py 里面和 spider 的 custom_settings = { 'ITEM_PIPELINES':{}}里都指定了呢,但是输出数据的时候会只输出到了一张表里,比如商品信息和店铺信息都写在了商品表里面
    1130335361
        8
    1130335361  
       2017-07-04 15:15:03 +08:00   1
    @Yingruoyuan 代码问题?
    knightdf
        9
    knightdf  
       2017-07-04 15:18:07 +08:00   1
    @Yingruoyuan 首先,没有“对应的 pipeline ”这个概念,pipeline 是对所有输出的 item 处理,当然你在 pipeline 里可以自己决定处理哪些 item,其次 spider 只管输出结构化的 item,不管被谁处理
    Yingruoyuan
        10
    Yingruoyuan  
    OP
       2017-07-04 15:50:26 +08:00
    @1130335361 @knightdf @seven2016,谢谢各位解惑!
    我找到原因了,我的问题是因为我自己写的 sqlarchemy 的 models 模块和 scrapy 的 items.py 冲突了,pipelines 里面用 models 代替了 item,所以会出现混乱的无法找到指定的 pipeline 来进行对应操作;
    解决方法是在 pipelines 中只保留一个 spider 对应一个 pipelines,这个 spider 的所有数据输出都经过这一个 pipeline 来处理,然后把各个 items 加入 pipelines.py 中,再利用 item.__class__做判断是哪一种 item 数据类型,来决定插入哪张表就可以解决了
    rebeccaMyKid
        11
    rebeccaMyKid  
       2017-07-04 15:58:12 +08:00
    两个月 scrapy 用户来回答一下,pipeline 本来的概念应该是直线型处理数据,不分开的。遇到比较复杂的情况,比如你这种,我一般都不用 pipeline,你 pipeline 也是输出一个 csv 而已,你就自己写两个 list,爬的时候写到类的静态变量里,然后在爬虫关闭的时候,再把字符串输出写到文件里就行了。不知道对你是否有帮助?
    Yingruoyuan
        12
    Yingruoyuan  
    OP
       2017-07-04 16:09:46 +08:00
    @rebeccaMyKid 谢谢,思路很有帮助;
    只是我用的是 sqlarchemy 来插入到 mysql 里面,如果写入到文件里,在爬取结束之后我还是要导入到数据库的,所以在性能可以承受的情况下,直接导入可能会更省事些
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     926 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 22:15 PVG 06:15 LAX 14:15 JFK 17:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86