如何高效的遍历一个海量视频的文件夹获取所有视频 Metadata? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
tinypig
V2EX    Python

如何高效的遍历一个海量视频的文件夹获取所有视频 Metadata?

  •  
  •   tinypig 2016 年 12 月 18 日 4179 次点击
    这是一个创建于 3315 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需要统计服务器上的视频信息,写了个脚本,使用 MediaInfo 获取视频信息,但是因为文件数量比较多,便利效率比较低(单进程每秒 1.5 个文件),后来使用了 Multiprocessing 多进程,可以达到效率是高了,但是一个小时也才能获取到 1.5 万左右的文件信息。

    求问,有什么比较好的方法可以较高提高效率么?

    注:视频文件在文件服务器上,千兆网络挂载过来,使用了 Multiprocessing 后,遍历时速度带宽大约到了 800~900M,主要代码如下:

    pool_size = multiprocessing.cpu_count() * 2 - 4 with multiprocessing.Pool(pool_size) as Pool: walk = os.walk(path) fn_gen = itertools.chain.from_iterable((os.path.join(root, file) for file in files) for root, dirs, files in walk) Pool.map(video_handler, fn_gen) 
    10 条回复    2016-12-19 10:03:53 +08:00
    mrytsr
        1
    mrytsr  
       2016 年 12 月 18 日 via Android
    ffprobe
    Septembers
        2
    Septembers  
       2016 年 12 月 18 日   2
    用 pymediainfo 然后在本地执行
    (只是获取 mediainfo 并不需要完整读取文件
    (但是你通过网络挂载的话可能不支持 seek 导致需要读取完整文件
    (这或许是主要导致慢的原因
    264768502
        3
    264768502  
       2016 年 12 月 18 日 via Android   1
    这个 io 是瓶颈,试试多线程的线程池(可以试试开到 10 以上)+pymediainfo(mediainfo 的源代码里有 python 的用例)
    网络挂载是 smb/nfs/webdav/ftp?
    tinypig
        4
    tinypig  
    OP
       2016 年 12 月 18 日
    @Septembers
    @264768502
    用的是 pymediainfo ,通过 cifs 挂载的。
    cpu 每个核的负载都是在 30~50%这样
    264768502
        5
    264768502  
       2016 年 12 月 18 日 via Android   1
    如果有机会的话可以换个协议么,比如 nfs

    说 cpu 负载是说本地还是服务器的呢
    cifs/smb 也有可能是服务器单核性能的瓶颈

    另外最好是用协程的 pool,会比线程进程池更高效.(除非视频处理跟复杂,那样的话还是用进程池)
    tinypig
        6
    tinypig  
    OP
       2016 年 12 月 18 日
    @264768502
    CPU 负载是说本地负载。
    我昨天试过用 Gevent.Pool ,效率不高,跟单进程的差不多,也有可能是我用的方式不对,我只是把上面 Multiprocessing 的 pool 换成了 gevent 的 pool 。
    Septembers
        7
    Septembers  
       2016 年 12 月 18 日 via iPad
    @tinypig 建议放置在 远程执行
    goodniuniu
        8
    goodniuniu  
       2016 年 12 月 18 日 via iPhone
    明天回去试试代码,感觉瓶颈在网络上
    SlipStupig
        9
    SlipStupig  
       2016 年 12 月 19 日   1
    这种东西本身就是需要一个高 IO 的问题,有条件换成 HDFS (能配 ssd 就更好了) MapReduce 会快很多,不可能换的话,几个方面考虑:
    1.使用 pypy
    2.不要把文件下回来然后处理,最好能在远程处理完
    3.视频读取媒体信息不需要完整读取的,所以直接解析文件头部就可以得到了,如果不想自己写解析函数,如果读取大文件的时候可以用 mmap 去读取而不是直接 fopen
    4.用 gevent ,记得先得使用 monkey patch 否则无效
    tinypig
        10
    tinypig  
    OP
       2016 年 12 月 19 日
    @SlipStupig
    1. 使用扫描脚本是写在 Django admin 的 commands 里,方便操作数据库 :)所以之前没考虑用 pypy
    2. 这个业务只是一个外部统计使用的,所以没有办法部署到相应的文件服务器上,只能通过网络挂载。
    3. 我现在使用的获取媒体信息的库是 MediaInfo (对应的 pymediainfo ),看介绍他应该就是只下载一部分内容即可的,稍后我测试一下看看。
    4. 这一点好像我忽略了,只是替换了它的 Pool ,稍后我尝试一下。

    感谢。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     930 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 22:11 PVG 06:11 LAX 14:11 JFK 17:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86