喜欢写爬虫,感觉好难找工作 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
liangmishi
V2EX    Python

喜欢写爬虫,感觉好难找工作

  •  
  •   liangmishi 2016-07-06 21:07:44 +08:00 21604 次点击
    这是一个创建于 3442 天前的主题,其中的信息可能已经有所发展或是发生改变。
    学了很长一段时间 web ,自己用 tornado 做过博客,但是更喜欢爬虫

    可是工作感觉很难找,纠结要不要重新拿起 web
    75 条回复    2016-12-15 00:26:29 +08:00
    chimingphang
        1
    chimingphang  
       2016-07-06 21:15:22 +08:00
    大数据?
    Soar360
        2
    Soar360  
       2016-07-06 21:19:25 +08:00
    Web 是条不归路。
    practicer
        3
    practicer  
       2016-07-06 21:22:30 +08:00
    我写爬虫多一点,打算用它来找工作,但不是因为兴趣,只因用它作为转行的切入点。相比 web ,爬虫有这么几个优点:技能要求稍微低一点、竞争低( PHP,JAVA...)、和我现岗位属于一个行业(数据分析)。楼主既然因为兴趣做爬虫,应该比我用心多了,共勉吧。加微信交流 nickysher
    katyang
        4
    katyang  
       2016-07-06 21:32:23 +08:00
    搭车问, web 好找工作吗?
    verydxz
        5
    verydxz  
       2016-07-06 21:33:07 +08:00
    如果能深入,肯定比 web 好。问题就是会写一般地爬虫的到处都是,看 LZ 多厉害了。
    dexterzzz
        6
    dexterzzz  
       2016-07-06 21:34:10 +08:00
    把 excel , sql , pandas 学好。
    用爬虫爬数据存数据库,做数据分析,挖掘。
    Xrong
        7
    Xrong  
       2016-07-06 21:34:52 +08:00   1
    是喜欢拿到数据的快感吧
    dexterzzz
        8
    dexterzzz  
       2016-07-06 21:35:00 +08:00   1
    liangmishi
        9
    liangmishi  
    OP
       2016-07-06 22:06:54 +08:00
    @Soar360 不归还那么多人走

    @chimingphang 有打算
    liangmishi
        10
    liangmishi  
    OP
       2016-07-06 22:10:50 +08:00
    @katyang 相比写爬虫会来得好找

    @verydxz 是的,一般的爬虫很多人都会写,还是要看技能点了(还在加深难度)

    @Xrong 确实有点喜欢
    justou
        11
    justou  
       2016-07-06 22:12:55 +08:00
    @dexterzzz
    有了 python 跟一系列 py 的工具还有必要学 excel 么
    曾经打算学好 office 套, 后来用了 python 跟 latex 后就没管过了...
    liangmishi
        12
    liangmishi  
    OP
       2016-07-06 22:14:55 +08:00
    @dexterzzz thanks ,明白了,抓数据和分析数据都是绑一起的
    exoticknight
        13
    exoticknight  
       2016-07-06 22:15:39 +08:00   1
    顺便搞搞数据分析,大把世界
    rogwan
        14
    rogwan  
       2016-07-06 22:28:37 +08:00
    Web 涉及的技术环境更多、更复杂,没有做爬虫来的单纯些。
    katyang
        15
    katyang  
       2016-07-06 22:30:26 +08:00
    @exoticknight 做爬虫并搞数据分析,这有可能单干吗?就是不去公司,自己远程工作之类
    pc10201
        16
    pc10201  
       2016-07-06 22:34:35 +08:00
    个人觉得做 web 比做爬虫轻松一些~
    binux
        17
    binux  
       2016-07-06 22:55:00 +08:00   1
    并不难找啊,有需求的公司那么多,从创业公司到百度都可以啊。
    dtfm
        18
    dtfm  
       2016-07-06 23:04:36 +08:00   1
    我也是喜欢搞爬虫,没事爬爬微博、搞搞知乎之类,与反爬虫做斗争其乐无穷。
    但光凭这个,好像不太是公司的需求,需要 python 数据挖掘的公司很多,但爬虫只是其中的一个很小的模块,更重要的数据分析,要通过这个找工作的话,感觉技能点点歪了。
    notgod
        19
    notgod  
       2016-07-06 23:13:08 +08:00 via iPhone
    会爬数据 自己做站 一个月几万很容易赚到的好吧
    一天 2 小时就够了 .....
    MyFaith
        20
    MyFaith  
       2016-07-06 23:15:47 +08:00
    不是有个职业叫 数据挖掘师 吗?
    suber
        21
    suber  
       2016-07-06 23:21:52 +08:00 via iPhone   1
    同想做爬虫,正打算找这方面的工作。现在是做 Java 开发,不知道换方向就业情况什么样。楼主找了很长时间吗
    anexplore
        22
    anexplore  
       2016-07-06 23:25:19 +08:00 via iPhone
    爬虫没那么容易搞吧
    2642375043
        23
    2642375043  
       2016-07-06 23:38:35 +08:00
    @notgod 怎么赚
    tscat
        24
    tscat  
       2016-07-07 00:02:05 +08:00 via iPhone
    @notgod 有没有做成的网站给个参考。。做过几个站,一直没入门的感觉。
    yehon
        25
    yehon  
       2016-07-07 00:30:10 +08:00 via iPhone   1
    请联系我 zhangyafeng # meizu.com
    dtfm
        26
    dtfm  
       2016-07-07 00:41:47 +08:00
    @notgod 有这样搞的案例么,我想学习一下模式?独立网站现在能一个月挣几万,靠爬数据恐怕有点难吧。
    redhatping
        27
    redhatping  
       2016-07-07 00:45:59 +08:00 via iPhone   1
    跟我联系 可以 soho 上班 18001@go-enter.cn
    notgod
        28
    notgod  
       2016-07-07 07:00:01 +08:00   4
    @dtfm
    @tscat
    @2642375043

    对于你们这么问的方式 我确实无法回答
    路是自己走的 并且只能找到适合自己的路
    唯一的前提是你具备赚多少钱的能力, 如果你没那个底子和学习能力
    把百度给你 3 天也能玩到倒闭

    这种所谓的参考 是不具备意义的 给你一个站 你只会去模仿
    没创新 靠数据堆砌 毫无意义

    这里说的是谷歌 非百度
    如果你打算做 建议你学习基础的搜索引擎优化 和基础的自然语言处理
    然后哪怕使用 wordpress 去采集数据 处理数据 入库
    1 个月
    10 个站 = 1 万 IP
    100 个站 = 10 万 IP
    10 万 IP 差不多一个月收入在$2k 左右了
    平均一个网站 1000 个 IP 一天不难吧?

    才开始肯定会浪费些时间 走些弯路 交些学费 为错误买单
    这些都是以后的宝贵经验

    不要指望别人从头到尾的告诉你怎么做 真的没什么用的
    也不要看到别人月收入多少多少$ 其实别人才开始的努力 通宵通宵的学习时间 你们看不到
    什么都有代价的
    tscat
        29
    tscat  
       2016-07-07 07:25:37 +08:00 via iPhone
    @notgod 感谢指点。懂了
    clearbug
        30
    clearbug  
       2016-07-07 08:30:25 +08:00 via Android
    @notgod 不会发生侵权么?
    murmur
        31
    murmur  
       2016-07-07 08:58:00 +08:00
    爬虫现在我感觉已经做到瓶颈了 首先这么多的数据拿来干嘛没有明确目的 二是越来越多的网站要求注册甚至付费
    爬数据的门槛越来越高了 未来应该是那些网站自己卖自己的数据。。
    XianZaiZhuCe
        32
    XianZaiZhuCe  
       2016-07-07 08:59:17 +08:00 via iPhone
    又他妈在跳大神 真烦这种人
    redhatping
        33
    redhatping  
       2016-07-07 09:06:38 +08:00
    @murmur 注册.... 难道我们的技术不要继续上升一步
    ikaros
        34
    ikaros  
       2016-07-07 09:14:05 +08:00
    你可以 @gouwudan/g 他们(还有几个类似张大妈,买个便宜货)在招这方面的好像 - - 去掉斜杠
    2642375043
        35
    2642375043  
       2016-07-07 09:29:17 +08:00
    @notgod 了解了
    zmrenwu
        36
    zmrenwu  
       2016-07-07 09:46:59 +08:00   1
    用个框架爬点数据的人太多了,想找好工作需要深入理解 js 和浏览器运行原理。
    duhui
        37
    duhui  
       2016-07-07 09:53:39 +08:00
    请问下, 你们说的爬虫是说的针对某个网站的爬,还是通用爬虫,根据关键字来爬呢
    pyengwoei
        38
    pyengwoei  
       2016-07-07 10:04:05 +08:00
    @notgod 能分享下吗,我这就是有很多爬来的东西 还不知道怎么切入
    learnshare
        39
    learnshare  
       2016-07-07 10:25:18 +08:00   1
    爬数据不是个正经工作,数据分析才算吧
    Verydiao
        40
    Verydiao  
       2016-07-07 10:50:21 +08:00   1
    说起爬虫...我竟然买了火车头.......但是数据分析的话,还是得靠自由度更高的程序来实现,需要 python 自己编写。
    jasonlz
        41
    jasonlz  
       2016-07-07 11:00:15 +08:00   1
    爬虫只是手段,爬了之后做的事情才是关键,没有爬虫工程师,只有数据工程师。
    zhengkai
        42
    zhengkai  
       2016-07-07 11:19:06 +08:00   1
    只喜欢踢点球,哪个球队都不收我
    gouwudang
        43
    gouwudang  
       2016-07-07 11:39:37 +08:00   1
    楼主考虑南京么?我们有爬虫和日志分析岗位的需求,欢迎勾搭: [email protected]
    chesterwang
        44
    chesterwang  
       2016-07-07 11:40:17 +08:00
    @jasonlz
    sweb
        45
    sweb  
       2016-07-07 11:46:37 +08:00
    @notgod Google 一个站 1Kip/天还真不太好搞, 10 个站 1Wip/天 更不好搞了。
    Reign
        46
    Reign  
       2016-07-07 12:01:10 +08:00 via Android
    如果你能把爬虫验证码写个算法破解了,找工作就简单了
    chenkun0128
        47
    chenkun0128  
       2016-07-07 12:49:35 +08:00   1
    最终还是要分析挖掘数据的价值,不然只是爬没有实质意义
    notgod
        48
    notgod  
       2016-07-07 12:54:17 +08:00 via iPhone   1
    @clearbug 侵权的问题很容易解决
    2 个方案
    1 直接使用俄罗斯 罗马尼亚服务器 没 dmca 问题
    2 内容放美国,
    真实内容放美国,
    俄罗斯 vps 安装一个 nginx 做反向代理美国内容

    为访问速度快,全部使用 cloudflare cdn 加速
    投诉都投诉到俄罗斯 罗马尼亚的 IP 。没 dmca

    这些都是我的积累。只是作为参考 让你少走弯路
    这样算不算解决了投诉问题? 为什么我这么聪明?而你还没想到?

    我又膨胀了 不说了 老板让搬砖去了 不然今天馒头都没了
    notgod
        49
    notgod  
       2016-07-07 12:57:11 +08:00 via iPhone   1
    @sweb 不难
    所以说你前期会先走些弯路 找到正确姿势 就不难了
    谷歌的 一般不太稳来源 流量一会高一会低
    我不会告诉你我每天谷歌来源多少流量的
    notgod
        50
    notgod  
       2016-07-07 13:06:20 +08:00 via iPhone
    好 我举个例子省的说我放卫星
    我以 jav 这个被越南人承包了谷歌排名前 n 页的例子来说

    卫道士免入

    搜索
    挂 ss 的 谷歌加 ncr 以后
    搜索 jav +图书馆 的英文

    得到一个网站
    数据来源 日本 dmm 。每天流量看 alexa

    其他的 搜索 jav
    排名前的 me 域名的 那些站 每个月收入不低于$5 万
    网站流量推测可以使用
    https://www.similarweb.com/
    这个工具计算网站真实流量相对精准
    注意 web 和 mobile 是分开的
    看看他们流量占比国家 根本和中国没什么事 全日本 美国 欧洲。这样的流量价格是中国的 3-5 倍


    这些站都不是我的 都越南团伙做的

    学无止境 抱着学习的态度 接受所有信息 提取对自己有用的
    保持学习的精神 善良些 友善些
    notgod
        51
    notgod  
       2016-07-07 13:07:58 +08:00 via iPhone
    @pyengwoei 见上贴
    其他不方便说太多 可以加我微信 私下交流
    见主页 博客 头像 扫码加我
    pypy
        52
    pypy  
       2016-07-07 13:09:15 +08:00   1
    @liangmishi 真想找这样的工作,请留下联系方式。立刻可以有面试机会。地点魔都。
    h4x3rotab
        53
    h4x3rotab  
       2016-07-07 13:22:32 +08:00 via iPhone
    国内为什么对爬虫需求这么大
    peter999
        54
    peter999  
       2016-07-07 13:23:33 +08:00   1
    去金融公司应聘,需要抓各种网站数据来增信,需求量很大
    liangmishi
        55
    liangmishi  
    OP
       2016-07-07 13:42:41 +08:00
    @pypy jtwmyddsgx 163.com
    liaa
        56
    liaa  
       2016-07-07 14:03:30 +08:00   1
    @liangmishi
    楼主我就帮你 @一下这个写爬虫的人: @binux ,他都在楼上回你贴了~居然不抱下大腿
    liangmishi
        57
    liangmishi  
    OP
       2016-07-07 14:37:56 +08:00
    @binux 蹲了很多天 v2 的招聘帖,基本上都是 web ,这才会纠结,大腿,让我抱抱你可好,不然总有孤身奋战的感觉
    liangmishi
        58
    liangmishi  
    OP
       2016-07-07 14:40:39 +08:00
    @suber 没找很长时间,长期潜水在 v2 上,感觉都是 web
    pypy
        59
    pypy  
       2016-07-07 14:45:29 +08:00   1
    @liangmishi 已经给您发了邮件,请查收。期待您的加入。
    pyengwoei
        60
    pyengwoei  
       2016-07-07 15:26:59 +08:00
    @notgod 帖子里面看到有你的联系方式
    nealv2ex
        61
    nealv2ex  
       2016-07-07 15:27:23 +08:00   1
    楼主是希望
    找一个工作学习怎么写爬虫,
    找一个工作是做爬虫相关事情的。
    这两种差别还挺大的。
    没有找到 lz 擅长爬虫的相关信息。
    practicer
        62
    practicer  
       2016-07-07 15:48:21 +08:00   1
    坐标广州,这边招爬虫的一是电商公司,二是外包做网站的公司,三是金融行业
    impig33
        63
    impig33  
       2016-07-07 16:09:06 +08:00
    @notgod 好点子
    liangmishi
        64
    liangmishi  
    OP
       2016-07-07 17:02:33 +08:00
    @nealv2ex 简单的说,更倾向于找一个爬虫团队,有人带着我干活
    CharlesL
        65
    CharlesL  
       2016-07-07 18:30:30 +08:00   1
    看一下百分点是否有招人,专业搞大数据的公司,好像有个爬虫团队。
    lanceyan
        66
    lanceyan  
       2016-07-07 18:52:59 +08:00   1
    成都有机会,公司专门做爬虫 ,有意向联系 [email protected]
    网址 http://hyfay.com
    TaMud
        67
    TaMud  
       2016-07-07 19:00:21 +08:00   1
    爬虫,又不是特别难的技术,有的公司叫个老员工,很快就能写出来了
    hunk
        68
    hunk  
       2016-07-07 20:00:23 +08:00   1
    感觉写爬虫是基础,做数据分析才是重头戏。两者兼顾才有市场。
    liangmishi
        69
    liangmishi  
    OP
       2016-07-07 20:57:50 +08:00
    @TaMud 是的,基本的爬虫只要几行代码。
    Matrixbirds
        70
    Matrixbirds  
       2016-07-07 21:12:09 +08:00   1
    你爬草榴啊做个毛站 自己赚钱做大老板
    suber
        71
    suber  
       2016-07-07 22:25:12 +08:00 via iPhone
    @liangmishi 的确大部分都是 web ,你是应届吗
    teikasen
        72
    teikasen  
       2016-07-07 22:28:57 +08:00
    @notgod 你好,想加微信进一步交流,谢谢
    nik
        73
    nik  
       2016-11-16 15:10:03 +08:00
    @liangmishi 找到爬虫工作了吗?我们公司现在需要爬虫工程师,不知你是否在北京?
    liangmishi
        74
    liangmishi  
    OP
       2016-11-16 19:37:44 +08:00 via Android
    @nik 找到了,不在北京,感谢^_^
    yongjiu236z
        75
    yongjiu236z  
       2016-12-15 00:26:29 +08:00
    有数据吗+Q2602560384
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2285 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 00:01 PVG 08:01 LAX 16:01 JFK 19:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86