求大佬指点,毕业一年的爬虫的职业发展 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
boom7
V2EX    程序员

求大佬指点,毕业一年的爬虫的职业发展

  •  
  •   boom7 2018-12-28 13:11:10 +08:00 via Android 5604 次点击
    这是一个创建于 2480 天前的主题,其中的信息可能已经有所发展或是发生改变。
    17 年毕业,来了现在的公司做爬虫,涨薪几次后现在到手 14k,社保公积金什么的交的少…这一年也写了不少爬虫,因为在学校学的安卓开发,所以工作里涉及到 App 逆向脱壳什么的也偶尔做一做,图片验证码和滑动验证码也用机器学习解决过(都是 google,然后参考大佬的代码撸一个出来),框架是公司 CIO 临时撸出来的,flask+celery+redis 做分布式,因为我是第一个 python 爬虫,所以框架就归我维护了,也一直在修修补补改框架的 bug。

    一直都有点迷茫,爬虫这职位好像没什么发展,过两年技术提升做爬虫架构师吧,市场好像也没什么需求。所以一直想转到隔壁数据科学组去,但是个人的数学能力 emmmm 一言难尽,机器学习的各种算法也是看得懵逼。

    因为这份工作着实不忙,每周 10,7,5 上班,周末双休,所以一直想学点别的东西,机器学习部分有在看吴恩达的课程和 tensorflow 官方教程,另外又觉得需要学门新的语言,于是又在学 golang。

    前些天和数据科学组的妹纸聊天,他们似乎很缺人,也在招人,转岗的念头又冒出来了,但又下不定决心。昨天发现 BI 组一位同事已经转岗到数据了,再次动心而我的数学确实差,大学的线性代数已经还给老师了,矩阵的加减乘除都搞不明白

    所以求大佬指点职业方向:
    1,继续做爬虫,工作很安逸,但是技术确实没什么上升空间。爬虫组刚任命了爬虫技术经理,当然不是我…所以职位上也不会有什么变动。但是工作确实很闲,大家上班都在划水。

    2,学 go,转后端。本来在学校我是学安卓开发的…所以 java 还算熟悉,但是确实不是很喜欢 java。最近在学 golang,它的发展似乎也还不错,转 golang 后端也是一条路。

    3,直接试试转去数据组,他们是用机器学习做评分卡,里边个个都是硕士不过之前和领导聊过,本科生也可以,并没有实际的学历要求,而且内部转岗可以先进组再学习。但是我的数学确实是硬伤,所以希望有熟悉机器学习的大佬指点一下。
    44 条回复    2019-02-15 13:55:39 +08:00
    claymore94
        1
    claymore94  
       2018-12-28 13:22:40 +08:00   1
    帮顶~
    boom7
        2
    boom7  
    OP
       2018-12-28 13:23:33 +08:00 via Android
    @claymore94 感谢
    bzzhou
        3
    bzzhou  
       2018-12-28 13:34:56 +08:00   1
    年轻可以去尝试,转之前,先花个 3 个月把西瓜书啃了
    要是啃不下来,还是继续做工程吧
    boom7
        4
    boom7  
    OP
       2018-12-28 13:46:41 +08:00 via Android
    @bzzhou 多谢指点,西瓜书之前有想看,但是急于求成,还是放下来去看了些速成教程。接下来会好好啃一啃这本书,再次感谢
    thursday
        5
    thursday  
       2018-12-28 13:54:04 +08:00   1
    顺路问下 做爬虫工作 做过 xposed hook 功能吗
    boom7
        6
    boom7  
    OP
       2018-12-28 13:59:41 +08:00
    @thursday #5 做过,不过不多。
    ARhen
        7
    ARhen  
       2018-12-28 14:08:08 +08:00   1
    果然没有对比就没有伤害
    同样 17 年毕业工作,不同的是我 java 干了爬虫 涨薪幅度和环境都让我羡慕..... 当然有差距是我自身原因啦~
    不过,老哥已经很棒了~
    ps:原来不止我觉得干爬虫有时候太摸鱼(小声 bb~
    boom7
        8
    boom7  
    OP
       2018-12-28 14:11:39 +08:00 via Android
    @ARhen 简直每天都在摸鱼
    lz850610
        9
    lz850610  
       2018-12-28 14:12:06 +08:00   1
    个人建议,选定一个目标。
    jiangnanyanyu
        10
    jiangnanyanyu  
       2018-12-28 14:13:28 +08:00 via Android   1
    到手 14k 羡慕,一年
    boom7
        11
    boom7  
    OP
       2018-12-28 14:13:46 +08:00 via Android
    @lz850610 我的问题就是,不知道选哪个目标其实更想搞机器学习,但是对自己信心不足,加上跳出舒适区的胆怯。
    boom7
        12
    boom7  
    OP
       2018-12-28 14:16:01 +08:00 via Android
    @jiangnanyanyu 也是最近才到 14,但每个月也不知道怎么就花没了
    cyhulk
        13
    cyhulk  
       2018-12-28 14:16:18 +08:00   1
    硕士毕业吗?
    boom7
        14
    boom7  
    OP
       2018-12-28 14:19:19 +08:00
    @cyhulk #13 本科,要是硕士的话我也就不纠结了,直接提申请转岗去了 hhh。
    cyhulk
        15
    cyhulk  
       2018-12-28 14:22:29 +08:00   1
    本科毕业的话,机器学习那么好转的吗?推荐转 go
    boom7
        16
    boom7  
    OP
       2018-12-28 14:24:15 +08:00
    @cyhulk #15 这也是我纠结的点 hhh,所以也在学 go,感谢
    HongJay
        17
    HongJay  
       2018-12-28 14:25:35 +08:00   1
    到手 14 还是牛皮啊。。
    boom7
        18
    boom7  
    OP
       2018-12-28 14:31:36 +08:00
    @HongJay #17 公积金社保蛮低的。工资现在看还可以,但是爬虫这个职位的话,之后工资似乎也不会有什么大的提升了 orz。。
    yang2yang
        19
    yang2yang  
       2018-12-28 14:34:44 +08:00
    怎么才能涨薪?(真诚脸)
    luckybo
        20
    luckybo  
       2018-12-28 14:34:46 +08:00   1
    想跟你了解了解爬虫的图片验证码和滑动验证码
    boom7
        21
    boom7  
    OP
       2018-12-28 14:38:30 +08:00
    @yang2yang #19 找个大方的公司? hhh
    dengtongcai
        22
    dengtongcai  
       2018-12-28 14:41:35 +08:00   1
    情况和你差不多。。不过我们这好像没什么好转的,哎。。很烦就
    yang2yang
        23
    yang2yang  
       2018-12-28 14:43:17 +08:00   1
    想跟大佬学习爬虫技术
    boom7
        24
    boom7  
    OP
       2018-12-28 14:45:29 +08:00
    @luckybo #20 baidu or google or github 搜一下,教程还是蛮多的。图像验证码简单的就二值化去噪切割然后
    tesseract 识别,麻烦点的直接上 tensorflow 训练模型就好。滑动的比较麻烦一点,贴个以前看过很有帮助的链接:
    https://www.zhihu.com/question/32209043/answer/228776686
    boom7
        25
    boom7  
    OP
       2018-12-28 14:47:15 +08:00
    @dengtongcai #22 我们做爬虫就是很烦 hhh,入门简单,但是后来就要很纠结后续发展
    boom7
        26
    boom7  
    OP
       2018-12-28 14:47:37 +08:00
    @yang2yang #23 大佬们都不做爬虫 orz。。。
    holajamc
        27
    holajamc  
       2018-12-28 15:29:55 +08:00   1
    羡慕大佬~也在做爬虫,不过还要兼职数据处理+部分 NLP 工作,在西安工资是大佬的 1/2,想溜)
    xiao38245
        28
    xiao38245  
       2018-12-28 15:33:13 +08:00   1
    我也有这个困扰, 同 17 年毕业,我倒是想直接转机器学习,但是最近看 tf 和傅里叶,实在 捉急,楼主什么打算,一起交流一下?
    glacer
        29
    glacer  
       2018-12-28 16:40:45 +08:00   3
    楼主你和我两年前几乎一模一样。
    我也是毕业后进入某厂做爬虫,做了一年多后跳槽做了后端。做爬虫期间也做了不少破解工作,像验证码,js 加密破解,APP 的逆向等。
    当时做久了觉得这份工作很无聊,平时的工作基本都是在做爬虫的修修补补,应对对方的反爬虫策略。业绩上我们基本都是背锅侠,一旦数据出了问题我们要第一时间顶上,数据没问题的时候就是理所应当。不过现在回想起来其实并不是那么无聊。很多人觉得写爬虫没有一点技术含量,没错,写一个爬虫确实很简单,但写一个「优雅」的爬虫却并不简单。一个靠浏览器模拟爬取的爬虫怎么能喝一个通过破解加密直接请求 API 的爬虫比呢?我在那一年的爬虫工作中最大的收获并不是写爬虫这个技能,而是在爬数据的过程中额外接触到的多个层面的知识。像 HTTP 协议,Javascript,图像处理,机器学习,逆向等等,以及一些爬虫架构和服务,像去重、调度分发、断点续爬、分布式、缓存、数据库等,还有与其他数据上下游的合作中熟悉的整个数据处理流程和一些大数据的知识。这些基本都是在那一年的爬虫工作中获取到的知识,也是我现在能转型后端的一个原因。这份工作给我带来的不是某个专精的技能,而是拓宽的知识面。
    在目前的大环境下,我还是不建议主业做爬虫,前景不是很明朗(合法性)。楼主可以多利用业余时间学一些感兴趣的方向转型,多去试试总会成功的。
    qianc1990
        30
    qianc1990  
       2018-12-28 17:24:33 +08:00   1
    评分卡 并不需要太深的算法。。。,理解逻辑回归就行了
    boom7
        31
    boom7  
    OP
       2018-12-28 17:31:58 +08:00
    @holajamc #27 溜来上海 hhh
    boom7
        32
    boom7  
    OP
       2018-12-28 17:32:44 +08:00
    @xiao38245 #28 这不正在想该怎么打算嘛
    boom7
        33
    boom7  
    OP
       2018-12-28 17:35:29 +08:00
    @glacer #29 感谢前辈回复,爬虫确实接触的技术很广,但是深度确实一般,也有转后端的想法 hhh,趁现在还清闲好好学习
        34
    boom7  
    OP
       2018-12-28 17:41:56 +08:00
    @qianc1990 #30 聊天的时候数据组的同事也说不需要太多数学知识,反正都是调包侠。但是总要考虑以后的发展嘛。。肯定不能一直做评分卡,之后再深入学习的话,不确定自己的数学知识够不够用。准备先像 3 楼说的那样啃一啃西瓜书。
    hikarugo
        35
    hikarugo  
       2018-12-28 17:53:34 +08:00
    哈哈,我最近也在学习 tf,google 出的官方教程就挺不错的了
    FakeLeung
        36
    FakeLeung  
       2018-12-28 18:02:34 +08:00   1
    一年,到手 14k (羡慕脸)
    boom7
        37
    boom7  
    OP
       2018-12-28 19:42:23 +08:00 via Android
    @fyxtc hh 确实不错,正在跟着教程学
    Leigg
        38
    Leigg  
       2018-12-28 20:03:43 +08:00 via iPhone   1
    go- blockC
    tingyunsay
        39
    tingyunsay  
       2018-12-29 00:44:58 +08:00   1
    和你情况差不多,写了一年的爬虫,基本啥都搞过( but 逆向没人带搞不太定,涉及到 native 那层的代码就不知道怎么调了),然后其他业务需要人,转去做 c++了
    现在看看感觉立法要是更严格点,爬虫以后都没法做,还是早点转行,后端比较稳定,go 也是趋势,建议选 2,要是特别想去做 3,还是花点时间打好基础,光用框架,前途不太明朗
    楼主加油
    boom7
        40
    boom7  
    OP
       2018-12-29 09:07:23 +08:00 via Android
    @tingyunsay 感谢。native 层用 ida 调试确实费事。准备趁现在清闲,go 和 机器学习一起学吧,三个月后如果机器学习没有进度,就直接全心全意转后端。争取 2019 能跳个新岗位
    yanzixuan
        41
    yanzixuan  
       2018-12-29 09:38:27 +08:00   1
    用 python 搞爬虫搞了 1 年多点。爬虫搞深了还是很有技术含量的,尤其是各种验证码,都要上人工神经网络了。
    如果往这个方向深挖下去,AI 工程师就是你的目标
    我目前转了大数据方向,学习 scala 和 spark 中。。。
    boom7
        42
    boom7  
    OP
       2018-12-29 09:45:41 +08:00
    @yanzixuan 大数据好玩吗?
    SpiderXiantang
        43
    SpiderXiantang  
       2018-12-29 10:51:08 +08:00
    我转后端了
    asus10tu
        44
    asus10tu  
       2019-02-15 13:55:39 +08:00
    楼主请问现在怎么样了,我跟你情况一样,也打算跳出爬虫了。但是我纠结的是往大数据方面发展,还是往数据科学发展。
    对数据科学感兴趣一些,数学方面属于不上不下的水平,怕硬啃到最后要放弃。
    大数据方面貌似挺多方向的,分采集清洗、分析挖掘、可视化、平台架构开发什么的,一时半会不知道如何入门。
    想看看楼主现况如何。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5893 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 03:20 PVG 11:20 LAX 20:20 JFK 23:20
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86