如何成为一名爬虫工程师? (顺带招人) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
外包信息请发到 /go/outsourcing 节点。
不要把相同的信息发到不同的节点
scriptB0y
V2EX    酷工作

如何成为一名爬虫工程师? (顺带招人)

  •  
  •   scriptB0y 2017-10-18 17:43:15 +08:00 8731 次点击
    这是一个创建于 2990 天前的主题,其中的信息可能已经有所发展或是发生改变。
    Hi,本人目前的工作就是 V 友介绍的,入职之后非常喜欢现在这家公司。

    帮 HR 发一下招聘信息,在下文(贴到 V2EX 需要改格式我就直接放链接了)《如何成为一名爬虫工程师》中的最后有 jd。通过这篇博文你也能对我们公司有个大体了解(博文是入门篇,我比较菜,这篇文章只能代表一个应届生的水平不代表公司水平)

    https://www.kawabangga.com/posts/2277

    有什么问题可以在这里或博客评论问我,我知道的话尽量回答。
    第 1 条附言    2017-10-19 13:52:52 +08:00
    地点上海
    第 2 条附言    2017-10-19 18:58:03 +08:00
    公司简介: 玻森中文语义开放平台提供使用简单、功能强大、性能可靠的中文自然语言分析云服务。

    互联网时代信息无处不在,我们日常所接触的大量信息例如微博、社交媒体网站的帖子、消费者点评、新闻、销售人员的拜访记录以及可以转换成文本的语音内容,这些都是常见的非结构化数据来源。
    根据 2011 年 IDC 的调查,非结构化数据将占未来十年所创造数据的 90%。作为一个尚未得到充分开发的信息源,非结构化数据分析可以揭示之前很难或无法确定的重要相互关系。
    非结构化数据分析能够揭示潜藏在文本当中的趋势和关联,为商业决策、研究行业趋势和热点内容分析提供有力支持。
    玻森团队致力于打造最出色的中文语义分析技术,通过自主研发的中文分词、句法分析、语义联想和实体识别技术,结合海量行业语料的不断积累,为企业和广大开发者提供简单、强大、可靠的中文语义分析云端 API。

    后端工程师 招聘人数:2 薪资面议

    岗位职责
    1. 分布式网页抓取平台的研发、完善和运维,每天支持数千万级的网页采集、清洗和分析;
    2. 产品后端 API 的开发,实现高性能、高可用及可扩展的后端代码;
    3. 线上分布式环境的自动化运维、监控、性能调优。
    职位要求
    1. 扎实的算法与数据结构功底,对新的知识和技术有强烈热情;
    2. 具有较强的分析和解决问题的能力;
    3. 拥有良好的编程习惯;
    4. 熟悉至少一门高级编程语言(例如 Python/C++/JAVA )并有实际开发的经验。
    第 3 条附言    2018-01-23 16:37:32 +08:00
    此招聘依然有效。
    48 条回复    2017-10-20 17:16:56 +08:00
    Betsy
        1
    Betsy  
       2017-10-18 19:48:18 +08:00 via Android
    楼主的文章写的很棒,其实我有个很小白的问题。就是关于使用“ Javascript 脚本动态获取网站数据”这一块有点疑惑。我在爬取 新榜 这个网站指定公众号的热门文章的时候,发现其值是通过 post 方式获取的。它同时上传了 4 个值,前两个值是不变的,后两个值貌似是随机生成的。看了你的文章之后,我觉得那俩随机数应该是通过 Javascript 生成的,然后我想问的是,如何找到它用的是哪个 Javascript 脚本?这样我想我就应该能获取到随机数生成规则了吧!?
    scriptB0y
        2
    scriptB0y  
    OP
       2017-10-18 20:19:29 +08:00
    @Betsy 可以设置断点跟踪进去

    https://developers.google.com/web/tools/chrome-devtools/Javascript/?hl=zh-cn

    不过一般即使是客户端生成的也很难破解,实在不行可以开浏览器抓
    evanshh
        3
    evanshh  
       2017-10-18 22:13:53 +08:00
    非计算机专业毕业的,在向爬虫方向学习但是觉得自己编程基础比较薄弱,是不是对应聘影响很大呢?比如贵公司的招聘,专业是不是死门槛?
    scriptB0y
        4
    scriptB0y  
    OP
       2017-10-18 22:26:13 +08:00
    @evanshh 专业问题不是很大,不用心虚。我们 NLP 有个大神好像是化学专业的。

    计算机专业课上讲的东西很烂的,基本上还是和高中讲的应试教育那一套。不仅讲的烂还打击人的学习兴趣,自己看书有趣多了。对我来说大学自学学到的东西大约占 90%
    Betsy
        5
    Betsy  
       2017-10-18 22:28:16 +08:00 via Android
    @scriptB0y 感觉似乎找到了 js 中生成随机数的方法,但因为不懂 Javascript 语法,有点懵逼。话说开浏览器怎么抓?那两个值每刷新一次网页就会变一次,感觉不能复制出来再使用啊!
    sangmong
        6
    sangmong  
       2017-10-18 22:43:10 +08:00
    get 和 post 真的没啥区别么...
    forestyuan
        7
    forestyuan  
       2017-10-19 08:51:38 +08:00
    很好奇爬虫工程师的待遇如何
    scriptB0y
        8
    scriptB0y  
    OP
       2017-10-19 09:02:30 +08:00 via iPhone
    @sangmong 除了语义,没有
    scriptB0y
        9
    scriptB0y  
    OP
       2017-10-19 09:04:16 +08:00 via iPhone
    @forestyuan 可以来聊聊,我认为待遇不错。不然我就不会入职不久就来拉人了。

    领导 nice,五险一金,免费零食,节日福利。
    scriptB0y
        10
    scriptB0y  
    OP
       2017-10-19 09:05:36 +08:00 via iPhone
    @Betsy 额,开浏览器是爬虫的无界面浏览器那种,那样爬虫会使用浏览器执行 js 代码。和真实用户看到的网页一样。
    yeless
        11
    yeless  
       2017-10-19 09:47:29 +08:00
    Python + Selenium + PhantomJS
    WoodenRobot
        12
    WoodenRobot  
       2017-10-19 10:41:56 +08:00   1
    使用无界面浏览器做爬虫推荐一下 Splinter。已经集成 Firefox 和 Chrome 的 Headless 模式。
    JackZong
        13
    JackZong  
       2017-10-19 10:43:10 +08:00
    天猫商品销量可否有办法爬到?
    Betsy
        14
    Betsy  
       2017-10-19 11:26:03 +08:00 via Android
    @scriptB0y 是指 Selenium + PhantomJS 这种组合吗?这种的话,我已经实现了,效率堪忧啊...
    scriptB0y
        15
    scriptB0y  
    OP
       2017-10-19 11:27:41 +08:00
    @Betsy 效率确实是问题。不过按照你的描述,没办法破解就只好这样了。
    Betsy
        16
    Betsy  
       2017-10-19 11:51:13 +08:00 via Android
    @scriptB0y 感觉 js 文件本身没有混淆,我再去研究研究下 js 文件中关于生成随机数这部分代码。谢谢你啦,祝你尽快招到合适的人选。
    YuuuZeee
        17
    YuuuZeee  
       2017-10-19 12:01:12 +08:00
    用过你们公司的 API,感觉挺棒的,比 BAT 的不相上下
    sangmong
        18
    sangmong  
       2017-10-19 12:17:35 +08:00
    @scriptB0y 随便百度一下都有很多区别吧...https://www.zhihu.com/question/28586791
    scriptB0y
        19
    scriptB0y  
    OP
       2017-10-19 12:24:09 +08:00
    @sangmong 可能因为你用的是百度?

    不如举例说说百度到哪些区别……
    sangmong
        20
    sangmong  
       2017-10-19 12:43:11 +08:00
    @scriptB0y 知乎的域名不认识?
    scriptB0y
        21
    scriptB0y  
    OP
       2017-10-19 12:45:58 +08:00 via iPhone
    @sangmong 认识啊 我打开一看这个答案不是符合我的说法的吗,所以才问你百度到了哪些不同
    scriptB0y
        22
    scriptB0y  
    OP
       2017-10-19 12:46:46 +08:00 via iPhone
    @YuuuZeee 谢谢好像 V2EX 的标签也是玻森数据的
    sangmong
        23
    sangmong  
       2017-10-19 12:52:51 +08:00
    @scriptB0y 所以你家服务器上的数据 get 就能修改吧
    p2pCoder
        24
    p2pCoder  
       2017-10-19 12:58:31 +08:00
    @Betsy 一般来说,除了 支付宝,淘宝 ,京东这些大型公司的登陆参数加密太复杂的,其他的都能弄,首先需要一定 js 基础,能在浏览器进行 断点跟踪,找到相应的 fuction 就行了,然后换语言重写,或者用 python 的 js 相关库执行就行。
    p2pCoder
        25
    p2pCoder  
       2017-10-19 13:09:28 +08:00
    @scriptB0y 说实话,商业公司域名不是 https,真的很影响第一映像
    scriptB0y
        26
    scriptB0y  
    OP
       2017-10-19 13:12:14 +08:00
    @sangmong 参考 #8 楼,这属于语义。
    scriptB0y
        27
    scriptB0y  
    OP
       2017-10-19 13:14:14 +08:00
    @p2pCoder

    我们的域名应该都是 https 的啊,内部的 sentry 都是 https 的。

    https://bosonnlp.com/
    https://www.riskstorm.com
    wisej
        28
    wisej  
       2017-10-19 13:26:22 +08:00 via Android
    应届毕业生收么
    Betsy
        29
    Betsy  
       2017-10-19 13:35:40 +08:00 via Android
    @p2pCoder 目前个人的确不会 Javascript,看来得去恶补下这部分才行。谢啦。
    p2pCoder
        30
    p2pCoder  
       2017-10-19 13:36:58 +08:00
    @scriptB0y 可能配置有问题,我第一次从百度进去不是 https
    scriptB0y
        31
    scriptB0y  
    OP
       2017-10-19 13:47:14 +08:00
    @wisej 收 (我就是)
    scriptB0y
        32
    scriptB0y  
    OP
       2017-10-19 13:48:23 +08:00
    @p2pCoder 嗯没有开 301 跳转。不过百度好坑,google 都是有先进 https 结果的
    weakish
        33
    weakish  
       2017-10-19 13:49:09 +08:00
    现在推广都一推二了啊~ location, salary 这 JD ...
    torment5524
        34
    torment5524  
       2017-10-19 14:04:51 +08:00
    话说现在 30 多了,08 年在软件公司工作,12 年进了个国企,干了 5 年干不下去了。平时都是给朋友做些简单软件,前阵子刚用 java 给朋友做过一个 jd 的自动登陆下单,进公司还有希望么。。现在想跳出来,不知道该去哪
    scriptB0y
        35
    scriptB0y  
    OP
       2017-10-19 18:57:29 +08:00
    @torment5524 可以来我们公司聊聊
    evanshh
        36
    evanshh  
       2017-10-19 19:09:56 +08:00
    @scriptB0y 稳!
    palx
        37
    palx  
       2017-10-19 19:39:50 +08:00
    感谢分享,看这篇博文突然对爬虫工程师很感兴趣
    7gong
        38
    7gong  
       2017-10-19 22:10:01 +08:00 via iPhone
    @scriptB0y 有付费订制需求,但贵公司不接受...捉急
    leeyiw
        39
    leeyiw  
       2017-10-20 00:46:56 +08:00
    帖子这么火,搭车招聘爬虫防护工程师,C/C++,有意私聊,base 杭州
    gouchaoer
        40
    gouchaoer  
       2017-10-20 01:01:49 +08:00 via Android
    @leeyiw 你们业务用 c 艹写的?自己造轮子会死的很惨的
    scriptB0y
        41
    scriptB0y  
    OP
       2017-10-20 09:38:06 +08:00
    @7gong 额 这个我也帮不上忙,可以联系我们销售……
    macg0406
        42
    macg0406  
       2017-10-20 10:39:13 +08:00
    做某块类似于爬虫工作时遇到自定义字形、自定义编码的问题,发现网页上面也可以,@font-face + WOFF,不遵循现有编码,也会给爬虫带来不小的麻烦。不过现在还没见到有人这样用。
    scriptB0y
        43
    scriptB0y  
    OP
       2017-10-20 11:10:21 +08:00
    @macg0406 是个思路。不过防爬虫就得考虑 SEO 误伤的问题。这个思路估计对 SEO 误伤的概率很大吧。
    macg0406
        44
    macg0406  
       2017-10-20 12:35:21 +08:00
    @scriptB0y 可以像指定字体一样指定内容是否用自定义编码,如果希望被搜索到,就用正常编码,不希望被爬的,就用自定义编码。
    79lawyer
        45
    79lawyer  
       2017-10-20 15:19:55 +08:00 via iPhone
    招实习生吗大佬
    scriptB0y
        46
    scriptB0y  
    OP
       2017-10-20 15:33:20 +08:00
    @xuqiccr 招,发简历吧。
    blackMountain
        47
    blackMountain  
       2017-10-20 17:11:00 +08:00
    招前端吗大佬
    scriptB0y
        48
    scriptB0y  
    OP
       2017-10-20 17:16:56 +08:00
    @blackMountain 暂时不招前端 :doge:
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1029 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 18:46 PVG 02:46 LAX 10:46 JFK 13:46
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86