
1 lhx2008 2019-03-07 11:04:33 +08:00 Java 异步爬虫效率还是不错的,库也比较完善,不过写不是太方便。 |
2 gowk 2019-03-07 11:33:11 +08:00 Python 和 Go 写都比 Java 方便,用 Java 写能巨 TM 烦 |
3 lihongjie0209 2019-03-07 11:38:46 +08:00 写脚本用脚本语言 写项目用工程语言 |
4 letitbesqzr 2019-03-07 11:41:03 +08:00 现在的爬虫,难道还需要去纠结那点本地解析的性能问题?更注重的不应该是 任务调度 异步 网络 方面? 什么语言熟悉你用什么语言,不觉得哪个语言在这方面有什么天生的优势。 |
5 julyclyde 2019-03-07 13:03:07 +08:00 “还”? |
6 tikazyq 2019-03-07 13:11:16 +08:00 via iPhone 试试 crawlab,哪个爬虫语言都可以的 http://github.com/tikazyq/crawlab |
8 mooncakejs 2019-03-07 14:18:06 +08:00 爬虫用 java 的不多吧,一般都是 python,现在可能 nodejs 更流行写爬虫。 |
9 shiganwuguo 2019-03-07 14:18:56 +08:00 via Android 大型爬虫 java, 小爬虫随意 |
10 nicevar 2019-03-07 14:23:01 +08:00 公司项目一般用 java 比较多,个人项目功能比较单一,用 python 之类的省事 |
11 WaJueJiPrince 2019-03-07 14:27:36 +08:00 @letitbesqzr 有的语言还是有优势的,很少见过有人用 C 或者 VB 直接写爬虫的,不同的语言的出现就是为了弥补其他语言的不足的,所有还是有差距的,不同的语言有不同的优点和缺点。另外,爬虫也不一定就注重的是异步,任务调度,一味追求快速的爬虫不是好的爬虫,也要兼顾对方的负载均衡,稳定性也很重要。另外验证码,js 加密,账号登陆这些不容易追求快速, |
12 hyc5312 2019-03-07 15:09:47 +08:00 py 上手快,写一个简单的爬虫也很快,适合新手上路,实际上写爬虫跟编程语言没有太多的关系,选择自己熟悉的语言都可以,爬虫重心应该在于调度,网络,反爬策略,数据清洗等等问题,本人基于 java 写了个爬虫框架,https://github.com/heyingcai/cetty 欢迎来交流~ |
13 juju123 2019-03-07 15:16:27 +08:00 大型分布式爬虫用 java 有优势,但写起来没有 py 顺手。 |
15 wmhx 2019-03-08 00:55:43 +08:00 java 写爬虫, 现成的框架就不说了; 手工的, 你可以用 httpclient 抓取,jsoup 解析页面, 90%的页面都能搞定, 剩下的就用 selenium 没跑了; |
16 taaaang 2019-03-08 09:19:04 +08:00 现在还纠结啥语言,会什么就用什么,关键是要把东西给爬下来 |
17 UserNameisNull 2019-03-08 09:51:25 +08:00 反正携程是 Java 爬虫 |