
打算构建一个无偏语料库,因此需要爬取各行各业相关的网站,想问一下大家知道哪些主要内容是文本的网站。 目前收集到的网站有大概以下几个分类
这里并没有列全,目前在抓的有 60 个网站左右,每天能获取 300K 个页面,单机。想问问大家有没有什么别的类目、行业、领域以及各分类下的文字类网站可供补充?无所谓内容质量好坏。
1 mushan099 2018 年 4 月 25 日 via iPhone 其他类别不知道,影视那一栏我倒是了解不少(^-^)/ |
2 rock_cloud OP @mushan099 来几个例子? |
3 fstab 2018 年 4 月 25 日 via Android @rock_cloud t66y sixinsix 91 avgle 大哥只能帮你这么多了。 |
4 jiangnanyanyu 2018 年 4 月 25 日 via Android 我来一个吧,javbus,javlib |
5 ob 2018 年 4 月 25 日 via Android cnbeta |
6 aice114 v2ex |
8 huluhulu 2018 年 4 月 25 日 via iPhone 不是 1024 最值得吗? |
9 jasonyang9 2018 年 4 月 25 日 nytimes arstechnica slashdot |
10 x86 2018 年 4 月 25 日 avmoo |
11 fengyj 2018 年 4 月 25 日 via Android 影视竟然没有 douban |
12 chroming 2018 年 4 月 25 日 via Android 单机爬这么多是用了代理池? |
13 logOo 2018 年 4 月 25 日 pxxnhub |
14 rock_cloud OP @huiyifyj 有,在论坛分类里,抓全站 |
15 rock_cloud OP @chroming 没有代理池,因为站点多,所以每个站慢慢爬,也不是问题 |
16 rock_cloud OP @aice114 我居然忘了 V 站,话说 V 站是不是有访问频次限制? |
17 akira 2018 年 4 月 25 日 3l 老司机 |
18 mhycy 2018 年 4 月 25 日 |
19 torbrowserbridge 2018 年 4 月 25 日 91 |
20 yense 2018 年 4 月 25 日 煎蛋站长瑟瑟发抖... |
21 rock_cloud OP @yense jandan 已加入豪华午餐,放心,速度非常慢,大约一分钟一个请求,不会占用很多流量的 |
22 rock_cloud OP @yense 额。。错了,应该是 20 秒一个请求。。。 |
23 greatghoul 2018 年 4 月 25 日 via Android pornhub |
25 F1024 2018 年 4 月 25 日 91 哈哈哈哈 |
26 yunye 2018 年 4 月 25 日 via Android 抓谷歌比较划算,抓一个站啥都有了 |
27 rock_cloud OP @yunye Google 反爬做得好,不好抓,费时费力 |