
最近需要做一个 Github 的软件(毕业设计),需要大量爬各种 issue、pull request 等的信息,5000 次每小时的 Github API 频率完全不够用。
想问下有没有封装好的有关 Github 的爬虫?谷歌上搜到的都是 Github 上的爬虫库项目
没有的话就去自己写了..
1 phpfpm 2020 年 1 月 28 日 你写个脚本注册账号生成 api token 不就得了。。 另,我记得如果不登录(没 token )访问 api 的话有次数限制,有 token 还会有限制吗? |
2 JasonEWNL 2020 年 1 月 28 日 via iPad 一个 JS 一个 Ruby 的库,都是 GitHub 上的 GitHub API 库。 https://github.com/github-tools/github https://github.com/piotrmurach/github |
3 tikazyq 2020 年 1 月 28 日 自己写吧,很简单的,用 scrapy 的 CrawlSpider,注意反爬限制 |
4 charlieputon 2020 年 1 月 28 日 via Android github 不是有 api 吗。。不过是 graphql 的。。 |
5 VDimos 2020 年 1 月 28 日 via Android github 是公开 api 的吧 |
6 cmqwan 2020 年 1 月 28 日 via iPhone github 不让爬,有 robots 协议。 |
7 iYu 2020 年 1 月 28 日 5000 次每小时的 Github API 频率完全不够用。 确认是毕业设计么?如果是的话,感觉有点厉害啊。 这是需要多少数据啊。爬个几天几夜都不够么。 |
8 oott123 2020 年 1 月 28 日 你可以从这两个数据源获取数据: GHTorrent: http://ghtorrent.org/downloads.html GH Archive: https://www.gharchive.org/ 他们提供了丰富的数据信息,较为方便的查询方式,以及简单的归档下载功能。不用自己爬…… |
10 Humbert OP @charlieputon 也有 RESTful 的,但是次数有点限制 |
15 sunwei0325 2020 年 1 月 28 日 有个同事把代码传到 github 上, 公司安全部门很快就发现并通报了, 估计是自己实现的吧 |
16 everydaystruggle 2020 年 1 月 28 日 楼主或者楼主导师是做 mining software repository 的么? |
17 lazygod 2020 年 1 月 29 日 via Android @sunwei0325 用公司的电脑上床有记录的 |
18 SampleNaive 2020 年 1 月 29 日 当然有啊,不然那些动不动几千 star,才几十个 issue 的项目怎么来的? |