![]() | 2 garham OP 这里面的 a2869674571f77b5a0867c3d71db5856 这个数是怎么得到的呢? |
![]() | 3 garham OP @lwbjing 这里面的 a2869674571f77b5a0867c3d71db5856 这个数是怎么得到的呢?你有兴趣做一下么? |
![]() | 4 lygmqkl 2016-05-18 16:56:35 +08:00 客户端 抓包吧? |
![]() | 5 lwbjing 2016-05-18 16:57:15 +08:00 ![]() http://img1.cache.netease.com/tie/static/2016051302/tiepage.js ===>>> ``` a = "http://" + document.location.host + "/api/v1/products/" + productKey + "/threads/" + i.srcData.docId + "/comments/" + (o ? "specHotList" : "hotList") + "?ffset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc"; ``` ``` var productKey="a2869674571f77b5a0867c3d71db5856"; ``` |
6 baohao 2016-05-18 16:58:28 +08:00 @garham 你直接访问网站的时候,打开 chrome 或者 firefox 浏览器的 F12 ,调试界面,选到 NetWork/网络选项,就能看到 1L 给的这一系列请求评论的 HTTP 请求了。毫无技术难度。。。。 |
7 Yannis1990 2016-05-18 17:04:39 +08:00 jQuery("[style ='line-height: 21px; margin-bottom: 3px; zoom: 1; word-wrap: break-word;overflow:hidden;']").text() 用 PyQuery |
![]() | 8 garham OP @lwbjing 非常感谢!已可搞。如果你想来写这个函数可以联系我(输入是 news3_bbs , BNBIJDSQ00014AED ,输出是,把 json 文件稍微整理一下格式,去掉没用的信息,存成文件) |
9 atnoot 2016-05-18 19:33:00 +08:00 网易系的网站貌似习惯用 json |
![]() | 10 Moker 2016-05-18 20:26:56 +08:00 一定是要 py 或者 node 么 |
![]() | 11 realpg PRO 不是 py 如何交易…… |
![]() | 12 yangxiaoluck 2016-05-21 11:44:05 +08:00 爬虫专业 5 年, python 。 给你搭建完整的爬虫 |