部分网络抓取的微信公众号的文章,已经去除 HTML ,只包含了纯文本。每行一篇,是 JSON 格式, name 是微信公众号名字, account 是微信公众号 ID , title 是题目, content 是正文。
Clone 完 Git 之后,要用 git lfs fetch 来拿主要的文件。
目前数据大约 1G ,数据会定期更新增加。
请只用于研究用途。
![]() | 1 sharp 2016-05-07 15:14:52 +08:00 你是怎么抓的 |
2 xlxlxlxl 2016-05-08 14:53:57 +08:00 我该说 1024 还是好人一生平安(●''●) 楼主好人 |
![]() | 3 songkaiape 2016-05-09 11:00:05 +08:00 同问怎么抓取的。。好奇 |
![]() | 4 linsun84 OP |