https://cloud.tencent.com/developer/information/%E5%AE%89%E5%85%A8%E4%BA%91 https://readhub.cn/topics
这种网站是通过什么技术或者框架实现的呢,一篇文章的核心内容被提取出来,然后展示。
1 22day 2019-09-25 09:56:39 +08:00 一篇文章的核心内容被提取出来,然后展示 从提供的两个站点来看就是显示了标题和一定字数的正文内容,并不能算是提取了核心内容... python 做 web 开发的话可以看看 django 或 pylons 这类框架 |
![]() | 2 CRUD 2019-09-25 10:04:58 +08:00 楼主有没有想过文章发布的时候直接可以输入简介,或者没输入的话读取正文开头前一部分当作简介,并不是读取正文内容生成的.. |
![]() | 3 zdnyp 2019-09-25 10:10:46 +08:00 ![]() 遍历 dom 树,然后根据字符密度判断是否是正文 |
![]() | 4 polythene 2019-09-25 10:11:27 +08:00 ![]() 看来每隔一段时间就要把我的这个库拿出来晒晒了: https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor 刚开始的目标是提取 hacker news 上所有新闻的正文,现在已经工作的很好,大部分网站的正文都可以提取。 主要思想是根据各种因素给网页的每个 DOM 打分,最终最高分就最有可能是正文。 |
![]() | 5 misaka19000 2019-09-25 10:18:31 +08:00 evernote 的浏览器插件就能做到提取文章的正文内容,感觉还挺好的 |
![]() | 6 izoabr 2019-09-25 10:19:48 +08:00 经常只能显示标题,腾讯和阿里云都这破德行,骗 PV 的 |
![]() | 7 MaiKuraki 2019-09-25 10:21:08 +08:00 不就是爬虫吗 |
![]() | 8 TimePPT PRO 正文判断+摘要抽取 |
![]() | 9 xiefangzhenz OP @locbytes 感谢大神,我看看 |
10 xud 2019-09-25 10:48:28 +08:00 对于 Web 信息检索来说,可以说是算作网页正文抽取,方法有很多种。一类是基于 Dom 树来做,也可以基于标记窗继续识别,还有基于网页分割技术的,再者就是基于数据挖掘或者机器学习,使用文本分类、聚类这种来实现,有一些比如基于行块分布函数这种也是可以直接对网页正文进行提取。 |
![]() | 11 xiefangzhenz OP @CRUD 想做一个不固定网页的抽取。。。 |
![]() | 12 xiefangzhenz OP @zdnyp 有具体的框架或者资源吗 |
![]() | 13 xiefangzhenz OP @polythene 谢谢大神。。我瞅瞅 |
![]() | 14 xiefangzhenz OP 嗯,想找个算法 自己做个这样的网站 |
![]() | 15 xiefangzhenz OP @izoabr 嗯,我被他们欺骗了。。。所以我也想搞个这样的 |
![]() | 16 xiefangzhenz OP @MaiKuraki 有详细的资料吗 |
![]() | 17 xiefangzhenz OP @TimePPT 在度娘如何找寻着方面资料呢。。。 |
![]() | 18 xiefangzhenz OP @xud 我现在想要白嫖,这种资料一般哪些网站多点或者有相应的框架吗 |
19 irvinghua 2019-09-25 10:56:14 +08:00 python 里面利用深度学习,提取文章摘要,关键词,这种 nlp 库不要太多,如 bert,ernie |
![]() | 20 xiefangzhenz OP 嗯好,我看下 |
![]() | 21 izoabr 2019-09-25 11:09:52 +08:00 那简单,找几百篇不同类型的文章,然后用 结巴分一下词。 然后用这些词生成一堆静态页出来,记得加 keyword 和 description 哦 甚至更绝的可以用参数传这个词进去现生成,但索引收录时怎么弄就不清楚了。 |
22 Lcys 2019-09-25 11:11:26 +08:00 goose |
![]() | 23 mrweiwei 2019-09-25 11:17:47 +08:00 我之前用 node 写过一个类似的应用,文章内容的提取用到了 node-readability 和 phantom 这两个库,效果对大部分网站来说还行,项目地址这里,可以看看 https://github.com/linguowei/micro-note |
![]() | 24 xiefangzhenz OP 要是全网搜索相关的文章,提取出主要内容,是不是就很难了 |
![]() | 25 xiefangzhenz OP 我看看 |
![]() | 26 TimePPT PRO @xiefangzhenz 文章全文判断 LS 有人给到方案了,拿到全文后做摘要生成可以参考下面这篇 《文本摘要简述》 https://www.jiqizhixin.com/articles/2019-03-25-7 类似论文很多,可以搜搜 |
![]() | 27 zdnyp 2019-09-25 13:29:43 +08:00 @xiefangzhenz newspaper 百度一下有好些 |
![]() | 28 itskingname 2019-09-25 13:34:57 +08:00 楼主看一下我的这个项目: https://github.com/kingname/GeneralNewsExtractor |