如何评价一篇文章的质量? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
alexapollo
V2EX    互联网

如何评价一篇文章的质量?

  •  1
     
  •   alexapollo 2016-05-17 17:08:47 +08:00 9875 次点击
    这是一个创建于 3483 天前的主题,其中的信息可能已经有所发展或是发生改变。

    // 科技类的新品发布内容可能很少,质量很低;而深度的产品解剖、行业分析质量很高。

    抛开以上不说,浏览、点赞、评论是很值得参考的值,是否有一个经验公式来将这些因素组合成质量? 还是一定得用标注样本来训练一遍?

    各位有什么好想法?

    56 条回复    2019-03-29 15:44:27 +08:00
    murmur
        1
    murmur  
       2016-05-17 17:09:59 +08:00
    没有 好坏太主观了 这不像分类器训练 你让 10 个人能给你订出 10 个标准来 这数据能拿来训练么?
    alexapollo
        2
    alexapollo  
    OP
       2016-05-17 17:18:15 +08:00
    @murmur 标准虽然主观,但一定存在,只是尺度的控制罢了
    cheneydog
        3
    cheneydog  
       2016-05-17 17:19:51 +08:00
    人肉识别
    menc
        4
    menc  
       2016-05-17 17:57:34 +08:00   4
    打分是机器学习最典型的应用之一。

    首先要说明的是,打分这种事情没法主观来标注,尤其对于今日头条这种,你作为一个硕士毕业或者博士毕业生,你喜欢的,你觉得质量高的,在你的目标眼睛里,未必是高质量的,你觉得俗不可耐的,却恰恰是他们的蜜糖。
    或者,你不喜欢阿里,不喜欢 wp ,但是买了微软和阿里的股票,就一定非常喜欢关注他们的文章。

    那么对于文章的评价,要用统计量来对文章的质量作评价,合适的 label 有:
    对于已经过滤掉了标题党的文章,可以使用 ctr
    对于没有过滤过内容的文章,可以使用平均停留时长
    或者,以上两者的加权平均。


    有了 label ,考虑进行打分。当然分数按照 label 的 scale 来,若是 ctr 做 label ,分数是 0-1 越高越好, 0.3 以上的 ctr 一般就是质量非常高的分数了。

    对于特征,有两种特征:
    一种叫做泛化特征,即伴随着文章一直不变的特征,如 tf-idf , word2vec ,文中是否包含不规范的标点,文章来源,文章发布时间等等
    一种叫做历史特征,即随时间会变化的特征,如历史 ctr ,如每个词的 ctr ,如类别的 ctr 。

    用两种特征套到模型里,就能得到一个你想要的公式或者模型了。

    一般地,我们用于打分的特征,不少于 300 维,也就是说,从几百个方面来衡量一篇文章究竟质量好还是坏,从而决定,是否要给用户推送。
    jedicxl
        5
    jedicxl  
       2016-05-17 18:33:01 +08:00
    @alexapollo 标准不存在

    同一篇文章,在不同的背景、不同的语境、不同的作者、不同的读者群、不同的传播渠道、不同的宣传方式下,得到的评价都会不同

    文无第一,这话放到现在依然适用
    charlie21
        6
    charlie21  
       2016-05-17 20:16:33 +08:00
    出版物质量 > 电子书 > 网页新闻 > 论坛帖子 > 热门跟帖回帖
    一群猫可以评出最好吃的猫粮是什么但那不是人吃的
    charlie21
        7
    charlie21  
       2016-05-17 20:26:58 +08:00
    并不是对于出版物的偏见,而是 ....

    熵的社会学意义
    http://www.ruanyifeng.com/blog/2013/04/entropy.html

    如果训练的话,可以先找出 10 个目标受众,然后让他们去训练机器(设计评价的维度或标准),然后再让机器再去训练其他机器(类似于机器的繁殖,可以包含基因交换,这样就诞生了子代个体 包含父代的基因但有自己的变化),最终的子项去作为筛选器、评分器去工作。 这样的机器和人基本没分别了

    让机器做机器擅长的事情还是可以的
    alexapollo
        8
    alexapollo  
    OP
       2016-05-17 21:32:31 +08:00
    @menc
    我认为你说的并不是文章的质量,而是另外几个分数[1],与文章质量并不能等同。
    一篇心灵鸡汤,它的 CTR 、阅读时长可能都很高,但它并不是质量高的文章。

    换一个角度来讲,我们衡量的可能不是质量,在这个语境下,更贴近深度(领域专业度),这里给出一些我的经验:
    1. 娱乐八卦下的深度八卦可能是很合适的素材
    2. 就“科技-AI ”类别,机器之心推送的内容大部分深度较高
    3. 剖析苹果发展史的比推苹果手机的内容更深度。

    深度本身应该是一个独立的模型,而不应该揉杂在其他的分数中, CTR 无法代表深度(深度往往看得人更少),但它们[1]都对深度预测有一定意义。

    [1] CTR 、阅读时长、阅读百分比
    alexapollo
        9
    alexapollo  
    OP
       2016-05-17 21:34:09 +08:00
    @menc 如果有深度本身,对于用户可能才会有更好的筛选、鉴别。
    如果你是头条的,那我说的可能更贴合你们另一个特征:逼格
    alexapollo
        10
    alexapollo  
    OP
       2016-05-17 21:36:37 +08:00
    @jedicxl 你说的是有道理的,相当于是:文章质量的度量可能意义不大,意义更大在于群体划分
    但不管如何,文章质量客观存在,我们很清楚的知道“不转不是中国人”是俗的、质量差的,理应可以区分的
    alexapollo
        11
    alexapollo  
    OP
       2016-05-17 21:37:33 +08:00
    @charlie21 典型的半监督学习思想 :)
    menc
        12
    menc  
       2016-05-17 23:16:53 +08:00
    @alexapollo
    一切脱离现实的空谈都是耍流氓。
    对于你,可能深度的产品解剖、行业分析质量很高,但是徐小平不在乎,李开复不在乎,他们对行业的理解已经不需要这些东西,他们看这些都是小儿科,他们反而更希望看到改变世界的新创意和新点子,这些对他们才是高质量。
    ”汝之蜜糖,彼之砒霜”就是这个道理。

    所以,没有普世价值的质量高,只有对某一个群体的价值高。
    数据量大了,展现的趋势足够说明问题。相信数据不凭主观臆断做事情,是做机器学习最基本的准则。

    数据量大了, bias 就会显得微不足道,数据就足够说明问题。

    如果你想要一个对你质量高的,那你就自己去标记然后训练模型咯,也能得出结果,但只对你有效。
    alexapollo
        13
    alexapollo  
    OP
       2016-05-17 23:21:41 +08:00
    @menc 对,毫无疑问的是,深度也只是一个特征而已。
    李开复不喜欢深度,无非就是不推深度文章而已。数据是可以说明问题的。
    alexapollo
        14
    alexapollo  
    OP
       2016-05-17 23:23:43 +08:00
    @menc 深度本身并不代表价值,反而正是区分群体的特征。
    “改变世界的新创意和新点子” 倒是怎么量化呢?
    我觉得你没有理解我说的话。
    menc
        15
    menc  
       2016-05-17 23:39:48 +08:00
    @alexapollo
    还是那句话,先学数学,学完了你什么都懂了。
    alexapollo
        16
    alexapollo  
    OP
       2016-05-17 23:46:11 +08:00
    @menc 对你我也只能摊手了 (_)

    如果你懂的比我多,看懂我说的也是分分钟的事,奈何你连理解都不理解就妄图下定义
    cqcn1991
        17
    cqcn1991  
       2016-05-17 23:46:43 +08:00
    说个我极其粗糙的做法,用 Pocket 的数据来做的
    http://productchaseapp.herokuapp.com/tech2pocket

    其他的可用数据,是 twitter 或者 facebook 的分享数。但是显然,被分享的数据并不意味着文章质量,这方面, pocket 的数据会更好一些。

    我这个 demo 只是一个简单的排序。稍微好一点,是结合本身信息源的推送频度来做。其实做到这个基础水平,文章质量基本就有保证了。
    menc
        18
    menc  
       2016-05-17 23:51:00 +08:00
    @alexapollo 对数据缺乏起码的尊重
    alexapollo
        19
    alexapollo  
    OP
       2016-05-17 23:54:45 +08:00
    @cqcn1991 有趣, pocket 数据很好,不过国内有对标的数据吗?
    alexapollo
        20
    alexapollo  
    OP
       2016-05-17 23:57:04 +08:00
    @menc
    我们讨论的是两个维度,大哥,基于内容的推荐有两块,一块是内容特征的抽取,一块是推荐
    我说的是内容特征,你说的是推荐,驴头不对马嘴好吗?
    menc
        21
    menc  
       2016-05-17 23:57:39 +08:00
    @alexapollo 泛化特征就是内容特征,你回去仔细看
    menc
        22
    menc  
       2016-05-17 23:58:14 +08:00
    @alexapollo 我在公司做的本来就是质量打分,你跟我说牛头不对马嘴,我也是觉得有点无可奈何
    alexapollo
        23
    alexapollo  
    OP
       2016-05-18 00:07:17 +08:00
    @menc 可能是我们角度不同,你的角度是“推荐质量打分”而不是“内容质量打分”吧?
    推荐质量是另一个话题了,跟内容质量是两码事。。按你说的就是去做 CTR 、时长,以及长期目标优化了。

    再者,内容质量不是单纯的 w2v 、 lda 就能表达的。。像头条里,我看深度文章( AI 方向)不少,但只给我推我看的一两个头条号,在我看来是非常愚蠢的。。
    cqcn1991
        24
    cqcn1991  
       2016-05-18 00:39:51 +08:00 via iPhone
    @alexapollo 我本来打算抓国内内容, 但是确实没找到比较简单的指标。另一方面,国内优质内容本来也很少(确实有,但是极少)

    其实基本来源有哪些,大概也就 36kr, 知乎。而 36kr 的客推内容基本来自于公众号。然而我对这种本身自带“营销属性”的内容,不是很喜欢。
    gzelvis
        25
    gzelvis  
       2016-05-18 00:43:41 +08:00
    马上要睡了,明天可以给你点评一下
    menc
        26
    menc  
       2016-05-18 00:44:21 +08:00
    @alexapollo 我就是内容质量打分,个推是另外一个领域,是流水线的后面的部分。
    gzelvis
        27
    gzelvis  
       2016-05-18 00:44:25 +08:00
    @cqcn1991 想问下 “ 36kr 的客推内容基本来自于公众号” 这句话应该怎么理解?愿闻其详
    alexapollo
        28
    alexapollo  
    OP
       2016-05-18 00:59:15 +08:00   1
    @menc
    但我觉得你说的跟内容质量没啥关系啊。。你说的都是个性化推荐的部分,或者说稍微靠前一点,用户画像的生成。
    > 那么对于文章的评价,要用统计量来对文章的质量作评价,合适的 label 有:
    > 对于已经过滤掉了标题党的文章,可以使用 ctr
    > 对于没有过滤过内容的文章,可以使用平均停留时长
    > 或者,以上两者的加权平均。
    文章深度我觉得是独立的,不依靠人群的,只是一个 feature 而已,不是你说的这类 label 。。
    alexapollo
        29
    alexapollo  
    OP
       2016-05-18 01:00:14 +08:00
    @cqcn1991 科普性质还有虎嗅、极客公园,以及像知乎的一些领域, V2EX 某些好帖吧
    alexapollo
        30
    alexapollo  
    OP
       2016-05-18 01:14:09 +08:00
    @menc
    A. 如果单从文章角度出发,用文章的各个特征去预估 CTR/平均时长 ,那么我认为这是个文章曝光门槛。
    B. 如果从个性化角度出发,用不同人群结合文章的各个特征去预估 CTR/平均时长,那么我认为就是个性化推荐了。

    如果你做的是 A ,那我觉得很 OK ,但和这贴的主题还是两码事,或者说,头条有很多数据:点击率 /数、收藏率 /数、阅读时长 /百分比、点赞率 /数,等等,这些特征怎么组合成你的目标,这才是我关心的。。
    alexapollo
        31
    alexapollo  
    OP
       2016-05-18 01:17:29 +08:00
    @menc 当然,这些说的跟我讲的行业深度仍然是两码事。
    FrankFang128
        32
    FrankFang128  
       2016-05-18 01:23:00 +08:00
    论文不是根据引用数嘛
    cqcn1991
        33
    cqcn1991  
       2016-05-18 08:13:46 +08:00 via iPhone
    @alexapollo 原来仔细看过这些科技媒体的内容,最后的结论就是质量实在是…

    @gzelvis 36kr 上优秀的内容主要来自于“读者投稿”,来自于某些公众号。这些内容本身有很大一部分“自我营销”的目的在里面。我不喜欢“自我营销”过于明显的内容

    当然这也是我对于内容的要求过高了。从自我提升的角度,我觉得看这些内容的提升远远不如读书。
    alexapollo
        34
    alexapollo  
    OP
       2016-05-18 09:55:29 +08:00
    @cqcn1991 这些科技媒体很多都是追新,深度报道、分析比较少。但深度报道说实话看的人很少的(所以他们天天在发追新)。
    cqcn1991
        35
    cqcn1991  
       2016-05-18 10:08:50 +08:00 via iPhone
    @alexapollo 是的,所以我很少看…
    menc
        36
    menc  
       2016-05-18 13:36:36 +08:00
    @alexapollo
    真是想骂人,怎么组合我都告诉你了,难道非要我说
    0.自己打 label
    1.自己抽 feature
    2.用 xgboost ,用 gbdt 这样的 tree ensemble 模型
    3.调参,让 rmse 最小
    4.打出模型看看是怎么样的一个模型,每个特征权重是多少

    你才能听懂么?
    menc
        37
    menc  
       2016-05-18 13:37:58 +08:00
    你想要你想要的,你就自己打 label ,不靠其他的东西,最后得到的就是顺你心的结果。

    你来定义行业深度,文章质量,就是一个 label ,有什么不能做的呢?

    至于你定义的和客观上的有什么区别,你肯定是觉得你觉得好的比客观上的要好,因为 bias 的存在
    menc
        38
    menc  
       2016-05-18 13:40:59 +08:00
    @alexapollo 个性化推荐和质量打分没你想得这么简单,是两个完全不同的问题,考虑问题的角度也完全不一样,不是一个问题拿来这看看是打分,那看看是推荐。

    你没看过朋友圈每小时更新的全部公众号数据,良莠不齐,从几十万文章里面筛选出几百篇堪读的文章,不管用户群体是什么。这是最典型的质量打分。

    之所以采用历史特征如 CTR ,停留时长,只是基于一个朴素的假设:用户不是傻子,用户趋向于点击和阅读更高质量的文章。
    alexapollo
        39
    alexapollo  
    OP
       2016-05-18 14:51:10 +08:00
    @menc 你说的这些我想是个从业者都知道吧 :)

    关键点还是一点
    label :我不认为只关心阅读时长和点击率是有益的,用户的交互很多时候更重要 如果你觉得这不归质量,归到最后的产品策略,那当我没说
    451223358
        40
    451223358  
       2019-03-18 09:56:57 +08:00
    @menc 他没懂,他说的其实是文本传播质量
    @alexapollo 您说的,其实是单纯的从文本角度去评估文章质量,这个其实目前通用型的文章机器做不了,因为没有标准。某个特定的文本素材或许会有标准,比如政务发布的文章。
    451223358
        41
    451223358  
       2019-03-18 09:59:19 +08:00
    @alexapollo 目前做文本传播质量的预测更现实
    alexapollo
        42
    alexapollo  
    OP
       2019-03-18 14:17:32 +08:00
    @451223358
    当然有标准了,现在各个 feeds 产品动辄二三十人专门做质量的算法 team 又不是吃白饭的,而 FB / GOOG 早几年就开始做了,FB 在 6 年前的质量、审核团队就有上百人
    更不要说楼上 menc 所在的头条早几年就开始做的质量 team (当时头条被批斗的厉害,张一鸣承诺要加数千到上万人,各位忘了吗)

    我发这贴主要是想看看各家从业者到底是用什么思路来做的,不是让人回答“我虽然没有做过吗,但是这很难,不可能”
    451223358
        43
    451223358  
       2019-03-19 09:04:09 +08:00
    @alexapollo 机器做不到语义理解,谈何标准。你说的标准如果是传播质量当然可以根据历史数据反推,如果是根据文本内容,那标准如果不是语义理解还能是什么呢?
    另外,我总能感到从事算法的爆棚的自信...
    alexapollo
        44
    alexapollo  
    OP
       2019-03-20 15:05:18 +08:00
    @451223358 hmm,看起来你连从业者都不是,这种辩论就没有任何意义了。
    451223358
        45
    451223358  
       2019-03-20 16:51:57 +08:00
    @alexapollo 如果您愿意保持这样审慎的态度,我倒是愿意说说自己的看法。其实两个方向不一样,一个是内容传播质量,一个是单纯的内容质量。前一个是头条等单位正在做的,后一个单纯的从文本角度,不依赖除文本外的其他数据去做内容质量体系。
    451223358
        46
    451223358  
       2019-03-20 16:59:16 +08:00
    无论是上文头条那伙计的蜜糖砒霜,还是您这样的,都得界定一个前提。是内容质量还是内容传播质量,一般来说,是根据内容的传播质量反馈的数据去反推内容质量高低。这样做是因为内容传播质量是数据可描述的,而内容质量数据描述不了。但这样做有弊端,根据内容传播质量反推内容质量最大的弊端在于内容传播的文本大多数都是新闻资讯类文本,小说等深度阅读的长文很少,只能对于浅阅读或者说快速阅读的资讯等信息有效果,对于深度阅读或者某类深度信息其实是没用的。所以问题得改改,不是文章质量评估,而是某类特定文章的传播预测。
    alexapollo
        47
    alexapollo  
    OP
       2019-03-20 18:14:27 +08:00
    @451223358
    1. 内容质量:BAT、头条都在做,而且有很大的团队,我已经在上面说过了,这是事实;
    2. 内容传播效率:这个问题每个场景优化点不一样罢了,小说一样可以靠阅读时间来衡量效果,头条前两天做了滑动级别的实验,观察每个用户的滑动、停留数据,进而分析关注点,不同内容模态、不同目标也早就是老生常谈了。
    alexapollo
        48
    alexapollo  
    OP
       2019-03-20 18:15:20 +08:00
    @451223358 事实无需辩论,如果你不接受,我们就没有谈论的必要了
    451223358
        49
    451223358  
       2019-03-20 19:43:37 +08:00
    @alexapollo 您在混淆话题,针对上述 1,bat 和头条做的都是垃圾识别,欢迎找到一例单纯根据文字本身来评估内容质量注意,是指优质内容打分,而非识别垃圾,而这个打分的分值是对应的是未来的传播数值,即仅根据文字本身来做到传播预测,如有,欢迎打脸。
    关于上述 2 你和头条那伙计还有我观点没有区别。
    alexapollo
        50
    alexapollo  
    OP
       2019-03-21 00:17:15 +08:00
    @451223358 兄,你该了解了解 BAT/头条的算法部门了,其中有一个核心 team 以前就是我带的
    我们在三年前就已经做了高质量内容的模块了,发这个帖子纯粹是想和业界其他团队交流交流
    451223358
        51
    451223358  
       2019-03-22 08:21:45 +08:00
    @alexapollo 文本在未传播前(离线)就对可能的传播情况做出来预测吗?如果是这样,那确实我错了,怎样可以更多的了解这块的进展呢?
    451223358
        52
    451223358  
       2019-03-22 08:24:01 +08:00
    @alexapollo 如果是根据小范围传播或者早期传播推断整个文本的传播情况,那您说的高质量内容模块测试依然属于内容传播质量的范畴
    alexapollo
        53
    alexapollo  
    OP
       2019-03-26 09:30:40 +08:00
    @451223358 做的不是这个,反而是主观判断文章好不好
    - -# trade secret 就不说了,你是做哪行的,传统媒体从业者?
    451223358
        54
    451223358  
       2019-03-27 09:57:18 +08:00
    @alexapollo 可能我们还未就“文本质量”定义达成共识。到底是文章在“文本”方面的质量呢?还是文章在动态的“传播”过程和用户读后“交互反馈”的质量。关键是这方面没有达成共识,我理解现行的技术可能更侧重传播侧,读者交互方面的机器计算,文本未传播前(离线)的拆解这些角度我还没看到有愿意去介入的公司。但个人可能觉得这方面未来更重要一些,内容毕竟最重要的是“内容”,传播是外在辅助条件了。
    关注的干果云,灵犬还有悟空 /瓦力这些都没有直接就文本本身就做研究的,很可惜。
    个人是新闻从业者转舆情产品,就那种比较低级的采集监测产品。
    451223358
        55
    451223358  
       2019-03-27 10:07:50 +08:00
    @alexapollo 如果是 NLP 为主的技术手段判断文章质量(非传播)好不好那非常希望向您请教
    alex1551723566
        56
    alex1551723566  
       2019-03-29 15:44:27 +08:00
    @alexapollo 楼主,目前组里是怎么做内容质量评价的?直接搞成多分类?还是考虑多个维度信息,如内容的时效性、专业性、严肃性、准确性等?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     827 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 22:19 PVG 06:19 LAX 14:19 JFK 17:19
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86