搜索引擎排序算法如何设计? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
kenneth
V2EX    程序员

搜索引擎排序算法如何设计?

  •  
  •   kenneth 2013-06-05 15:06:15 +08:00 434 次点击
    这是一个创建于 4561 天前的主题,其中的信息可能已经有所发展或是发生改变。
    搜索引擎按照关键词,能够找到匹配的n个结果,如何给这N个结果一个好的排序规则?
    一般设计中要考虑的问题,或者算法有那些?
    求思路
    9 条回复    1970-01-01 08:00:00 +08:00
    xunyu
        1
    xunyu  
       2013-06-05 15:21:12 +08:00
    pagerank?
    taogogo
        2
    taogogo  
       2013-06-05 17:54:03 +08:00
    找影响规则呗,关键词在每个页面的权重;此关键词的此页面的点击次数;当前页面的权威性
    crazybubble
        3
    crazybubble  
       2013-06-06 09:44:29 +08:00
    基本上有2种理论来给搜索结果排位。一种是Vector Space Model, 简单来说就是把搜索的关键词(query)当成一个vector,你搜索到的每一个doc也当成一个vector,然后计算query和每一个doc之间的similarity,最相似的排在最前面。另一种是statistic language model,简单来说,对于搜索到的每个doc,计算出这个doc里所包含的词,能组成query的可能性,这个可能性越高的话,就代表这个doc越可能和query是相关的,所以排在前面。
    ant_sz
        4
    ant_sz  
       2013-06-06 12:09:28 +08:00
    搜索引擎的排序算法可不少,还不算上通过记录用户点击来进行反馈训练的各种机器学习的方法

    pagerank只能算是入门级的了,目前在google搜索排序当中的权重已经不大,况且google已经冻结了pagerank值的改变。

    如果想要有一个入门级的概览,《集体智慧编程》这本书的搜索一章提供了pagerank的实现+神经网络反馈评价的代码。也有一些对搜索技术进行概述的书籍可以参考。
    clippit
        5
    clippit  
       2013-06-06 12:16:55 +08:00
    Lucene的排名是这样算的: http://lucene.apache.org/core/4_3_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.html

    Lucene结合了布尔模型和空间向量模型来计算相关性分数。权重方面还用到了TF-IDF的方法。
    martinbruce
        6
    martinbruce  
       2013-06-06 17:44:00 +08:00
    参考google两位创始人的专利算法:

    The Anatomy of a Large-Scale Hypertextual Web Search Engine

    http://infolab.stanford.edu/~backrub/google.html
    alafeizai
        7
    alafeizai  
       2013-06-06 22:50:36 +08:00
    网页相关性哈,分为文本相关性和非文本相关性,涉及到文本处理,query理解和重写,命中位置,时新性什么的,还有click model的影响,细节很多。
    darasion
        8
    darasion  
       2013-06-06 23:17:48 +08:00
    撸主醒醒。

    搜索引擎要都是只考一两个算法就做出来的话,那就不用那么多人费那么大劲还花那么多钱去建造了。
    Sunya
        9
    Sunya  
       2013-06-06 23:54:26 +08:00
    那 SEO 和黑帽都得失业了...
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     796 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 21:24 PVG 05:24 LAX 13:24 JFK 16:24
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86