当前位置:   article > 正文

ElasticSearch之通过function score query优化评分

ElasticSearch之通过function score query优化评分

写在前面

es在进行数据查询时,数据的返回顺序是由评分决定的,而默认的评分是采用的相关度评分,但在某些业务场景中如果是仅仅考虑相关度评分的话,无法满足需求,所以es提供了function score query来通过其他的方式来改变最终的评分,如下:
在这里插入图片描述

本文一起来看下这部分相关的内容。

1:例子

考虑这样的场景,某良心企业发起一项征文活动,文章主题你对996的看法,并且文章发布到网上可以供广大的热心网友投票,假定张三,李四,王五三位同学颇具文学功底,参与了本次活动,活动结束后,数据如下:

DELETE talk_about996

POST talk_about996/_bulk
{"index": {"_id": 1}}
{"topic":"你对996的看法","name":"张三","content":"狼儿吃草跑得快,哈哈哈哈", "vote": 10}
{"index": {"_id": 2}}
{"topic":"你对996的看法","name":"李四","content":"狼儿不吃肉啊,嘿嘿嘿嘿", "vote": 10000}
{"index": {"_id": 3}}
{"topic":"你对996的看法","name":"王五","content":"狼性文化,呵呵呵呵", "vote": 1000}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

接着我们来搜索topic的内容为你对996的看法的文档,如下:

POST talk_about996/_search
{
    "query": {
        "multi_match": {
            "query": "你对996的看法",
            "fields": [
                "topic"
            ]
        }
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

在这里插入图片描述
分数完全相同,此时如果我们希望投票多的有更高的分数,该怎么办呢?就可以使用function score query 了,如下:

POST talk_about996/_search
{
    "query": {
        "function_score": {
            "query": {
                "multi_match": {
                    "query": "你对996的看法",
                    "fields": [
                        "topic"
                    ]
                }
            },
            "field_value_factor": {
                "field": "vote"
            }
        }
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18

在这里插入图片描述
此时vote数高的,得分就高了。得分计算公式为相关度评分*vote,如下图:
在这里插入图片描述
此时我们又发现投票数高的得分异常的高,如果我们希望各个得分之间相差不要这么大的话,则可以再添加modifier参数来对计算的结果进行再次的运算,比如添加"modifier": "log1p",则计算得分公式变为相关度评分*log(1+vote)

1.1:增加modifier

如下:

POST talk_about996/_search
{
    "query": {
        "function_score": {
            "query": {
                "multi_match": {
                    "query": "你对996的看法",
                    "fields": [
                        "topic"
                    ]
                }
            },
            "field_value_factor": {
                "field": "vote",
                "modifier": "log1p"
            }
        }
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19

在这里插入图片描述
得分的差距就没有那么大了,会更加利于我们来做数据的统计分析等工作。

实际上modifier还支持其他的数学运算符,具体如下:
在这里插入图片描述

1.2:增加factor

我们还可以增加facotr,仅以的影响评分计算,此时公式会变为相关度评分*log(1+facotr*vote)

如下:

POST talk_about996/_search
{
    "query": {
        "function_score": {
            "query": {
                "multi_match": {
                    "query": "你对996的看法",
                    "fields": [
                        "topic"
                    ]
                }
            },
            "field_value_factor": {
                "field": "vote",
                "modifier": "log1p",
                "factor": 0.1
            }
        }
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

在这里插入图片描述

1.3:boost mode和max boost

在上面的例子中最终得分都是取的相关度评分和新的分的乘积,这里的乘是通过参数boost_mode来指定的,即不指定默认就是"boost_mode": "multiply",具体支持的类型列表如下:
v
如下修改为sum:
在这里插入图片描述
max boost用来限制最高得分,如下限制最高得分为2000分:
在这里插入图片描述

1.4:random score

如果我们的业务场景要求,按照随机的顺序来返回数据,此时就可以使用random socore,并给定义一个seed值,不同的seed值返回顺序不同,相同的seed值多次查询返回的顺序不会改变,如下:

POST talk_about996/_search
{
    "query": {
        "function_score": {
            "random_score": {
              "seed": 314159265359
            }
        }
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

在这里插入图片描述
以及:
在这里插入图片描述

写在后面

参考文章列表

ElasticSearch之单值多字段查询以及multi match

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/262679
推荐阅读
相关标签
  

闽ICP备14008679号