100人参与 • 2024-12-13 • ar
当需要分页查询大量的桶时composite 聚合可以通过分页的方式逐步获取桶结果,避免一次性返回大量的桶 。
与传统分页方法不同,composite aggregation
并不基于结果的偏移量(offset),而是基于聚合桶的游标机制来实现分页,从而避免了性能瓶颈。
composite aggregation
是 elasticsearch 中的一种特殊聚合方式,适用于需要分页展示的聚合结果。它与传统的聚合方式不同,采用了基于游标的分页模型。composite aggregation
不依赖 from
和 size
来进行分页,而是通过 after
参数来指定从某个特定桶之后开始返回数据,从而实现分页。
假设我们有一个索引,名称为 your_index_name
,其中包含多个文档,每个文档都有一个字段 your_field_name
。我们希望根据这个字段进行分页查询,并且每次返回 10 个聚合结果。
以下是一个基础的分页查询示例:
get /your_index_name/_search { "size": 0, "aggs": { "my_composite_agg": { "composite": { "size": 10, "sources": [ { "my_terms_agg": { "terms": { "field": "your_field_name" } } } ] } } } }
size
设置为 0:由于我们使用的是聚合查询,而非文档查询,所以不需要返回文档内容。size: 0
意味着查询结果中不会包含文档,只会返回聚合的结果。composite
聚合:这是我们实现分页的关键。composite
聚合会根据指定的聚合方式返回一个分页的桶(bucket)结果。每个桶代表了根据 your_field_name
字段分组后的数据。size: 10
:表示每次返回 10 个桶,即每页 10 条聚合结果。sources
:这是定义如何分组数据的部分。这里,我们使用了 terms
聚合,根据 your_field_name
字段的值对文档进行分组。要实现分页,我们需要使用 after
参数来指示从哪个位置开始返回数据。这个参数的值是上一个查询返回的最后一个桶的 key
值。
下面是如何获取第二页结果的示例:
get /your_index_name/_search { "size": 0, "aggs": { "my_composite_agg": { "composite": { "size": 10, "after": ["bucket_key_from_first_page"], // 第一页的最后一个桶的key值 "sources": [ { "my_terms_agg": { "terms": { "field": "your_field_name" } } } ] } } } }
after
参数:这是实现分页的关键,after
参数的值应该是上一页结果的最后一个桶的 key
值(可以通过上一页查询结果中的 after_key
获取)。after
参数告诉 elasticsearch 从哪个位置开始返回数据,从而实现分页。after_key
:在每次查询的返回结果中,除了聚合的结果之外,还可以看到一个 after_key
字段,这个字段就是下一次分页查询所需要使用的 after
参数的值。例如,假设第一次查询的返回结果包含以下聚合信息:
{ "aggregations": { "my_composite_agg": { "buckets": [ { "key": { "your_field_name": "value1" }, "doc_count": 10 }, { "key": { "your_field_name": "value2" }, "doc_count": 15 }, // ... 更多桶 ], "after_key": { "your_field_name": "value2" } } } }
在第二次分页查询时,我们需要使用 after_key
中的 your_field_name: "value2"
作为 after
参数的值,以此来获取下一页的结果。
官方案例
get /_search { "size": 0, "aggs": { "my_buckets": { "composite": { "size": 2, "sources": [ { "date": { "date_histogram": { "field": "timestamp", "calendar_interval": "1d" } } }, { "product": { "terms": { "field": "product" } } } ] } } } }
返回
{ ... "aggregations": { "my_buckets": { "after_key": { "date": 1494288000000, "product": "mad max" }, "buckets": [ { "key": { "date": 1494201600000, "product": "rocky" }, "doc_count": 1 }, { "key": { "date": 1494288000000, "product": "mad max" }, "doc_count": 2 } ] } } }
下次查询
get /_search { "size": 0, "aggs": { "my_buckets": { "composite": { "size": 2, "sources": [ { "date": { "date_histogram": { "field": "timestamp", "calendar_interval": "1d", "order": "desc" } } }, { "product": { "terms": { "field": "product", "order": "asc" } } } ], "after": { "date": 1494288000000, "product": "mad max" } } } } }
composite aggregation
非常适用于以下场景:
composite aggregation
可以避免偏移的性能开销。composite aggregation
是最合适的方式。composite aggregation
通过游标机制避免了这个问题。after
参数的类型:after
参数的值类型与 sources
中定义的聚合字段类型保持一致。例如,如果你的字段是字符串类型,那么 after
参数应该是字符串类型;如果是数字类型,那么应该是数字类型。composite aggregation
是基于聚合桶的游标来分页的,因此分页的顺序依赖于聚合字段的值排序。如果数据分布不均,可能会导致每页的桶数不一致。size
参数控制每页的结果数,但需要注意的是,composite aggregation
每次最多只会返回 10,000 个桶。如果你的分页范围超过这个数量,可能需要对数据进行分片或者其他优化。到此这篇关于elasticsearch 使用 composite aggregation 实现桶的分页查询的文章就介绍到这了,更多相关elasticsearch 使用 composite aggregation内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
您想发表意见!!点此发布评论
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论