首页 > 编程语言 > 详细

Python 用最小堆获取大量元素 topk 大个元素

时间:2021-03-28 21:48:16      阅读:39      评论:0      收藏:0      [点我收藏+]
import heapq
class TopK:
    """
    获取大量元素 topk 大个元素,固定内存
    思路:
    1. 先让入元素前 k 个建立一个最小堆
    2. 迭代剩余元素:
        如果当前元素小于堆顶元素,跳过该元素
        否则替换堆顶元素为当前元素,并重新调整堆
    """
    def __init__(self, iterable, k):
        self.minheap = []
        self.capacity = k
        self.iterable = iterable

    def push(self, val):
        if len(self.minheap) >= self.capacity:
            min_val = self.minheap[0]
            if val < min_val:
                pass
            else:
                heapq.heapreplace(self.minheap, val)  # 返回并且pop堆顶最小值,推入新的 val 并调整堆
        else:
            heapq.heappush(self.minheap, val)  # 前面 k 个值直接放入minheap

    def get_topk(self):
        for val in self.iterable:
            self.push(val)
        return self.minheap


def test():
    import random
    i = list(range(1000))
    random.shuffle(i)
    _ = TopK(i, 10)
    res = _.get_topk()
    print(sorted(res))


test()

Python 用最小堆获取大量元素 topk 大个元素

原文:https://www.cnblogs.com/jiaoran/p/14589864.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!