Python 生成器和迭代器详解

在 Python 中，迭代器和生成器对于高效处理数据序列至关重要。它们提供了一种迭代数据的方法，而无需将整个数据集存储在内存中。这在处理大型数据集或数据流时特别有用。本文将解释迭代器和生成器是什么、它们如何工作以及如何在 Python 中使用它们。

什么是迭代器？

迭代器是实现迭代器协议的对象，由两个方法组成：__iter__() 和 __next__()。__iter__() 方法返回迭代器对象本身，而 __next__() 方法返回序列中的下一个值。当没有更多项可返回时，__next__() 会引发 StopIteration 异常以表示迭代应该结束。

class MyIterator:
    def __init__(self, limit):
        self.limit = limit
        self.count = 0

    def __iter__(self):
        return self

    def __next__(self):
        if self.count < self.limit:
            self.count += 1
            return self.count
        else:
            raise StopIteration

# Using the iterator
iter_obj = MyIterator(5)
for num in iter_obj:
    print(num)

什么是发电机？

生成器是一种特殊类型的迭代器，可简化迭代器的创建。生成器使用 yield 语句而不是返回值。每次调用 yield 时，都会保存函数的状态，使其可以从中断处恢复。生成器使用常规函数定义，但使用 yield 而不是 return。

def my_generator(limit):
    count = 0
    while count < limit:
        count += 1
        yield count

# Using the generator
for num in my_generator(5):
    print(num)

迭代器和生成器的比较

虽然迭代器和生成器都用于迭代，但它们的实现和用法有所不同：

内存效率： 生成器比迭代器更节省内存，因为它们即时生成值并且不需要将整个序列存储在内存中。
易用性： 与自定义迭代器相比，生成器更易于编写和理解。它们需要的样板代码更少，而且更简洁。
状态管理： 生成器自动处理状态管理并在内部跟踪其进度，而自定义迭代器需要明确管理状态。

使用生成器生成复杂数据流

生成器对于处理复杂的数据流特别有用，例如从文件中读取行或处理大型数据集。以下是一次从文件中读取一行的生成器示例：

def read_lines(filename):
    with open(filename, 'r') as file:
        for line in file:
            yield line.strip()

# Using the generator to read lines from a file
for line in read_lines('example.txt'):
    print(line)

组合生成器

您还可以将多个生成器链接在一起，分阶段处理数据。这是通过让一个生成器调用另一个生成器来实现的。以下是组合生成器来处理和过滤数据的示例：

def numbers():
    yield 1
    yield 2
    yield 3
    yield 4
    yield 5

def even_numbers(gen):
    for number in gen:
        if number % 2 == 0:
            yield number

# Combining generators
for even in even_numbers(numbers()):
    print(even)

结论

生成器和迭代器是 Python 中功能强大的工具，可实现高效的数据处理和迭代。了解如何创建和使用它们可以大大提高代码的性能和可读性，尤其是在处理大型或复杂数据集时。通过利用生成器和迭代器，您可以编写更高效、更可扩展的 Python 程序。

python 迭代器生成器 yield 迭代器协议对象迭代序列高效流自定义状态