Pandas数据处理实战: 感受polars处理超大数据集的速度

白领也得会科技吖2024-05-27 10:47:56 148

作为Pandas的重要补充，Polars与Pandas结合能够弥补Pandas在处理超大数据集上的不足，尤其是读取速度、内存溢出、计算饱和等问题。

下面，让我们来感受下Polars在处理超大数据集上的速度感！

演示1：基础属性的速度

我们看到，2.65G的csv文件，使用polars的延迟读取函数scan_csv，几乎不需要时间。

查看这个超大文件的列名称，只用于22.7ms，也就是0.0227秒。

输出前5行，使用了4.6ms毫秒，输出最后5行，使用了5.56s秒。

新增1列，查看2.65G的csv文件的行数，有1554万多行，共有19列。

演示2：统计的速度

计算1列的1554万个数值的和，使用了2.75秒。

计算1列的1554万个数值的平均值，使用了3.58秒。

筛选1列的1554万个数值，延迟执行几乎不需要时间，立即执行使用了5.12秒。

对列trip_distance进行排序，之后提取前5行，只用了50.4毫秒。

示例3：分组的速度

对分类列1500多万行数据进行个数统计，使用了1.45秒。

分组聚合求平均值，只使用了2.78秒。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益，请与本站联系，我们将及时更正、删除、谢谢。
https://www.414w.com/read/598551.html

随机主题

最新回复(0)