Pandas数据处理实战: 感受polars处理超大数据集的速度

白领也得会科技吖2024-05-27 10:47:56  148

作为Pandas的重要补充,Polars与Pandas结合能够弥补Pandas在处理超大数据集上的不足,尤其是读取速度、内存溢出、计算饱和等问题。

下面,让我们来感受下Polars在处理超大数据集上的速度感!

演示1:基础属性的速度

我们看到,2.65G的csv文件,使用polars的延迟读取函数scan_csv,几乎不需要时间。

查看这个超大文件的列名称,只用于22.7ms,也就是0.0227秒。

输出前5行,使用了4.6ms毫秒,输出最后5行,使用了5.56s秒。

新增1列,查看2.65G的csv文件的行数,有1554万多行,共有19列。

演示2:统计的速度

计算1列的1554万个数值的和,使用了2.75秒。

计算1列的1554万个数值的平均值,使用了3.58秒。

筛选1列的1554万个数值,延迟执行几乎不需要时间,立即执行使用了5.12秒。

对列trip_distance进行排序,之后提取前5行,只用了50.4毫秒。

示例3:分组的速度

对分类列1500多万行数据进行个数统计,使用了1.45秒。

分组聚合求平均值,只使用了2.78秒。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/598551.html
0
最新回复(0)