作为Pandas的重要补充,Polars与Pandas结合能够弥补Pandas在处理超大数据集上的不足,尤其是读取速度、内存溢出、计算饱和等问题。
下面,让我们来感受下Polars在处理超大数据集上的速度感!
演示1:基础属性的速度
我们看到,2.65G的csv文件,使用polars的延迟读取函数scan_csv,几乎不需要时间。
查看这个超大文件的列名称,只用于22.7ms,也就是0.0227秒。
输出前5行,使用了4.6ms毫秒,输出最后5行,使用了5.56s秒。
新增1列,查看2.65G的csv文件的行数,有1554万多行,共有19列。
演示2:统计的速度
计算1列的1554万个数值的和,使用了2.75秒。
计算1列的1554万个数值的平均值,使用了3.58秒。
筛选1列的1554万个数值,延迟执行几乎不需要时间,立即执行使用了5.12秒。
对列trip_distance进行排序,之后提取前5行,只用了50.4毫秒。
示例3:分组的速度
对分类列1500多万行数据进行个数统计,使用了1.45秒。
分组聚合求平均值,只使用了2.78秒。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/598551.html