记一次pyspark性能提升,np.frombuffer的使用
之前项目中有个任务是读取一堆二进制文件,对二进制文件进行解析,然后存到HBase。由于有 .mat 文件,整个 spark 都用 pyspark 写来着,也没用 scala。最近天天都在写文档啥的,还得写毕业论文,觉得太没劲了就研究了一下优化的问题,顺便更新下博客,好久没更新了。
之前项目中有个任务是读取一堆二进制文件,对二进制文件进行解析,然后存到HBase。由于有 .mat 文件,整个 spark 都用 pyspark 写来着,也没用 scala。最近天天都在写文档啥的,还得写毕业论文,觉得太没劲了就研究了一下优化的问题,顺便更新下博客,好久没更新了。
应甲方需求,写一个 pyspark 读写 HBase 的教程。主要包含了基本读写方法和自定义 Converter 的方法。
最近项目上有个需求,使用 pyspark 读取 HBase 中存储的 java.math.BigDecimal。