记一次pyspark性能提升,np.frombuffer的使用
之前项目中有个任务是读取一堆二进制文件,对二进制文件进行解析,然后存到HBase。由于有 .mat 文件,整个 spark 都用 pyspark 写来着,也没用 scala。最近天天都在写文档啥的,还得写毕业论文,觉得太没劲了就研究了一下优化的问题,顺便更新下博客,好久没更新了。
之前项目中有个任务是读取一堆二进制文件,对二进制文件进行解析,然后存到HBase。由于有 .mat 文件,整个 spark 都用 pyspark 写来着,也没用 scala。最近天天都在写文档啥的,还得写毕业论文,觉得太没劲了就研究了一下优化的问题,顺便更新下博客,好久没更新了。
应甲方需求,写一个 pyspark 读写 HBase 的教程。主要包含了基本读写方法和自定义 Converter 的方法。
最近项目上有个需求,使用 pyspark 读取 HBase 中存储的 java.math.BigDecimal。
Kafka是一个分布式、流式消息平台,是一套发布订阅系统,通俗来说就是Kafka producer发布数据至Kafka brokers,然后由Kafka consumer从brokers拉取数据,进行消费。
vcenter迁移虚拟机的时候,迁移之后虚拟机网络不通。
zookeeper通常以“复制模式”运行于一个计算机集群上,这个计算机集群被称为一个“集合体”。zookeeper通过复制来实现高可用性,只要集合体中半数以上的机器处于可用状态,它就可以提供服务。出于这个原因,一个集合体通常包含奇数台机器。
Hadoop HA安装二:MySQL双机热备
Hadoop HA安装一:安装和配置ntp,ssh和jdk