记一次pyspark性能提升,np.frombuffer的使用

之前项目中有个任务是读取一堆二进制文件,对二进制文件进行解析,然后存到HBase。由于有 .mat 文件,整个 spark 都用 pyspark 写来着,也没用 scala。最近天天都在写文档啥的,还得写毕业论文,觉得太没劲了就研究了一下优化的问题,顺便更新下博客,好久没更新了。

Read More

pyspark读写HBase

应甲方需求,写一个 pyspark 读写 HBase 的教程。主要包含了基本读写方法和自定义 Converter 的方法。

Read More

Kafka生产者与消费者

Kafka是一个分布式、流式消息平台,是一套发布订阅系统,通俗来说就是Kafka producer发布数据至Kafka brokers,然后由Kafka consumer从brokers拉取数据,进行消费。

Read More

Hadoop HA安装三:zookeeper的安装

zookeeper通常以“复制模式”运行于一个计算机集群上,这个计算机集群被称为一个“集合体”。zookeeper通过复制来实现高可用性,只要集合体中半数以上的机器处于可用状态,它就可以提供服务。出于这个原因,一个集合体通常包含奇数台机器。

Read More