记一次pyspark性能提升,np.frombuffer的使用

之前项目中有个任务是读取一堆二进制文件,对二进制文件进行解析,然后存到HBase。由于有 .mat 文件,整个 spark 都用 pyspark 写来着,也没用 scala。最近天天都在写文档啥的,还得写毕业论文,觉得太没劲了就研究了一下优化的问题,顺便更新下博客,好久没更新了。

Read More

github大文件上传

刚才开源了我们组在AAAI 2020上一篇论文的代码和数据,上传数据的时候超了GitHub的100M大小限制,GitHub说让我用lfs解决,研究了一下怎么传,记录一下,以后说不定还会用到。

Read More

MXNet 与 cuda 版本兼容的问题

最近在做实验的时候发现了一个非常神奇的问题,搞得我一度很郁闷。我在 kaggle 上面写了个 mxnet symbolic 的程序,在测试集上效果不错,论文都写完了,结果拿回实验室的 GPU 上一跑,发现结果复现不了了,差了两个点。但我所有的实验都做了 10 次,如果说 1 次实验效果好还可以说是巧合,但这是 10 次实验啊。

Read More

pyspark读写HBase

应甲方需求,写一个 pyspark 读写 HBase 的教程。主要包含了基本读写方法和自定义 Converter 的方法。

Read More