FastLoad-针对GPU加速访存的SpMV算法
偶然看到本科时体系结构课程老师实验室的一篇工作,是GPU上的SpMV,在suitsparse所有矩阵上性能表现优异,发表在TPDS24上,印象深刻,最近有时间阅读,做个仔细的笔记。
FastLoad: ...
近期工作的一些问题记录
近期工作的一些问题记录。
1 包管理库的管理搜索
123apt list --install | grep apt search packageKeyWordwhereis libscalapack- ...
ScalapackTest
近期的工作需要熟悉scalapack的数据格式,做个简单记录。
采用了直接通过apt安装的方式:
1sudo apt-get install libscalapack-openmpi-dev
如果是编 ...
ICT鲲鹏性能挑战赛复盘
ICT鲲鹏HPC性能挑战赛赛后复盘,虽然拿到了一等奖,但是犯的错误很多,有必要进行复盘。
题目一Hypre求解优化。核心优化是使用了粗化策略,使求解网格规模更小,以及调整其他配置,在setup时间和 ...
未添加static导致的编译优化问题
在某个比赛调试程序时遇到的未添加static导致的编译优化问题,起因是和队友分别负责了具有相似结构仅针对数据规模特化的两份代码的编写。但性能差别较大。测试环境为:
kunpeng单NUMA node ...
OpenFFT-SME-FFT算法在支持SME指令集的CPU上的实现
OpenFFT-SME: An Effcient Outer Product Pattern FFT Library on ARM SME CPUs本篇文章来自IPDPS24,介绍了OpenFFT,一 ...
FFT-快速傅里叶变换
快速傅里叶变换是离散傅里叶变换(DFT)的快速算法。若x(n)是一个长度为M的有限长序列,则x(n)的N点DFT如下,式中$W_N=e^{-j\frac{2\pi}{N}}$。其计算可表示为矩阵乘向量 ...
DiffMorpher
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing1 研究背景1.1 图像变形(Image mo ...
CUDA笔记2
CUDA 笔记2Reference:
https://face2ai.com/program-blog/#GPU%E7%BC%96%E7%A8%8B%EF%BC%88CUDA%EF%BC%89
4 共 ...
CUDA笔记1
CUDA 笔记CUDA笔记。
Reference:
https://face2ai.com/program-blog/#GPU编程(CUDA)
https://github.com/HeKun-NV ...