ICT鲲鹏性能挑战赛复盘
ICT鲲鹏HPC性能挑战赛赛后复盘,虽然拿到了一等奖,但是犯的错误很多,有必要进行复盘。
题目一Hypre求解优化。核心优化是使用了粗化策略,使求解网格规模更小,以及调整其他配置,在setup时间和 ...
未添加static导致的编译优化问题
在某个比赛调试程序时遇到的未添加static导致的编译优化问题,起因是和队友分别负责了具有相似结构仅针对数据规模特化的两份代码的编写。但性能差别较大。测试环境为:
kunpeng单NUMA node ...
OpenFFT-SME-FFT算法在支持SME指令集的CPU上的实现
OpenFFT-SME: An Effcient Outer Product Pattern FFT Library on ARM SME CPUs本篇文章来自IPDPS24,介绍了OpenFFT,一 ...
FFT-快速傅里叶变换
快速傅里叶变换是离散傅里叶变换(DFT)的快速算法。若x(n)是一个长度为M的有限长序列,则x(n)的N点DFT如下,式中$W_N=e^{-j\frac{2\pi}{N}}$。其计算可表示为矩阵乘向量 ...
DiffMorpher
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing1 研究背景1.1 图像变形(Image mo ...
CUDA笔记2
CUDA 笔记2Reference:
https://face2ai.com/program-blog/#GPU%E7%BC%96%E7%A8%8B%EF%BC%88CUDA%EF%BC%89
4 共 ...
CUDA笔记1
CUDA 笔记CUDA笔记。
Reference:
https://face2ai.com/program-blog/#GPU编程(CUDA)
https://github.com/HeKun-NV ...
《并行计算与高性能计算》简记
并行计算与高性能计算》阅读简记。
第一部分 并行计算介绍
并行计算的基本定律:
Amdahl定律
强标度:总体问题规模确定,处理器数量增加,求解时间的变化。
弱标度:单个处理器处理的问题规模确定,处 ...
Graph500
Graph500 Benchmarks1 Benchmark1.1 OverallGraph 500是针对数据密集型计算问题设计的一个基准测试。该基准测试包括一个生成器,生成无向图给后两个内核使用,不 ...
MPI4py
mpi4py实现了MPI的很多接口,并可以方便的在多进程中传递python的数据结构,编写python多进程程序。
https://mpi4py.readthedocs.io/en/stable/tu ...