CUDA笔记2
CUDA 笔记2Reference:
https://face2ai.com/program-blog/#GPU%E7%BC%96%E7%A8%8B%EF%BC%88CUDA%EF%BC%89
4 共 ...
CUDA笔记1
CUDA 笔记CUDA笔记。
Reference:
https://face2ai.com/program-blog/#GPU编程(CUDA)
https://github.com/HeKun-NV ...
《并行计算与高性能计算》简记
并行计算与高性能计算》阅读简记。
第一部分 并行计算介绍
并行计算的基本定律:
Amdahl定律
强标度:总体问题规模确定,处理器数量增加,求解时间的变化。
弱标度:单个处理器处理的问题规模确定,处 ...
Graph500
Graph500 Benchmarks1 Benchmark1.1 OverallGraph 500是针对数据密集型计算问题设计的一个基准测试。该基准测试包括一个生成器,生成无向图给后两个内核使用,不 ...
MPI4py
mpi4py实现了MPI的很多接口,并可以方便的在多进程中传递python的数据结构,编写python多进程程序。
https://mpi4py.readthedocs.io/en/stable/tu ...
Arm-Performance-Lib
Arm Performance Libraries是ARM提供的ARM架构下的性能库,提供了Fortran和c的API,子程序包括BLAS,LAPACK。
doc:https://developer. ...
PETSc
一.安装/配置PETScPETSc需要MPI和BLAS库。还有gcc等基础包。mpich可以直接apt-get安装:1sudo apt-get install mpich
如果不确定有没有安装BLAS ...
Merge-based Sparse Matrix-Vector Multiplication (SpMV) using the CSR Storage Format
Merge-based Sparse Matrix-Vector Multiplication (SpMV) using the CSR Storage Format这是一篇来自PPoPP的2016年 ...
Performance Optimization of SpMV by Considering Scheduling on CPUs
Performance optimization of SpMV using CRS format by considering OpenMP scheduling on CPUs and MIC该篇 ...
Optimizing SpMV on Emerging Many-Core Architectures
Optimizing SpMV on Emerging Many-Core Architectures本文实现了一个针对众核平台实现的自适应格式选择的模型,能够针对不同矩阵选择合适的压缩矩阵格式进行计 ...