论文选读-异构协同计算SpGEMM
最近的优化工作进行之后,发现CPU的空闲时间还是比较多的,如果后续确认计算瓶颈,考虑是否能把CPU也加入计算部分。集群上的CPU性能比较差,可能没有空间,不过还是阅读了两篇工作。
异构协同计算Sp ...
论文选读-异构平台的分布式GEMM
近期工作的Distributed-SpGEMM的相关参考太少了,考虑到本身应用的矩阵的稀疏度比较低,比较稠密,读一些分布式GEMM论文作参考。
异构平台的分布式GEMM1 A Submatrix- ...
昇腾算子挑战赛S5
昇腾算子挑战赛S5的WriteUp。本次是抽空参加,就只重点完成了Lcm,因为可以直接在上一次决赛的GCD算子上面修改,这一题也获得了本次的单题第一,其他两题只是在前十,做的一般。
1 Bitwise ...
PAC 2025赛后总结
PAC 2025赛后总结主要的问题在于int8 gemm优化不足,未优化的部分包括:
OMP_WAIT_POLICY:启用为ACTIVE,减少线程唤醒的时间
对A的打包应该视为int32数据类型的转 ...
高级计算机网络-协议与调度
1 Fat-Tree网络拓扑Fat - Tree(胖树)是一种分层的网络拓扑结构,主要用于构建高性能的计算机网络,尤其是在数据中心网络(Data Center Network,DCN)和高性能计算(H ...
高级计算机网络-测量
网络测量1 FlowRadar1.1 记录流量信息的常用数据结构哈希表
哈希表有B个桶及相应索引,每个桶包含:
flowID:例如一个五元组,用于标识网络流量
Counter:计数器,记录流量的包数 ...
FastLoad-针对GPU加速访存的SpMV算法
偶然看到本科时体系结构课程老师实验室的一篇工作,是GPU上的SpMV,在suitsparse所有矩阵上性能表现优异,发表在TPDS24上,印象深刻,最近有时间阅读,做个仔细的笔记。
FastLoad: ...
近期工作的一些问题记录
近期工作的一些问题记录。
1 包管理库的管理搜索
123apt list --install | grep apt search packageKeyWordwhereis libscalapack- ...
ScalapackTest
近期的工作需要熟悉scalapack的数据格式,做个简单记录。
采用了直接通过apt安装的方式:
1sudo apt-get install libscalapack-openmpi-dev
如果是编 ...
ICT鲲鹏性能挑战赛复盘
ICT鲲鹏HPC性能挑战赛赛后复盘,虽然拿到了一等奖,但是犯的错误很多,有必要进行复盘。
题目一Hypre求解优化。核心优化是使用了粗化策略,使求解网格规模更小,以及调整其他配置,在setup时间和 ...









