Nvidia
- 【CUDA】并行编程:理解Grid、Block、Thread
- 【CUDA】内存模型:从Global到Shared Memory
- 【CUDA】执行模型:理解Warp、SMIT与Occupancy
- 【CUDA】归约优化:从分支分歧到Warp Shuffle
- 【CUDA】内存优化:矩阵转置解析
- GPU与CPU的架构分野:并行计算的硬件哲学
- 【GPU】互联架构:NVLink、NVSwitch与NCCL
- 【GPU】分布式通信:从Ring-AllReduce到NCCL
- AI 芯片的十年跃迁:Tenser Core、精度与 HBM
- 【Linux】cgroups:容器化GPU隔离的基石
- 【GPU】设备管理:从/dev/nvidia到CUDA Runtime
- 【GPU】NUMA架构:CPU-GPU亲和性优化
- 【Slurm】GPU集群调度:基础架构与GRES