0 GPU-mode

torch的core dev推荐书籍：《Programming Massively Parallel Processors》

<aside> 💡

进度：how-to-optim-algorithm-in-cuda / cuda-mode/lecture / 14-编程模型

</aside>

0.1 CUDA Related API & Function

API

cudaMallocManaged 统一内存

cudaOccupancyMaxPotentialBlockSize(&minGridSize, &blockSize, kernel, 0, 0); 查询最小gridsize和最佳blocksize

Function

__shfl_sync() 用于线程间通信的内置函数，实现了“shuffle”操作，即它可以从Warp内的任意线程获取数据，并将其广播给同一Warp中的其他线程。