曙海培训-GPU高级调试与优化培训,高新技术培训中心,注重实战苏州北京合肥青岛南京石家庄天津深圳广州成都

序言：三轮演进	要点：VGA，TVGA，硬件加速，2D加速和3D加速，Voodo，从可配置到可编程，G80，GPGPU，John Nickolls，Brook和CUDA，GPU的四大功能模块
第一部分：在CUDA-GDB中理解CUDA	要点：CUDA简要历史，CUDA的C扩展，kernel函数，WARP，CUDA的线程组织，准备调试环境，单GPU调试和多GPU调试，远程调试，nvcc，-G和-g选项，附加到已经运行的进程，启用kernel初始断点（break on launch），观察源代码和汇编指令，设置断点，单步跟踪，条件断点，观察CUDA的内建变量，PTX指令集，理解WARP、grid、block和thread，Grid-Stride Loops，观察GPU线程，观察GPU的调用栈，观察GPU的寄存器，观察错误信息，从GPU上打印信息试验1：编译和观察简单的CUDA程序编译一个简单的CUDA程序，使用CUDA SDK中的二进制工具观察其内容，理解CUDA的编译过程和程序文件格式试验2：改进和调试向量乘法程序使用CUDA技术编写一个做向量乘法的小程序，理解如何向kernel函数传递参数和传回计算结果试验3：学习CUDA-GDB的基本用法调试一个简单CUDA程序，练习常用的CUDA-GDB扩展命令，理解CUDA编程的关键概念
第二部分：使用NSight调试CUDA程序	要点：NSight简介，安装和设置环境信息，CUDA 9.0.props，窗口布局，在VS中编译CUDA程序，产生调试信息（-G），本地调试模型，NSight Monitor，设置断点，观察变量，在Cuda Info窗口中观察计算状态，WarpWatch，调用栈，源代码跟踪，PTX/SASS汇编调试，数据断点，API Trace，OpenCL kernel追踪，产生GPU转储（core dump），调优功能试验4：使用Visual Studio和NSight调试CUDA程序在VS中编译和调试一个典型的并行计算程序，熟悉NSight提供的常用调试功能，包括产生调试信息，建立调试会话，设置各种断点，观察源代码和变量，单步跟踪等
第三部分：显存锥鉴	要点：系统架构，内存映射，PCI Aperture，GART，GTT，访问主内存， UVA/ UMA ，Batch Buffer ，CUDA中的内存类型，内存共享，内存复制，使用本地共享内存（shared memory），使用 CUDA memory checker 检查内存问题（越界访问），使用Nsight的内存调优功能
第四部分：使用NSight调试图形程序	要点：感受3D图形魅力，从DX9到DX12，WDDM，UMD、KMD 和DX运行时，DRM，GEM和KMS，启用DRM的调试功能，HLSL，DirectCompute 的遗憾，PIX，Intel GPA，HUD，HUD图表，热键，HUD控制界面，VS的图形分析器（VSGA），Nsight的图形调试试验5：使用NSight调试3D图形程序在VS中编译和调试一个典型的3D程序，使用HUD功能观察GPU工作细节，使用VSGA深入分析某一帧画面的产生细节，认识DirectX软件栈中的关键组件和执行过程
第五部分：NVidia GPU微架构	要点：G80，从SIMD到SIMT，warp，SM（Streaming Multiprocessors），Fermi微架构，PTX指令集，GigaThreads调度器，ECC支持，第三代SM，Kepler微架构，Hyper-Q，Grid Management Unit（GMU），SMX，动态并行，Maxwell微架构，SMM，指令缓存，WARP调度器，指令分发单元，Pascal微架构，伏特微架构，Tensor Core，软件仿真（GPUSim）
第六部分：在 Code-Builder 中理解 OpenCL	要点： OpenCL版本，标准导读，执行模型，运行时，OpenCL的执行硬件，CPU 模拟，SIMD，kernel 函数， Code-Builder简介，离线编译和在线编译，ND Range ，启动算核函数，使用Code-Builder的调试功能，观察device信息，context ，对象树，命令队列，内建函数
第七部分：计算机视觉加速接口(OpenVX)和英特尔实现	要点：OpenVX简介，框架对象，数据对象，图（graph），节点，节点参数，执行模型，回掉，用户kernel，常用功能的接口函数，Intel CV SDK，Vision Algorithm Designer（VAD），自动产生C++代码，人脸检测实力分析和演示试验6：使用Code-Builder调试人脸检测程序调试Intel CV SDK中的人脸检测示例程序，练习常用的调试功能，理解OpenVX的工作原理
第八部分：英特尔GPU综述	要点：Intel显卡简史，GEN架构，固定功能单元和通用计算单元（EU），EU结构，Slice 和 SubSlice，公开的编程手册，寄存器，GRF和ARF，VLIW，GEN指令集，LINUX驱动，i915，SRB驱动，开源项目（Beignet，NEO，CM，IGC）
第九部分：使用 CUDA profiler 优化CUDA程序	要点：测量GPU的时间，nvprof，命令行选项，指定收集范围，定义输出目标，Visual Profiler基础，配置远程目标，导入数据，观察时序图，识别重要事件：CPU缺页，GPU缺页，数据迁移，内存复制；采样视图，分析热点，源代码和汇编结合分析，Profile API，定义别名，定制标记，创建调优会话试验7：使用nvprof和Visual Profiler优化CUDA程序使用nvprof观察CUDA程序的执行细节，收集性能数据，在Visual Profiler中进行深入分析
第十部分：使用GPUView分析CPU与GPU交互	要点：ETW基础，log.cmd，收集事件，识别典型问题：GPU/CPU Starvation ，CPU/GPU Idle，线程切换，分析线程切换原因，实例演示试验8：使用GPUView观察GPU的工作状态安装GPUView，使用GPUView分析一个典型3D图形程序，理解GPUView的常用功能
第十一部分：AMD GPU和HSA	要点：从ATI到AMD，HSA联盟，公开的技术手册，APU和GCN，GCN3解析，硬件架构，支持HSA的LINUX驱动，调试支持，软件工具链：GpuOpen.com，Radeon GPU Analyzer (RGA)，使用GPU PerfStudio调试图形程序，CodeXL简介，使用CodeXL调试和优化OpenCL程序，CodeXL功能演示
第十二部分：ARM GPU	要点：Mali，典型应用，在深度学习中的应用（inference），Midgard 微架构解析，内部结构，通用计算执行单元，DS-5简介， DS-5 编译工具，DS-5调试器，Streamline性能分析工具，DS-5 IDE 介绍, 系统时域范围的自下而上和自上而下分析方法，自定义标注，Log的图形化显示，OpenCL Kernel跟踪, 找到代码热点，调用链分析，矩阵乘法的优化，ARM GPU软件工具链，OpenVX实现，开源代码解读，实例演示：在Midgard GPU上调试OpenCL程序（使用OpenCL加速的人脸检测应用）

GPU高级调试与优化培训

课程介绍

精品课程班级列表