赞
踩
主机端(Host)
,负责逻辑控制、数据分发,GPU为设备端(Device)
,负责并行数据的密集型计算。其中,ALU为算数运算单元。(SM)
的可扩展阵列搭建的。下图是英伟达公司的Fermi架构SM的示意图,SM的关键组件包括GPU核心、共享内存/一级缓存、寄存器文件、加载/存储单元、特殊功能单元和线程束调度器
。(Grid)
时,它的线程块(block)
被分布在了可用的SM上执行。(Thread)
是GPU的最小执行单元,能够完成一个逻辑操作,每个线程都有自己的指令地址计数器和寄存器状态,利用自身的数据执行当前的指令。(Warp)
是GPU的基本执行单元,包括32个线程,GPU每次调用线程都是以线程束为单位的,在一个线程束中,所有的线程按照单指令多线程(SIMT)
方式执行,即所有线程执行相同的指令。(Block)
中,同一个线程块中的所有线程,都可以使用共享内存
来进行通信、同步。__syncthreads()
来实现同步。__shared__
修饰。__constant__
修饰对齐内存访问和合并内存访问
。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。