赞
踩
对并行计算的了解
在以前的学习过程中,对并行计算的了解限于进程、线程的同步计算。在学习并行计算技术的过程中,了解到了很多新东西,新名词,在这里记录一下自己遇到了一些困惑和知识点,尤其以MPI为主,引出了一大堆新知识。
进程:
是并发执行的程序在执行过程中分配和管理资源的基本单位,是一个动态概念,竟争计算机系统资源的基本单位。每一个进程都有一个自己的地址空间,即进程空间或(虚空间)。进程空间的大小 只与处理机的位数有关,进程至少有5种基本状态,它们是:初始态,执行态,等待状态,就绪状态,终止状态。
线程:
在网络或多用户环境下,一个服务器通常需要接收大量且不确定数量用户的并发请求,为每一个请求都创建一个进程显然是行不通的,——无论是从系统资源开销方面或是响应用户请求的效率方面来看。因此,操作系统中线程的概念便被引进了。线程,是进程的一部分,一个没有线程的进程可以被看作是单线程的。线程有时又被称为轻权进程或轻量级进程,也是CPU调度的一个基本单位。
二者大致的区别:
上文提到进程之间的通信方式大多数是在同一主机之上的,而MPI是用于集群中的节点与节点的通信,个人理解MPI就是上文当中的的socket通信,可以理解为是一种通信库实现,利用它可以容易构造灵活的通信拓扑,例如点对点通信,一对多通信,多对多通信。例如,实现点对点通信底层可以走tcp,也可以走rdma,rdma可以走roce也可以走ib链路,所以根本上它是区分于tcp rdma之上的一种通信原语设计。
MPI可能会使用套接字。但是也存在与使用直接分布式共享存储器的SAN (系统区域网络)一起使用的MPI实现。当然,如果有硬件的话。因此,MPI允许我们在未来使用这些资源。在这种情况下,可以获得巨大的性能改进。因此,如果正在编写可以移植到高端集群的代码,那么使用MPI是一个非常好的主意。
总结:大多数MPI实现都使用套接字进行基于TCP的通信。与直接使用套接字的本地应用程序相比,任何给定的MPI实现都有可能得到更好的优化,并提供更快的消息传递速度。
MPI的并行方式和之前理解的多线程多进程的关系
MPI(MPI是一个标准,有不同的具体实现,比如MPICH等)是多主机联网协作进行并行计算的工具,当然也可以用于单主机上多核/多CPU的并行计算,不过效率低。它能协调多台主机间的并行计算,因此并行规模上的可伸缩性很强,能在从个人电脑到世界TOP10的超级计算机上使用。缺点是使用进程间通信的方式协调并行计算,这导致并行效率较低、内存开销大、不直观、编程麻烦。OpenMP是针对单主机上多核/多CPU并行计算而设计的工具,换句话说,OpenMP更适合单台计算机共享内存结构上的并行计算。由于使用线程间共享内存的方式协调并行计算,它在多核/多CPU结构上的效率很高、内存开销小、编程语句简洁直观,因此编程容易、编译器实现也容易(现在最新版的C、C++、Fortran编译器基本上都内置OpenMP支持)。不过OpenMP最大的缺点是只能在单台主机上工作,不能用于多台主机间的并行计算!如果要多主机联网使用OpenMP(比如在超级计算机上),那必须有额外的工具帮助,比如MPI+OpenMP混合编程。或者是将多主机虚拟成一个共享内存环境(Intel有这样的平台),但这么做效率还不如混合编程,唯一的好处是编程人员可以不必额外学习MPI编程。
这里又提到了一个新名词:OpenMP。
MPI、OPENMPI、OPENMP的异同
OpenMP比较简单,修改现有的大段代码也容易。基本上OpenMP只要在已有程序基础上根据需要加并行语句即可。而mpi有时甚至需要从基本设计思路上重写整个程序,调试也困难得多,涉及到局域网通信这一不确定的因素。不过,OpenMP虽然简单却只能用于单机多CPU/多核并行,MPI才是用于多主机超级计算机集群的强悍工具,当然复杂。所以:OpenMP使得程序员可以把更多的精力投入到并行算法本身,而非其具体实现细节。对基于数据分集的多线程程序设计,它是一个很好的选择。但是,作为高层抽象,OpenMP并不适合需要复杂的线程间同步和互斥的场合。OpenMP的另一个缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上,MPI使用较多。
(1)MPI=message passing interface:(再次以不同的角度介绍一下MPI)
在分布式内存(distributed-memory)之间实现信息通讯的一种 规范/标准/协议(standard)。它是一个库,不是一门语言。可以被fortran,c,c++等调用。MPI 允许静态任务调度,显示并行提供了良好的性能和移植性,用 MPI 编写的程序可直接在多核集群上运行。在集群系统中,集群的各节点之间可以采用MPI编程模型进行程序设计,每个节点都有自己的内存,可以对本地的指令和数据直接进行访问,各节点之间通过互联网络进行消息传递,这样设计具有很好的可移植性,完备的异步通信功能,较强的可扩展性等优点。MPI 模型存在一些不足,包括:程序的分解、开发和调试相对困难,而且通常要求对代码做大量的改动;通信会造成很大的开销,为了最小化延迟,通常需要大的代码粒度;细粒度的并行会引发大量的通信;动态负载平衡困难;并行化改进需要大量地修改原有的串行代码,调试难度比较大。
(2)MPICH和OpenMPI:
它们都是采用MPI标准,在并行计算中,实现节点间通信的开源软件。各自有各自的函数,指令和库。而MPICH2是MPICH的一个版本。有的计算机厂商,也会针对旗下机型特点,自主开发基于MPICH的MPI软件,从而使机器的并行计算效率得以提高。
(3)OpenMP:
在节点内(多核 SMP)执行的基于共享内存的编程模型。OpenMP是针对单主机上多核/多CPU并行计算而设计的工具,换句话说,OpenMP更适合单台计算机共享内存结构上的并行计算。由于使用线程间共享内存的方式协调并行计算,它在多核/多CPU结构上的效率很高、内存开销小、编程语句简洁直观,因此编程容易、编译器实现也容易(现在最新版的C、C++、Fortran编译器基本上都内置OpenMP支持)。不过OpenMP最大的缺点是只能在单台主机上工作,不能用于多台主机间的并行计算。
总结:OpenMP和MPI是并行编程的两个手段,对比如下:OpenMP:线程级(并行粒度);共享存储;隐式(数据分配方式);可扩展性差;MPI:进程级;分布式存储;显式;可扩展性好。OpenMP采用共享存储,意味着它只适应于SMP,DSM机器,不适合于集群。MPI虽适合于各种机器,但它的编程模型复杂:需要分析及划分应用程序问题,并将问题映射到分布式进程集合;需要解决通信延迟大和负载不平衡两个主要问题;调试MPI程序麻烦;MPI程序可靠性差,一个进程出问题,整个程序将错误;
OpenMP对应的实际上是单进程多线程的并发编程模型,可以将一个单线程的程序按for循环拆分成多线程——相当于pthread_create。对于同一个进程的多个线程来说,由于它们只是独占自己的栈内存,堆内存是共享的,因此数据交换十分地容易,直接通过共享变量就可以进行交换,编程模型非常简单易用,并且对于操作系统来说,线程的上下文切换成本也比进程低很多。然而另一方面,由于线程不能脱离进程独立存在,而一个进程不能存在于多台机器上,所以OpenMP只适用于拥有多个CPU核心的单台电脑。并且多线程编程存在临界区(Critical Section),需要你自己去加锁,解决Race Condition问题,否则的话很容易导致不可预知的后果。而MPI则是多进程的并发编程模型,相当于你自己调用fork——每一个进程的内存地址空间都是独立的,它们彼此之间几乎什么都不共享,只能通过进程间通信(IPC)来交换彼此的数据,因此编程难度明显要大很多。MPI有一个非常显著的优点,那就是对于一个分布式系统来说,进程是可以在分布式系统的每一台电脑之间转移的,因此对于拥有多台电脑的分布式系统来说,其并发性要明显好于OpenMP。下图展示了两种工具的性能对比。
(4)二者的结合
一个常见的集群设置使用分布式内存节点,每个节点包含几个彼此之间共享内存的插槽。这建议使用MPI在节点之间进行通信(节点间通信),使用OpenMP在节点上进行并行化(节点内通信)。在实践中,这实现了以下几点在每个节点上启动一个MPI进程(而不是每个核心一个)。这一个MPI进程然后使用OpenMP(或其他线程协议)来产生尽可能多的线程,这些线程在节点上有独立的套接字或核心。然后,OpenMP线程可以访问节点的共享内存。
另一种方法是在每个核或插槽上有一个MPI进程,通过消息传递进行通信,甚至可以看到进程之相同的共享内存。
C语言线程Pthread、OPENMP的异同
既然OpenMP是线程级别的,那与Pthread有是怎么样的关系?
首先mpi是基于分布式内存系统,而openmp和pthread基于共享内存系统;也就是说mpi之间的数据共享需要通过消息传递,因为mpi同步的程序属于不同的进程,甚至不同的主机上的不同进程。 相反由于openmp和pthread共享内存,不同线程之间的数据就无须传递,直接传送指针就行。同时mpi不同主机之间的进程协调工作需要安装mpi软件(例如mpich)来完成。
在openmp和pthread之间的区别主要在编译的方式上,openmp的编译需要添加编译器预处理指令#pragma,创建线程等后续工作要编译器来完成。而pthread就是一个库,所有的并行线程创建都需要我们自己完成,较openmp麻烦一点。
pthread全称应该是POSIX THREAD,顾名思义这个肯定是按照POSIX对线程的标准而设计的。目前我所知道的有两个版本:Linux Thread(较早)和NPTL(主流?)。pthread库是一套关于线程的API,提供“遵循”(各平台实现各异)POSIX标准的线程相关的功能。
openMP不同于pthread的地方是,它是根植于编译器的(也要包含头文件omp.h),而不是在各系统平台是做文章。它貌似更偏向于将原来串行化的程序,通过加入一些适当的编译器指令(compiler directive)变成并行执行,从而提高代码运行的速率。
总结:pthread在程序启动时创建一束线程,将工作分配到线程上。然而,这种方法需要相当多的线程指定代码,且不能保证能够随着可用处理器的数量而合理地进行扩充。OpenMP不需要指定数量,在有循环的地方加上代码,修改设置文件极客。OpenMP非常方便,因为它不会将软件锁定在事先设定的线程数量中,但是相对的查错更难也更麻烦。
C语言进程Fork、OPENMPI的异同
既然提到了两种线程级别的,那必然要提到进程级别的区别与联系了。事实上他们解决的不是同一个问题。请注意并行编程和分布式内存并行编程之间的区别。使用fork/join模型通常是为了在同一台物理机器上进行并行编程。通常不会将的工作分配给其他连接的机器(评论中的某些型号除外)。MPI用于分布式内存并行编程。并不是使用单个处理器,而是使用一组机器(甚至数十万个处理器)来解决问题。虽然这些有时被认为是一个大型逻辑机器,但它们通常由许多处理器组成。MPI函数用于简化分布式机器上这些进程之间的通信,以避免必须执行诸如在所有进程之间手动打开TCP套接字之类的操作。
因此,除非仅在一台机器上运行MPI 程序,否则没有真正的方法来比较它们的性能,而这并不是它的设计目的。所以,按理来说可以在一台机器上运行MPI,而且人们一直在为小型测试代码或小型项目这样做,但这并不是最大的用例。
参考资料
https://www.jianshu.com/p/2fd31665e816
https://zhuanlan.zhihu.com/p/356295181
https://cloud.tencent.com/developer/ask/sof/102475792
https://zhuanlan.zhihu.com/p/465574868
https://blog.csdn.net/ddreaming/article/details/53319501
https://blog.csdn.net/yu132563/article/details/83501870
Bova, Steve W., et al. "Parallel programming with message passing and directives."Computing in Science & Engineering 3.5 (2001): 22-37.
https://blog.csdn.net/u014800094/article/details/59487413
https://www.coder.work/article/7142037
Difference between multi-process programming with fork and MPI - Stack Overflow
https://bellard.org/pi/pi2700e9/
https://extremecomputingtraining.anl.gov//files/2014/01/omp-morning-part1.pdf
https://www.appentra.com/parallel-computation-pi/
https://scc.ustc.edu.cn/zlsc/sugon/intel/ssadiag_docs/pt_reference/references/sc_omp_anti_dependence.html
https://en.wikipedia.org/wiki/Pi
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。