赞
踩
如果一个节点的二进制表示中有m个1,则称该节点为一个m-节点。
①最高位是0,可达一个m-节点和一个(m+1)-节点
②最高位是1,可达一个m-节点和一个(m-1)-节点
抓住了网络的特性。利用这个规律可以很好地隔离。
将网格中的每一行变成一个完全二叉树
再将每一列变成一个完全二叉树。
中间节点都是开关元件。
计算对剖宽度,直径、开关元件的数量。
每行的二叉树的根上删除一条边,可以将网络对分各半,所以对剖宽度是
p
\sqrt{p}
p
直径: 2 log p 2\log\sqrt{p} 2logp
每个二叉树需要 p − 1 \sqrt{p}-1 p −1个开关,总共有 2 p 2\sqrt{p} 2p 个二叉树
证明:使用SF和CT方式在超立方上进行单点散播的通信时间为
t
=
t
s
log
p
+
m
t
w
(
p
−
1
)
t=t_s\log p+mt_w(p-1)
t=tslogp+mtw(p−1)
t = Σ i = 1 log p ( t s + p 2 i m t w ) t=\Sigma_{i=1}^{\log p}(t_s+\frac{p}{2^i}mt_w) t=Σi=1logp(ts+2ipmtw)
在环上进行全交换的通信时间为
t
=
(
t
s
+
p
2
m
t
w
)
(
p
−
1
)
t=(t_s+\frac{p}{2}mt_w)(p-1)
t=(ts+2pmtw)(p−1)
在超立方上进行全交换的通信时间为
t
=
p
2
m
t
w
log
p
t=\frac{p}{2}mt_w\log p
t=2pmtwlogp, 忽略
t
s
t_s
ts
在环绕网孔上进行全交换的通信时间为
t
=
p
m
t
w
(
p
−
1
)
t=pmt_w(\sqrt{p}-1)
t=pmtw(p
−1),忽略
t
s
t_s
ts
for all Pi where 0<=i<p
ls = 0;
for(k=i;k<n;k+=p)
ls += a[k];
s[i] = ls;
barrier;
for(k=0;k<log(x,p);k++)
for all Pi where 0<=i<p and i % x^(k+1) == 0
ls = 0;
for(j=i; j < i + x^(k+1) and j < p; j += x^k)
ls += s[j];
s[i] = ls;
barrier;
for (k=0;k<logn;k++)
parfor(i=0;i<n-2^k;i+=2^(k+1))
a[i] = max(a[i],a[i+2^k);
parfor(i=0;i<=n-m;i++)
x[i] = 1;
for(k=0; k<m;k++)
if(p[k]!=a[i+k]) x[i] = 0;
for(k=0;k<log(n-m+1);k++)
parfor(i=n-m;i>=2^k;i-=2^(k+1)
x[i] = x[i] + x[i-2^k)
n
=
p
3
,
p
=
n
1
3
n = p^3, p=n^{\frac{1}{3}}
n=p3,p=n31
局部排序:
O
(
n
2
3
log
n
2
3
)
O(n^{\frac{2}{3}}\log n^{\frac23})
O(n32logn32)
正则采样:
O
(
n
1
3
)
O(n^\frac13)
O(n31)
样本排序:
O
(
n
2
3
log
n
2
3
)
O(n^\frac23\log n^\frac23)
O(n32logn32)
选择主元:
O
(
n
1
3
)
O(n^\frac13)
O(n31)
主元划分:
O
(
n
1
3
log
n
2
3
)
O(n^\frac13 \log n^\frac23)
O(n31logn32)
归并排序:
O
(
n
2
3
log
n
1
3
)
O(n^\frac23 \log n^\frac13)
O(n32logn31)
SIMD
PVP
SMP
MPP
DSM
COW
UMA
: 均匀存储访问NUMA
:非均匀存储访问COMA
:全高速缓存存储访问CC-NUMA
: 高速缓存一致性非均匀存储访问NORMA
: 非远程存储访问BSP模型和LogP模型不同之处
LogP基于成对消息传递,BSP进行整体通信
LogP增加了一个参数o,表示传递消息的额外开销
LogP鼓励计算与通信重叠,BSP强调计算与通信分离
BSP+Overhead-Barrier = LogP
两者可以高效地进行相互模拟
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。