赞
踩
在本教程中,我们将展示 TVM 的 Auto-scheduling 功能如何在无需编写自定义模板的情况下找到最佳 schedule。
与基于模板的 AutoTVM 依赖手动模板定义搜索空间不同,auto-scheduler 不需要任何模板。 用户只需编写计算声明,无需任何调度命令或模板。 auto-scheduler 可以自动生成一个大的搜索空间,并在该空间中找到一个好的 schedule。
我们在本教程中同样使用矩阵乘法作为示例。
import os
import numpy as np
import tvm
from tvm import te, auto_scheduler
首先,我们定义一个带有偏置的矩阵乘法。 请注意,这使用了 TVM 张量表达式语言中可用的标准操作。 主要区别在于在函数定义的开始使用了 auto_sceduler 装饰器。 该函数应返回输入/输出张量列表。 从这些张量中,自动调度器可以获得整个计算图。
@auto_scheduler.register_workload # Note the auto_scheduler decorator def matmul_add(N, L, M, dtype): A = te.placeholder((N, L), name="A", dtype=dtype) B = te.placeholder((L, M), name="B", dtype=dtype) C = te.placeholder((N, M), name="C", dtype=dtype) k = te.reduce_axis((0, L), name="k") matmul = te.compute( (N, M), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name="matmul", attrs={"layout_free_placeholders": [B]}, # enable automatic layout transform for tensor B ) out = te.compute((N, M), lambda i, j: matmul[i, j] + C[i, j], name="out") return [A, B, C, out]
定义函数后,我们现在可以创建供 auto_scheduler 搜索的任务。 我们指定此矩阵乘法的特定参数,在本例中为 1024x1024 大小的方阵的乘法。 然后我们创建一个搜索任务,其中 N=L=M=1024 ,数据类型为 ”float32”。
target = tvm.target.Target("llvm")
N = L = M = 1024
task = tvm.auto_scheduler.SearchTask(func=matmul_add, args=(N, L, M, "float32"), target=target)
# Inspect the computational graph
print("Computational DAG:")
print(task.compute_dag)
注意:自定义 target 可以提高性能
为了让 TVM 充分利用特定硬件平台,您需要手动指定 CPU 功能。 例如: - 将下面的“llvm”替换为“llvm -mcpu=core-avx2”以启用 AVX2 - 将下面的“llvm”替换为“llvm -mcpu=skylake-avx512”以启用 AVX-512
此处输出:
Computational DAG:
A = PLACEHOLDER [1024, 1024]
B = PLACEHOLDER [1024, 1024]
matmul(i, j) += (A[i, k]*B[k, j])
C = PLACEHOLDER [1024, 1024]
out(i, j) = (matmul[i, j] + C[i, j])
接下来,我们为自动调度程序设置参数。
num_measure_trials
是我们在搜索过程中可以使用的测量试验次数。 为了快速演示,我们在本教程中仅进行了 10 次试验。 在实践中,1000 是一个很好的搜索收敛值。 您可以根据您的时间预算进行更多试验。
此外,我们使用 RecordToFile
将测量记录记录到文件 matmul.json 中。 测量记录可用于最佳查询历史记录、恢复搜索以及稍后进行更多分析。
有关更多参数,请参阅 auto_scheduler.TuningOptions
log_file = "matmul.json"
tune_option = auto_scheduler.TuningOptions(
num_measure_trials=10,
measure_callbacks=[auto_scheduler.RecordToFile(log_file)],
verbose=2,
)
现在我们准备好所有输入。 很简单,不是吗? 我们可以开始搜索并让自动调度程序发挥它的魔力。 经过一些测量试验后,我们可以从日志文件中加载最佳计划并应用它。
# Run auto-tuning (search)
task.tune(tune_option)
# Apply the best schedule
sch, args = task.apply_best(log_file)
我们可以在 auto-scheduling 后降低(lower)schedule 以查看 IR。 auto-schduling 程序正确执行优化,包括多级平铺、布局转换、并行化、矢量化、展开和算子融合。
print("Lowered TIR:")
print(tvm.lower(sch, args, simple_mode=True))
此处输出:
Lowered TIR: primfn(A_1: handle, B_1: handle, C_1: handle, out_1: handle) -> () attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True} buffers = {out: Buffer(out_2: Pointer(float32), float32, [1024, 1024], []), A: Buffer(A_2: Pointer(float32), float32, [1024, 1024], []), C: Buffer(C_2: Pointer(float32), float32, [1024, 1024], []), B: Buffer(B_2: Pointer(float32), float32, [1024, 1024], [])} buffer_map = {A_1: A, B_1: B, C_1: C, out_1: out} { allocate(auto_scheduler_layout_transform: Pointer(global float32), float32, [1048576]), storage_scope = global { for (ax0.ax1.fused.ax2.fused: int32, 0, 128) "parallel" { for (ax4: int32, 0, 256) { for (ax6: int32, 0, 4) { for (ax7: int32, 0, 8) { auto_scheduler_layout_transform[((((ax0.ax1.fused.ax2.fused*8192) + (ax4*32)) + (ax6*8)) + ax7)] = (float32*)B_2[((((ax4*4096) + (ax6*1024)) + (ax0.ax1.fused.ax2.fused*8)) + ax7)] } } } } for (i.outer.outer.j.outer.outer.fused: int32, 0, 16384) "parallel" { allocate(matmul: Pointer(global float32x8), float32x8, [4]), storage_scope = global; for (i.outer.inner: int32, 0, 2) { matmul[ramp(0, 1, 8)] = broadcast(0f32, 8) matmul[ramp(8, 1, 8)] = broadcast(0f32, 8) matmul[ramp(16, 1, 8)] = broadcast(0f32, 8) matmul[ramp(24, 1, 8)] = broadcast(0f32, 8) for (k.outer: int32, 0, 256) { for (k.inner: int32, 0, 4) { matmul[ramp(0, 1, 8)] = ((float32x8*)matmul[ramp(0, 1, 8)] + (broadcast((float32*)A_2[((((floordiv(i.outer.outer.j.outer.outer.fused, 128)*8192) + (i.outer.inner*4096)) + (k.outer*4)) + k.inner)], 8)*(float32x8*)auto_scheduler_layout_transform[ramp((((floormod(i.outer.outer.j.outer.outer.fused, 128)*8192) + (k.outer*32)) + (k.inner*8)), 1, 8)])) matmul[ramp(8, 1, 8)] = ((float32x8*)matmul[ramp(8, 1, 8)] + (broadcast((float32*)A_2[(((((floordiv(i.outer.outer.j.outer.outer.fused, 128)*8192) + (i.outer.inner*4096)) + (k.outer*4)) + k.inner) + 1024)], 8)*(float32x8*)auto_scheduler_layout_transform[ramp((((floormod(i.outer.outer.j.outer.outer.fused, 128)*8192) + (k.outer*32)) + (k.inner*8)), 1, 8)])) matmul[ramp(16, 1, 8)] = ((float32x8*)matmul[ramp(16, 1, 8)] + (broadcast((float32*)A_2[(((((floordiv(i.outer.outer.j.outer.outer.fused, 128)*8192) + (i.outer.inner*4096)) + (k.outer*4)) + k.inner) + 2048)], 8)*(float32x8*)auto_scheduler_layout_transform[ramp((((floormod(i.outer.outer.j.outer.outer.fused, 128)*8192) + (k.outer*32)) + (k.inner*8)), 1, 8)])) matmul[ramp(24, 1, 8)] = ((float32x8*)matmul[ramp(24, 1, 8)] + (broadcast((float32*)A_2[(((((floordiv(i.outer.outer.j.outer.outer.fused, 128)*8192) + (i.outer.inner*4096)) + (k.outer*4)) + k.inner) + 3072)], 8)*(float32x8*)auto_scheduler_layout_transform[ramp((((floormod(i.outer.outer.j.outer.outer.fused, 128)*8192) + (k.outer*32)) + (k.inner*8)), 1, 8)])) } } for (i.inner: int32, 0, 4) { out_2[ramp(((((floordiv(i.outer.outer.j.outer.outer.fused, 128)*8192) + (i.outer.inner*4096)) + (i.inner*1024)) + (floormod(i.outer.outer.j.outer.outer.fused, 128)*8)), 1, 8)] = ((float32x8*)matmul[ramp((i.inner*8), 1, 8)] + (float32x8*)C_2[ramp(((((floordiv(i.outer.outer.j.outer.outer.fused, 128)*8192) + (i.outer.inner*4096)) + (i.inner*1024)) + (floormod(i.outer.outer.j.outer.outer.fused, 128)*8)), 1, 8)]) } } } } }
我们构建二进制文件并检查其正确性和性能。
func = tvm.build(sch, args, target) a_np = np.random.uniform(size=(N, L)).astype(np.float32) b_np = np.random.uniform(size=(L, M)).astype(np.float32) c_np = np.random.uniform(size=(N, M)).astype(np.float32) out_np = a_np.dot(b_np) + c_np dev = tvm.cpu() a_tvm = tvm.nd.array(a_np, device=dev) b_tvm = tvm.nd.array(b_np, device=dev) c_tvm = tvm.nd.array(c_np, device=dev) out_tvm = tvm.nd.empty(out_np.shape, device=dev) func(a_tvm, b_tvm, c_tvm, out_tvm) # Check results np.testing.assert_allclose(out_np, out_tvm.numpy(), rtol=1e-3) # Evaluate execution time. evaluator = func.time_evaluator(func.entry_name, dev, min_repeat_ms=500) print( "Execution time of this operator: %.3f ms" % (np.median(evaluator(a_tvm, b_tvm, c_tvm, out_tvm).results) * 1000) )
此处输出:
Execution time of this operator: 45.418 ms
在搜索过程中,所有的测量记录都被记录到记录文件“matmul.json”中。 测量记录可用于重新应用搜索结果、恢复搜索和执行其他分析。
这是一个示例,我们从文件加载最佳 schedule,并打印等效的 Python schedule API。 这可用于调试和学习 auto-scheduling 程序的行为。
print("Equivalent python schedule:")
print(task.print_best(log_file))
此处输出:
Equivalent python schedule: matmul_i, matmul_j, matmul_k = tuple(matmul.op.axis) + tuple(matmul.op.reduce_axis) out_i, out_j = tuple(out.op.axis) + tuple(out.op.reduce_axis) matmul_i_o_i, matmul_i_i = s[matmul].split(matmul_i, factor=4) matmul_i_o_o_i, matmul_i_o_i = s[matmul].split(matmul_i_o_i, factor=1) matmul_i_o_o_o, matmul_i_o_o_i = s[matmul].split(matmul_i_o_o_i, factor=2) matmul_j_o_i, matmul_j_i = s[matmul].split(matmul_j, factor=8) matmul_j_o_o_i, matmul_j_o_i = s[matmul].split(matmul_j_o_i, factor=1) matmul_j_o_o_o, matmul_j_o_o_i = s[matmul].split(matmul_j_o_o_i, factor=1) matmul_k_o, matmul_k_i = s[matmul].split(matmul_k, factor=4) s[matmul].reorder(matmul_i_o_o_o, matmul_j_o_o_o, matmul_i_o_o_i, matmul_j_o_o_i, matmul_k_o, matmul_i_o_i, matmul_j_o_i, matmul_k_i, matmul_i_i, matmul_j_i) out_i_o_i, out_i_i = s[out].split(out_i, factor=4) out_i_o_o, out_i_o_i = s[out].split(out_i_o_i, factor=2) out_j_o_i, out_j_i = s[out].split(out_j, factor=8) out_j_o_o, out_j_o_i = s[out].split(out_j_o_i, factor=1) s[out].reorder(out_i_o_o, out_j_o_o, out_i_o_i, out_j_o_i, out_i_i, out_j_i) s[matmul].compute_at(s[out], out_j_o_i) out_i_o_o_j_o_o_fused = s[out].fuse(out_i_o_o, out_j_o_o) s[out].parallel(out_i_o_o_j_o_o_fused) s[matmul].pragma(matmul_i_o_o_o, "auto_unroll_max_step", 8) s[matmul].pragma(matmul_i_o_o_o, "unroll_explicit", True) s[matmul].vectorize(matmul_j_i) s[out].vectorize(out_j_i)
一个更复杂的例子是恢复搜索。 在这种情况下,我们需要自己创建搜索策略和成本模型,并通过日志文件恢复搜索策略和成本模型的状态。 在下面的示例中,我们恢复状态并再进行 5 次试验。
def resume_search(task, log_file):
print("Resume search:")
cost_model = auto_scheduler.XGBModel()
cost_model.update_from_file(log_file)
search_policy = auto_scheduler.SketchPolicy(
task, cost_model, init_search_callbacks=[auto_scheduler.PreloadMeasuredStates(log_file)]
)
tune_option = auto_scheduler.TuningOptions(
num_measure_trials=5, measure_callbacks=[auto_scheduler.RecordToFile(log_file)]
)
task.tune(tune_option, search_policy=search_policy)
resume_search(task, log_file)
此处输出:
Resume search:
/usr/local/lib/python3.6/dist-packages/xgboost/training.py:17: UserWarning: Old style callback is deprecated. See: https://xgboost.readthedocs.io/en/latest/python/callbacks.html
warnings.warn(f'Old style callback is deprecated. See: {link}', UserWarning)
在本教程中,我们展示了如何使用 TVM Auto-Scheduler 自动优化矩阵乘法,而无需指定搜索模板。 它结束了一系列从张量表达式 (TE) 语言开始的示例,这些示例演示了 TVM 如何优化计算操作。
Ref:
https://tvm.apache.org/docs/tutorial/auto_scheduler_matmul_x86.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。