当前位置:   article > 正文

如何让FasterTransformer支持动态batch和动态sequence length

{0: 'batch_size', 1: 'channel', 2: 'sequence_length'}}
FasterTransformer 算子

nvidia在开源的FasterTransformer的代码中,提供tensorrt和tensorflow的自定义算子编译和py调用示例,详见FasterTransformer.py。但是如果使用tensorflow的自定义算子十分不方便,其batch size 和 sequence length都是固定的。现在提供一种方法让其变成动态的,方法如下:

  1. 修改bert_transformer_op.cc,将batch_size,from_seq_len,to_seq_len attr属性去掉,改称input参数,代码如下:
  1. .Input("output_bias: T")
  2. .Input("output_layernorm_beta: T")
  3. .Input("output_layernorm_gamma: T")
  4. + .Input("batch_size: int32")
  5. + .Input("from_seq_len: int32")
  6. .Output("output: T")
  7. .Attr("T: {float, half}")
  8. - .Attr("batch_size: int >= 1")
  9. - .Attr("from_seq_len: int >= 1")
  10. - .Attr("to_seq_len: int >= 1")
  11. + //.Attr("batch_size: int >= 1")
  12. + //.Attr("from_seq_len: int >= 1")
  13. + //.Attr("to_seq_len: int >= 1")
  14. .Attr("head_num: int >= 1")
  15. .Attr("size_per_head: int >= 1")
  16. .SetShapeFn([](shape_inference::InferenceContext *c) {
  17. int batch_size, from_seq_len, to_seq_len, head_num, size_per_head;
  18. - c->GetAttr("batch_size", &batch_size);
  19. - c->GetAttr("from_seq_len", &from_seq_len);
  20. - c->GetAttr("to_seq_len", &to_seq_len);
  21. + //c->GetAttr("batch_size", &batch_size);
  22. + //c->GetAttr("from_seq_len", &from_seq_len);
  23. + //c->GetAttr("to_seq_len", &to_seq_len);
  24. c->GetAttr("head_num", &head_num);
  25. c->GetAttr("size_per_head", &size_per_head);
  26. - c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));
  27. + //c->set_output(0, c->MakeShape({batch_size * from_seq_len, head_num * size_per_head}));
  28. + c->set_output(0, c->input(0));
  29. return Status::OK();
  30. });
  31. template <typename Device, typename T>
  32. @@ -70,14 +71,15 @@ class BertTransformerOp : public OpKernel
  33. public:
  34. explicit BertTransformerOp(OpKernelConstruction *context) : OpKernel(context)
  35. {
  36. - OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));
  37. - OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));
  38. - OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));
  39. + //OP_REQUIRES_OK(context, context->GetAttr("batch_size", &batch_size_));
  40. + //OP_REQUIRES_OK(context, context->GetAttr("from_seq_len", &from_seq_len_));
  41. + //OP_REQUIRES_OK(context, context->GetAttr("to_seq_len", &to_seq_len_));
  42. OP_REQUIRES_OK(context, context->GetAttr("head_num", &head_num_));
  43. OP_REQUIRES_OK(context, context->GetAttr("size_per_head", &size_per_head_));
  44. - OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),
  45. - errors::InvalidArgument("Only support from_seq_len == to_seq_len"));
  46. + //printf("++++++++ %d =%d \n", from_seq_len_, to_seq_len_)
  47. + //OP_REQUIRES(context, (from_seq_len_ == to_seq_len_),
  48. + /// errors::InvalidArgument("Only support from_seq_len == to_seq_len"));
  49. try
  50. {
  51. @@ -95,6 +97,11 @@ class BertTransformerOp : public OpKernel
  52. BertEncoderTransformer<EncoderTraits_> *encoder_transformer_;
  53. try
  54. {
  55. +
  56. + batch_size_ = context->input(19).flat<int32>().size()/3;
  57. + from_seq_len_ = context->input(20).flat<int32>().size()/3;
  58. + to_seq_len_ = from_seq_len_;
  59. + //printf("==>%d %d\n", batch_size_, from_seq_len_);
  60. fastertransformer::Allocator<AllocatorType::TF> allocator_(context);
  61. encoder_transformer_ = new BertEncoderTransformer<EncoderTraits_>(allocator_,
  62. batch_size_, from_seq_len_, to_seq_len_, head_num_, size_per_head_);
  63. @@ -104,7 +111,7 @@ class BertTransformerOp : public OpKernel
  64. OP_REQUIRES(context, false, errors::Internal(error.what()));
  65. }
  66. - OP_REQUIRES(context, context->num_inputs() == 19, errors::InvalidArgument("Less input arguments"));
  67. + OP_REQUIRES(context, context->num_inputs() == 21, errors::InvalidArgument("Less input arguments"));
  68. EncoderInitParam<DataType_> param; //init param here

由于input在cuda的显存中,直接读取input的数值是不可能的(把数值从显存拷贝内存中,比较耗时),但是我们可以在内存中直接读取形状的size,我们伪造一个形状的size,通过这个size来获取batch_size 和 seq_len。

  1. FasterTransformer.py修改如下:
  1. ...
  2. fast_list_tensor = tf.shape(input_tensor)
  3. ...
  4. layer_output = transformer_op_module.bert_transformer(
  5. layer_input,
  6. layer_input,
  7. trainable_vars[0], trainable_vars[2], trainable_vars[4], trainable_vars[1], trainable_vars[3], trainable_vars[5],
  8. attention_mask,
  9. trainable_vars[6], trainable_vars[7], trainable_vars[8], trainable_vars[9], trainable_vars[10], trainable_vars[11],
  10. trainable_vars[12], trainable_vars[13], trainable_vars[14], trainable_vars[15], tf.tile([[1],[2],[3]], [1,fast_list_tensor[0]]),
  11. tf.tile([[1],[2],[3]], [1,fast_list_tensor[1]]),
  12. #batch_size=batch_size,
  13. #from_seq_len=seq_length,
  14. #to_seq_len=seq_length,
  15. head_num=num_attention_heads, size_per_head=attention_head_size)
  1. 通过以上修改,我们在使用transformer_op_module的时候,就不需要强制指定batch size 和 seq length了, 表示生成模型的时候,类似这么配置:
  1. input_ids = tf.placeholder(tf.int32,(None, None), 'input_ids')
  2. input_mask = tf.placeholder(tf.float32,(None, None), 'input_mask')
  3. input_type_ids = tf.placeholder(tf.int32,(None, None), 'input_type_ids')

便可以生成支持动态batch和动态seq len的tensorflow模型了。

转载于:https://www.cnblogs.com/th3Bear/p/11502641.html

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/357676
推荐阅读
相关标签
  

闽ICP备14008679号