跳转至

TensorFlow示例1*

MNIST 模型编译流程*

MNIST 是一个入门级的计算机视觉数据集,它的输入是像素为 28x28 的手写数字图片,输出是图片对应的 0-9 数字的概率。下面以 TensorFlow 自带的mnist 模型(TensorFlow v1.15)为例,说明 gxnpuc 工具链和 API 的使用。

1. 生成 NPU 文件*

这个示例的 MNIST 计算模型非常简单,可以用一个公式来表示: y = x * W + b (训练的过程中还会去计算 softmax,但由于我们正式使用时只需要获取结果中最大值的索引,而softmax是个单调递增函数,因此省去这个函数不会对结果有影响)。其中x为输入数据,y为输出数据,Wb为训练的参数。训练的过程就是不断通过计算出来的y和期望的y_去调整Wb的过程。 在 NPU 上,我们只需要用到训练好的Wb,而不需要训练的过程。

1.1 生成 CKPT 和 PB 文件*

首先我们需要生成 CKPT 和 PB 文件,同时为了在 NPU 编译模型时方便指定模型的输入结点和输出结点,可以给输入结点和输出结点取个名字。 具体见main函数的加亮部分。

def main(_):
  # Import data
  mnist = input_data.read_data_sets(FLAGS.data_dir)

  # Create the model
  x = tf.placeholder(tf.float32, [None, 784], name="input_x") # 指定输入名称为input_x,方便编译配置脚本中使用
  w = tf.Variable(tf.zeros([784, 10]))
  b = tf.Variable(tf.zeros([10]))
  y = tf.matmul(x, w) + b
  y = tf.identity(name="result") # 指定输出名称为result,方便编译配置脚本中使用

  # Define loss and optimizer
  y_ = tf.placeholder(tf.int64, [None])

  # The raw formulation of cross-entropy,
  #
  #   tf.reduce_mean(-tf.reduce_sum(y_ * tf.math.log(tf.nn.softmax(y)),
  #                                 reduction_indices=[1]))
  #
  # can be numerically unstable.
  #
  # So here we use tf.compat.v1.losses.sparse_softmax_cross_entropy on the raw
  # logit outputs of 'y', and then average across the batch.
  cross_entropy = tf.losses.sparse_softmax_cross_entropy(labels=y_, logits=y)
  train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

  config = tf.ConfigProto()
  jit_level = 0
  if FLAGS.xla:
    # Turns on XLA JIT compilation.
    jit_level = tf.OptimizerOptions.ON_1

  config.graph_options.optimizer_options.global_jit_level = jit_level
  run_metadata = tf.RunMetadata()
  sess = tf.compat.v1.Session(config=config)
  tf.global_variables_initializer().run(session=sess)
  # Train
  train_loops = 1000
  for i in range(train_loops):
    batch_xs, batch_ys = mnist.train.next_batch(100)

    # Create a timeline for the last loop and export to json to view with
    # chrome://tracing/.
    if i == train_loops - 1:
      sess.run(train_step,
               feed_dict={x: batch_xs,
                          y_: batch_ys},
               options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE),
               run_metadata=run_metadata)
      trace = timeline.Timeline(step_stats=run_metadata.step_stats)
      with open('/tmp/timeline.ctf.json', 'w') as trace_file:
        trace_file.write(trace.generate_chrome_trace_format())
    else:
      sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

  # Test trained model
  correct_prediction = tf.equal(tf.argmax(y, 1), y_)
  accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
  print(sess.run(accuracy,
                 feed_dict={x: mnist.test.images,
                            y_: mnist.test.labels}))

  # 生成 CKPT 和 PB 文件
  saver = tf.train.Saver()
  saver.save(sess, "./mnist.ckpt")
  tf.train.write_graph(sess.graph_def, "./", "mnist.pb")

  sess.close()

运行程序后,当前路径下会生成mnist.ckpt.*mnist.pb文件。

注意

模型输入、输出op 名字以及它们的 shape 一定要记住,因为后面 gxnpuc 编译工具的 yaml配置文件里需要用到。

1.2 把 CKPT 和 PB 文件合并成 FROZEN_PB 文件*

使用freeze_graph.py脚本将mnist.ckpt.*mnist.pb合并为一个pb文件。

注意

不同TensorFlow版本的freeze_graph.py脚本可能不同。

执行命令

$ python freeze_graph.py --input_graph=mnist.pb --input_checkpoint=./mnist.ckpt --output_graph=mnist_with_ckpt.pb --output_node_names=result
生成mnist_with_ckpt.pb文件。 其中,--input_graph后跟输入 PB 名,--input_checkpoint后跟输入 CKPT 名,--output_graph后跟合成的 FROZEN_PB 文件名,--output_node_names后跟输出结点名称,如有多个输出结点则用逗号分隔。 执行完成后,在当前路径下生成mnist_with_ckpt.pb文件。

如果是saved_model方式保存的模型,使用如下命令生成 FROZEN_PB 文件

$ python freeze_graph.py --input_saved_model_dir=./saved_model_dir --output_graph=mnist_with_ckpt.pb --output_node_names=result

1.3 编辑 NPU 配置文件*

编辑配置文件mnist_config.yaml文件,含义见注释。

mnist_config.yaml
CORENAME: GRUS # 芯片型号
MODEL_FILE: mnist_with_ckpt.pb # 输入的 PB 文件
OUTPUT_FILE: mnist.h # 输出的 NPU 文件名
NPU_UNIT: NPU32 # NPU 设备类型
COMPRESS: true # 模型全连接权重压缩
CONV2D_COMPRESS: false # 模型卷积权重不压缩
OUTPUT_TYPE: c_code # NPU 文件的类型
INPUT_OPS:
    input_x: [1, 784] # 输入结点名称和数据维度,每运行一次输入数据为1x784,即一幅图
OUTPUT_OPS: [result] # 输出结点名称
FP16_OUT_OPS: [] # 没有需要输出为 float16 的 OP
FUSE_BN: true # BN参数合并到卷积中(如果有的话)
# WEIGHT_CACHE_SIZE: 0 # 权重无需分开放置,不需要设置

注意

这里的 input_x、result 跟模型的输入、输出的 op 名字是一一对应的。

1.4 编译*

使用 gxnpuc 工具编译

$ gxnpuc mnist_config.yaml
生成 NPU 文件mnist.h,并且打印出模型需要的内存信息:

------------------------
Memory allocation info:
Mem0(ops): 0
Mem1(data): 40
Mem2(instruction): 140
Mem3(in): 1568
Mem4(out): 40
Mem5(tmp content): 0
Mem6(weights): 8990
Total NPU Size (Mem0+Mem1+Mem2+Mem5+Mem6): 9170
Total Memory Size: 10778
------------------------
Compile OK.

各内存区域说明如下:

内存区域 说明
Mem0(ops) 暂未使用
Mem1(data) 中间数据内存
Mem2(instruction) 指令内存
Mem3(in) 输入数据内存
Mem4(out) 输出数据内存
Mem5(tmp content) SRAM中权重内存
Mem6(weights) 权重内存

2. 执行 NPU 文件*

NPU 文件生成后,需要把模型部署到 GX8002 开发板上运行。详细部署指南请阅读NPU模型部署指南