TensorFlow示例1*
MNIST 模型编译流程*
MNIST 是一个入门级的计算机视觉数据集,它的输入是像素为 28x28 的手写数字图片,输出是图片对应的 0-9 数字的概率。下面以 TensorFlow 自带的mnist 模型(TensorFlow v1.15)为例,说明 gxnpuc 工具链和 API 的使用。
1. 生成 NPU 文件*
这个示例的 MNIST 计算模型非常简单,可以用一个公式来表示: y = x * W + b
(训练的过程中还会去计算 softmax,但由于我们正式使用时只需要获取结果中最大值的索引,而softmax
是个单调递增函数,因此省去这个函数不会对结果有影响)。其中x
为输入数据,y
为输出数据,W
和b
为训练的参数。训练的过程就是不断通过计算出来的y
和期望的y_
去调整W
和b
的过程。 在 NPU 上,我们只需要用到训练好的W
和b
,而不需要训练的过程。
1.1 生成 CKPT 和 PB 文件*
首先我们需要生成 CKPT 和 PB 文件,同时为了在 NPU 编译模型时方便指定模型的输入结点和输出结点,可以给输入结点和输出结点取个名字。
具体见main
函数的加亮部分。
def main(_):
# Import data
mnist = input_data.read_data_sets(FLAGS.data_dir)
# Create the model
x = tf.placeholder(tf.float32, [None, 784], name="input_x") # 指定输入名称为input_x,方便编译配置脚本中使用
w = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.matmul(x, w) + b
y = tf.identity(name="result") # 指定输出名称为result,方便编译配置脚本中使用
# Define loss and optimizer
y_ = tf.placeholder(tf.int64, [None])
# The raw formulation of cross-entropy,
#
# tf.reduce_mean(-tf.reduce_sum(y_ * tf.math.log(tf.nn.softmax(y)),
# reduction_indices=[1]))
#
# can be numerically unstable.
#
# So here we use tf.compat.v1.losses.sparse_softmax_cross_entropy on the raw
# logit outputs of 'y', and then average across the batch.
cross_entropy = tf.losses.sparse_softmax_cross_entropy(labels=y_, logits=y)
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
config = tf.ConfigProto()
jit_level = 0
if FLAGS.xla:
# Turns on XLA JIT compilation.
jit_level = tf.OptimizerOptions.ON_1
config.graph_options.optimizer_options.global_jit_level = jit_level
run_metadata = tf.RunMetadata()
sess = tf.compat.v1.Session(config=config)
tf.global_variables_initializer().run(session=sess)
# Train
train_loops = 1000
for i in range(train_loops):
batch_xs, batch_ys = mnist.train.next_batch(100)
# Create a timeline for the last loop and export to json to view with
# chrome://tracing/.
if i == train_loops - 1:
sess.run(train_step,
feed_dict={x: batch_xs,
y_: batch_ys},
options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE),
run_metadata=run_metadata)
trace = timeline.Timeline(step_stats=run_metadata.step_stats)
with open('/tmp/timeline.ctf.json', 'w') as trace_file:
trace_file.write(trace.generate_chrome_trace_format())
else:
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
# Test trained model
correct_prediction = tf.equal(tf.argmax(y, 1), y_)
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print(sess.run(accuracy,
feed_dict={x: mnist.test.images,
y_: mnist.test.labels}))
# 生成 CKPT 和 PB 文件
saver = tf.train.Saver()
saver.save(sess, "./mnist.ckpt")
tf.train.write_graph(sess.graph_def, "./", "mnist.pb")
sess.close()
运行程序后,当前路径下会生成mnist.ckpt.*
和mnist.pb
文件。
注意
模型输入、输出的 op 名字以及它们的 shape 一定要记住,因为后面 gxnpuc 编译工具的 yaml配置文件里需要用到。
1.2 把 CKPT 和 PB 文件合并成 FROZEN_PB 文件*
使用freeze_graph.py脚本将mnist.ckpt.*
和mnist.pb
合并为一个pb文件。
注意
不同TensorFlow版本的freeze_graph.py
脚本可能不同。
执行命令
$ python freeze_graph.py --input_graph=mnist.pb --input_checkpoint=./mnist.ckpt --output_graph=mnist_with_ckpt.pb --output_node_names=result
mnist_with_ckpt.pb
文件。
其中,--input_graph
后跟输入 PB 名,--input_checkpoint
后跟输入 CKPT 名,--output_graph
后跟合成的 FROZEN_PB 文件名,--output_node_names
后跟输出结点名称,如有多个输出结点则用逗号分隔。
执行完成后,在当前路径下生成mnist_with_ckpt.pb
文件。
如果是saved_model
方式保存的模型,使用如下命令生成 FROZEN_PB 文件
$ python freeze_graph.py --input_saved_model_dir=./saved_model_dir --output_graph=mnist_with_ckpt.pb --output_node_names=result
1.3 编辑 NPU 配置文件*
编辑配置文件mnist_config.yaml
文件,含义见注释。
CORENAME: GRUS # 芯片型号
MODEL_FILE: mnist_with_ckpt.pb # 输入的 PB 文件
OUTPUT_FILE: mnist.h # 输出的 NPU 文件名
NPU_UNIT: NPU32 # NPU 设备类型
COMPRESS: true # 模型全连接权重压缩
CONV2D_COMPRESS: false # 模型卷积权重不压缩
OUTPUT_TYPE: c_code # NPU 文件的类型
INPUT_OPS:
input_x: [1, 784] # 输入结点名称和数据维度,每运行一次输入数据为1x784,即一幅图
OUTPUT_OPS: [result] # 输出结点名称
FP16_OUT_OPS: [] # 没有需要输出为 float16 的 OP
FUSE_BN: true # BN参数合并到卷积中(如果有的话)
# WEIGHT_CACHE_SIZE: 0 # 权重无需分开放置,不需要设置
注意
这里的 input_x、result 跟模型的输入、输出的 op 名字是一一对应的。
1.4 编译*
使用 gxnpuc 工具编译
$ gxnpuc mnist_config.yaml
mnist.h
,并且打印出模型需要的内存信息:
------------------------
Memory allocation info:
Mem0(ops): 0
Mem1(data): 40
Mem2(instruction): 140
Mem3(in): 1568
Mem4(out): 40
Mem5(tmp content): 0
Mem6(weights): 8990
Total NPU Size (Mem0+Mem1+Mem2+Mem5+Mem6): 9170
Total Memory Size: 10778
------------------------
Compile OK.
各内存区域说明如下:
内存区域 | 说明 |
---|---|
Mem0(ops) | 暂未使用 |
Mem1(data) | 中间数据内存 |
Mem2(instruction) | 指令内存 |
Mem3(in) | 输入数据内存 |
Mem4(out) | 输出数据内存 |
Mem5(tmp content) | SRAM中权重内存 |
Mem6(weights) | 权重内存 |
2. 执行 NPU 文件*
NPU 文件生成后,需要把模型部署到 GX8002 开发板上运行。详细部署指南请阅读NPU模型部署指南。