如何保存和恢复TensorFlow训练的模型

36大数据 • 8年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

作者：Mihajlo Pavloski

如果深层神经网络模型的复杂度非常高的话，那么训练它可能需要相当长的一段时间，当然这也取决于你拥有的数据量，运行模型的硬件等等。在大多数情况下，你需要通过保存文件来保障你试验的稳定性，防止如果中断（或一个错误），你能够继续从没有错误的地方开始。

更重要的是，对于任何深度学习的框架，像TensorFlow，在成功的训练之后，你需要重新使用模型的学习参数来完成对新数据的预测。

在这篇文章中，我们来看一下如何保存和恢复TensorFlow模型，我们在此介绍一些最有用的方法，并提供一些例子。

1.首先我们将快速介绍TensorFlow模型

TensorFlow的主要功能是通过张量来传递其基本数据结构类似于NumPy中的多维数组，而图表则表示数据计算。它是一个符号库，这意味着定义图形和张量将仅创建一个模型，而获取张量的具体值和操作将在会话（session）中执行，会话（session）一种在图中执行建模操作的机制。会话关闭时，张量的任何具体值都会丢失，这也是运行会话后将模型保存到文件的另一个原因。

通过示例可以帮助我们更容易理解，所以让我们为二维数据的线性回归创建一个简单的TensorFlow模型。

首先，我们将导入我们的库：

				import tensorflow as tf
				import numpy as np
				import matplotlib.pyplot as plt
				%matplotlib inline

下一步是创建模型。我们将生成一个模型，它将以以下的形式估算二次函数的水平和垂直位移：

y = (x - h) ^ 2 + v

其中h是水平和v是垂直的变化。

以下是如何生成模型的过程（有关详细信息，请参阅代码中的注释）：

				# Clear the current graph in each run, to avoid variable duplication
				tf.reset_default_graph()
				# Create placeholders for the x and y points
				X = tf.placeholder("float")
				Y = tf.placeholder("float")
				# Initialize the two parameters that need to be learned
				h_est = tf.Variable(0.0, name='hor_estimate')
				v_est = tf.Variable(0.0, name='ver_estimate')
				# y_est holds the estimated values on y-axis
				y_est = tf.square(X - h_est) + v_est
				# Define a cost function as the squared distance between Y and y_est
				cost = (tf.pow(Y - y_est, 2))
				# The training operation for minimizing the cost function. The
				# learning rate is 0.001
				trainop = tf.train.GradientDescentOptimizer(0.001).minimize(cost)

在创建模型的过程中，我们需要有一个在会话中运行的模型，并且传递一些真实的数据。我们生成一些二次数据（Quadratic data），并给他们添加噪声。

				# Use some values for the horizontal and vertical shift
				h = 1
				v = -2
				# Generate training data with noise
				x_train = np.linspace(-2,4,201)
				noise = np.random.randn(*x_train.shape) * 0.4
				y_train = (x_train - h) ** 2 + v + noise
				# Visualize the data
				plt.rcParams['figure.figsize'] = (10, 6)
				plt.scatter(x_train, y_train)
				plt.xlabel('x_train')
				plt.ylabel('y_train')

如何保存和恢复TensorFlow训练的模型

2.The Saver class

Saver类是TensorFlow库提供的类，它是保存图形结构和变量的首选方法。

2.1保存模型

在以下几行代码中，我们定义一个Saver对象，并在train_graph()函数中，经过100次迭代的方法最小化成本函数。然后，在每次迭代中以及优化完成后，将模型保存到磁盘。每个保存在磁盘上创建二进制文件被称为“检查点”。

				# Create a Saver object
				saver = tf.train.Saver()
				init = tf.global_variables_initializer()
				# Run a session. Go through 100 iterations to minimize the cost
				def train_graph():
				with tf.Session() as sess:
				sess.run(init)
				for i in range(100):
				for (x, y) in zip(x_train, y_train):
				# Feed actual data to the train operation
				sess.run(trainop, feed_dict={X: x, Y: y})
				# Create a checkpoint in every iteration
				saver.save(sess, 'model_iter', global_step=i)
				# Save the final model
				saver.save(sess, 'model_final')
				h_ = sess.run(h_est)
				v_ = sess.run(v_est)
				return h_, v_

现在让我们用上述功能训练模型，并打印出训练的参数。

				result = train_graph()
				print("h_est = %.2f, v_est = %.2f" % result)
				$ python tf_save.py
				h_est = 1.01, v_est = -1.96

Okay，参数是非常准确的。如果我们检查我们的文件系统，最后4次迭代中保存有文件以及最终的模型。

保存模型时，你会注意到需要4种类型的文件才能保存：

“.meta”文件：包含图形结构。

“.data”文件：包含变量的值。

“.index”文件：标识检查点。

“checkpoint”文件：具有最近检查点列表的协议缓冲区。

如何保存和恢复TensorFlow训练的模型

图1：检查点文件保存到磁盘

调用tf.train.Saver()方法，如上所示，将所有变量保存到一个文件。通过将它们作为参数，表情通过列表或dict传递来保存变量的子集，例如：tf.train.Saver({‘hor_estimate’: h_est})。

Saver构造函数的一些其他有用的参数，也可以控制整个过程，它们是：

max_to_keep：最多保留的检查点数。
keep_checkpoint_every_n_hours：保存检查点的时间间隔。如果你想要了解更多信息，请查看官方文档的Saver类，它提供了其它有用的信息，你可以探索查看。
Restoring Models

恢复TensorFlow模型时要做的第一件事就是将图形结构从“.meta”文件加载到当前图形中。

				tf.reset_default_graph()
				imported_meta = tf.train.import_meta_graph("model_final.meta")

也可以使用以下命令探索当前图形tf.get_default_graph()。接着第二步是加载变量的值。提醒：值仅存在于会话（session）中。

				with tf.Session() as sess:
				imported_meta.restore(sess, tf.train.latest_checkpoint('./'))
				h_est2 = sess.run('hor_estimate:0')
				v_est2 = sess.run('ver_estimate:0')
				print("h_est: %.2f, v_est: %.2f" % (h_est2, v_est2))

				$ python tf_restore.py
				INFO:tensorflow:Restoring parameters from ./model_final
				h_est: 1.01, v_est: -1.96

如前面所提到的，这种方法只保存图形结构和变量，这意味着通过占位符“X”和“Y”输入的训练数据不会被保存。

无论如何，在这个例子中，我们将使用我们定义的训练数据tf，并且可视化模型拟合。

				plt.scatter(x_train, y_train, label='train data')
				plt.plot(x_train, (x_train - h_est2) ** 2 + v_est2, color='red', label='model')
				plt.xlabel('x_train')
				plt.ylabel('y_train')
				plt.legend()

如何保存和恢复TensorFlow训练的模型

Saver这个类允许使用一个简单的方法来保存和恢复你的TensorFlow模型（图形和变量）到/从文件，并保留你工作中的多个检查点，这可能是有用的，它可以帮助你的模型在训练过程中进行微调。

4.SavedModel格式（Format）

在TensorFlow中保存和恢复模型的一种新方法是使用SavedModel，Builder和loader功能。这个方法实际上是Saver提供的更高级别的序列化，它更适合于商业目的。

虽然这种SavedModel方法似乎不被开发人员完全接受，但它的创作者指出：它显然是未来。与Saver主要关注变量的类相比，SavedModel尝试将一些有用的功能包含在一个包中，例如Signatures:允许保存具有一组输入和输出的图形，Assets:包含初始化中使用的外部文件。

4.1使用SavedModel Builder保存模型

接下来我们尝试使用SavedModelBuilder类完成模型的保存。在我们的示例中，我们不使用任何符号，但也足以说明该过程。

				tf.reset_default_graph()
				# Re-initialize our two variables
				h_est = tf.Variable(h_est2, name='hor_estimate2')
				v_est = tf.Variable(v_est2, name='ver_estimate2')
				# Create a builder
				builder = tf.saved_model.builder.SavedModelBuilder('./SavedModel/')
				# Add graph and variables to builder and save
				with tf.Session() as sess:
				sess.run(h_est.initializer)
				sess.run(v_est.initializer)
				builder.add_meta_graph_and_variables(sess,
				[tf.saved_model.tag_constants.TRAINING],
				signature_def_map=None,
				assets_collection=None)
				builder.save()

				$ python tf_saved_model_builder.py
				INFO:tensorflow:No assets to save.
				INFO:tensorflow:No assets to write.
				INFO:tensorflow:SavedModel written to: b'./SavedModel/saved_model.pb'

运行此代码时，你会注意到我们的模型已保存到位于“./SavedModel/saved_model.pb”的文件中。

4.2使用SavedModel Loader程序恢复模型

模型恢复使用tf.saved_model.loader，并且可以恢复会话范围中保存的变量，符号。

在下面的例子中，我们将加载模型，并打印出我们的两个系数（h_est和v_est）的数值。数值如预期的那样，我们的模型已经被成功地恢复了。

				with tf.Session() as sess:
				tf.saved_model.loader.load(sess, [tf.saved_model.tag_constants.TRAINING], './SavedModel/')
				h_est = sess.run('hor_estimate2:0')
				v_est = sess.run('ver_estimate2:0')
				print("h_est: %.2f, v_est: %.2f" % (h_est, v_est))

				$ python tf_saved_model_loader.py
				INFO:tensorflow:Restoring parameters from b'./SavedModel/variables/variables'
				h_est: 1.01, v_est: -1.96

5.结论

如果你知道你的深度学习网络的训练可能会花费很长时间，保存和恢复TensorFlow模型是非常有用的功能。该主题太广泛，无法在一篇博客文章中详细介绍。不管怎样，在这篇文章中我们介绍了两个工具：Saver和SavedModel builder/loader，并创建一个文件结构，使用简单的线性回归来说明实例。希望这些能够帮助到你训练出更好的神经网络模型。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据 » 如何保存和恢复TensorFlow训练的模型

随意打赏

tensorflow训练模型 tensorflow 模型 tensorflow 教程 tensorflow 训练 tensorflow