导言

Google 近日 3 月 23 － 24 日在美国旧金山举办首次谷歌云平台（ Google Cloud Platform ） GCP NEXT 大会，参会人数超过 2000 人。 GCP NEXT 大会以机器学习、资料中心和云端安全为主要议题，为未来 GCP 发展做战略规划。

其中，关于机器学习，谷歌发布了云端机器学习平台（ Cloud Machine Learning ），为开发者和企业用户提供一整套包含视听及翻译的应用 API ，例如 Cloud Translate API 和 Cloud Vision API 。除了 machine learning ，谷歌去年就推出了机器学习开放原始码平台 TensorFlow ，鼓励开发者利用该平台来开发创新应用服务。现在 TensorFlow 和 Kubernetes 相结合，将建立更为强大的机器学习模型，扩充功能，开启人工智能机器学习在谷歌云端的新纪元。

在 2011 年，谷歌开发了一个内部深度学习基础设施叫做“ DistBelief ”，这个设施允许谷歌人创建更大的神经网络和扩容实训成千上万个核心。最近几年，谷歌引进了 TensorFlow ，也就是它的二代机器学习系统。 TensorFlow 的特点是通用，灵活的，便携的，易于使用，最重要的是，它是使用开源社区开发的。

将机器学习引入到你的产品的过程包括创建和训练数据集模型。

引入机器学习到你的产品这个过程涉及到创建和训练模型在你的数据集上，然后 push 模型到生产过程来提供请求。在这篇博客中，我们将会展示给你们如何通过 TensorFlow 使用 Kubernetes ， TensorFlow 是一个高性能,满足应用程序的扩展需求，为机器学习模型提供开源服务系统。

现在让我们以镜像作为例子。假设你的应用程序需要能够在一系列类别中正确的识别一个镜像。比如，给出下面这个可爱的小狗图，你的系统应该将它归类到猎犬这一类。

你可以通过 TensorFlow 使用从 ImageNet 数据集上面 trained 的 Inception － v3 模型，来实现图像分类。这个数据集包含图片和标签，允许 TensorFlow 学习者 train 一个模型，该模型可以被用在生产过程中。

一旦模型被训练和输出， TensorFlow 服务使用该模型来进行推理基于客户提供的新数据的预言。在我们的例子中，客户在 gRPC 请求提交镜像分类， gRPC 是一个来自谷歌的高性能，开源 RPC 的框架。

推理可以是十分资源密集型的。我们的服务器执行以下 TensorFlow 来处理它接收到的每一个分类的要求。 Inception － v3 模型有超过 2700 万个参数，每次运算推理（ inference ）运行 57 亿浮点。

幸运地，这就是 Kubernetes 可以帮助到我们的地方。 Kubernetes 分布推断请求处理跨集群使用外部负载均衡器。集群中的每个 pod 都包含一个 TensorFlow 服务于 Docker 镜像，还有 TensorFlow 服务为基础的 gRPC 服务器，以及一个 trained 的 Inception － v3 模型。这个模型以文件集描述 TensorFlow 图的形式呈现，模型权重，资产等等。既然所有东西都是整齐的打包好放到一起，那么我们就可以使用 Kubernetes Replication Controller 动态的扩展复制 pods ，以此来跟上服务要求。

为了帮助你自己试一试，我们写了一个 tutorial 教程，它展示了如何创建 TensorFlow 服务 Docker 容器来给 Inception － v3 镜像分类模型提供服务，安装 Kubernetes 集群，并且应对该集群运行分类请求。我们希望这个教程能够让你更加容易地去整合机器学习到你自己的程序上，以及用 Kubernetes 扩大规模。学习更多关于 TensorFlow ，请看下文补充：