介绍 TFX 交互式笔记本
2019 年 11 月 25 日
Charles ChenJoe LeeKenny Song 代表 TFX 团队发布


在 Google Colab 中运行 TFX

TensorFlow Extended (TFX) 是一个用于创建端到端机器学习管道的平台。TFX 由 Google 创建,为我们自己的 ML 应用程序和服务提供基础,我们正在稳步地开源 TFX,以使其他公司和团队能够轻松构建生产级的 ML 系统 (在此博客文章中了解更多信息)。
TFX config
在 TFX 0.15 中,我们很高兴发布一种更快的开始使用 TFX 的方法。现在您可以在交互式的 Google Colab 或 Jupyter 笔记本中构建、调试和运行您的 TFX 管道!在这个笔记本环境中,您可以运行 TFX 的 逐个组件,这使得迭代和实验您的 ML 管道变得更容易。

为了开始,这个新的 基于 Colab 的 TFX 教程 包含所有 TFX 组件,不需要设置,并且可以在您的浏览器中运行!它是免费使用的,所以尝试在 Colab 中使用 TFX 并 向我们发送您的反馈

在 Google Colab 中运行 TFX

完成在笔记本中开发您的管道后,您可以将笔记本代码转换为管道文件,该文件可以使用 Apache Airflow 或 Apache Beam 进行编排(导出到 Kubeflow Pipelines 即将推出)。我们建议将此导出路径用于将您的 TFX 管道投入生产:笔记本用于实验,而管道用于生产。

实验和生产之间的主要区别在于您运行组件的方式。在生产环境中,Apache Airflow 等编排引擎将为您执行组件。在实验期间,运行笔记本单元的人(您!)是编排器。实现这一点的魔力是 InteractiveContext,它管理笔记本中的组件执行和状态。
context = InteractiveContext()
例如,以下是如何在笔记本中运行 StatisticsGen 组件。首先,我们实例化一个 StatisticsGen 组件,并将我们的训练数据传入(通常由另一个 TFX 组件(如 ExampleGen)引入)。
statistics_gen = StatisticsGen(examples=example_gen.outputs['examples'])
接下来,要运行组件,我们只需调用 context.run() 并运行该单元。
context.run(statistics_gen)
完成了!正如您从名称中可能猜到的那样,StatisticsGen 将在您的数据集上生成特征级别的统计信息。单元完成运行后,您可以使用内置的 TFX 可视化工具通过调用 context.show() 来查看这些统计信息。
context.show(statistics_gen.outputs['statistics'])
此函数的输出是一个交互式可视化工具,您可以使用它来探索并分析数据的形状和属性。
interactive visualization
您可以以这种方式运行所有 TFX 组件,包括在 Trainer 组件中训练 TensorFlow 模型,以及使用 Tensorflow 模型分析 在 Evaluator 组件中对模型的性能进行深度分析。

这使得快速、轻松的实验成为可能。对于生产来说,您可以通过调用 context.export_to_pipeline() 将在笔记本中编写的所有内容转换为可编排的管道文件。
context.export_to_pipeline(notebook_filepath=_notebook_filepath,
                           export_filepath=_pipeline_export_filepath,
                           runner_type=_runner_type)
TFX 提供了许多其他组件,您可以在生产 ML 管道中使用这些组件。要了解更多信息并在 Colab 笔记本中尝试所有 TFX 组件,请查看 教程

我们也希望收到您的反馈 - 请在 TFX 邮件列表 上告诉我们您的想法。
下一篇文章
Introducing the TFX interactive notebook

- Charles ChenJoe LeeKenny Song 代表 TFX 团队发布


在 Google Colab 中运行 TFXTensorFlow Extended (TFX) 是一个用于创建端到端机器学习管道的平台。TFX 由 Google 创建,为我们自己的 ML 应用程序和服务提供基础,我们正在稳步地开源 TFX,以使其他公司和团队能够轻松构建生产级的 ML 系统 (le…