2022 年 2 月 14 日 — 作者:Elie Bursztein 和 Owen Vallis,谷歌TensorFlow Similarity 现在支持关键的 自监督 学习算法,可以帮助您在没有大量标记数据的情况下提高模型精度。在训练新的机器学习分类器时,我们通常拥有比标记示例更多未标记数据,例如照片。自监督学习技术旨在利用这些未标记数据来学习有用的数据表示,通过对这些未标记示例进行预训练来提高分类器的精度。在某些情况下,能够利用丰富的未标记数据可以显著提高模型精度。
作者:Elie Bursztein 和 Owen Vallis,谷歌
TensorFlow Similarity 现在支持关键的 自监督 学习算法,可以帮助您在没有大量标记数据的情况下提高模型精度。
基础的自监督训练。 |
在训练新的机器学习分类器时,我们通常拥有比标记示例更多未标记数据,例如照片。自监督学习技术旨在利用这些未标记数据来学习有用的数据表示,通过对这些未标记示例进行预训练来提高分类器的精度。在某些情况下,能够利用丰富的未标记数据可以显著提高模型精度。
也许最著名的成功自监督训练示例是 Transformer 模型,例如 BERT,它通过对大量文本(例如维基百科或网络)进行预训练来学习有意义的语言表示。
自监督学习可以应用于任何类型的数据,并且可以应用于各种数据规模。例如,如果您只有几百个标记图像,使用自监督学习可以通过对中等规模的数据集(例如 ImageNet)进行预训练来提高模型精度。例如,SimCLR 使用 ImageNet ILSVRC-2012 数据集来训练表示,然后评估 12 个其他图像数据集(例如 CIFAR、Oxford-IIIT Pets、Food-101 等)的迁移学习性能。自监督学习也能在更大的规模上发挥作用,在对数十亿个示例进行预训练后,精度也会提高,包括 文本 Transformer 和 视觉 Transformer。
自监督学习如何针对图像工作的高级概述。 |
自监督学习的核心是对比同一示例的两个增强“视图”。模型的目标是最大化这些视图之间的相似度,以学习对下游任务(例如训练监督分类器)有用的表示。在实践中,在对大量未标记图像进行预训练后,通过在冻结的预训练表示之上添加一个 softmax 密集层,并使用少量标记示例按照通常方式进行训练,来训练图像分类器。
来自“你好,世界”笔记本的 CIFAR10 上增强视图对的示例。 |
TensorFlow Similarity 目前提供了三种用于学习自监督表示的关键方法:SimCLR、SimSiam、Barlow Twins,它们可以开箱即用。TensorFlow Similarity 还提供了实现其他形式的无监督学习所需的所有组件。这些组件包括回调、指标和数据采样器。
您可以开始探索如何利用自监督学习 “你好,世界” 笔记本,该笔记本演示了如何在 CIFAR10 上将精度提高一倍。
2022 年 2 月 14 日 — 作者:Elie Bursztein 和 Owen Vallis,谷歌TensorFlow Similarity 现在支持关键的 自监督 学习算法,可以帮助您在没有大量标记数据的情况下提高模型精度。在训练新的机器学习分类器时,我们通常拥有比标记示例更多未标记数据,例如照片。自监督学习技术旨在利用这些未标记数据来学习有用的数据表示,通过对这些未标记示例进行预训练来提高分类器的精度。在某些情况下,能够利用丰富的未标记数据可以显著提高模型精度。