https://blog.tensorflowcn.cn/2017/11/interactive-supervision-with-tensorboard.html
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEgnq1pKnnXZv9MRmM6WyATo1bT7bIJZthvqb5KDTEg7H7fo0NDndPePQJFSfLjNudDVnqHNkXtFGgPCKlbad6nXTZ4XUtBkHAoTqqLXidNB8rSsIAES-5Qf6kNEmDyqXd6Exr53dMTitfU/s1600/projector.png
来自 IBM Research AI 的 Francois Luus 的客座文章
|
TensorBoard 投影仪显示已标注的 t-SNE |
最初发表在
www.ibm.com
“与其花一个月时间来解决一个无监督机器学习问题,不如花一个星期时间标注一些数据并训练一个分类器”
— 理查德·索彻(Salesforce 首席数据科学家)于 2017 年。
TensorBoard 投影仪功能包括 t-分布随机邻域嵌入 (t-SNE),用于可视化高维数据集,因为它是一种均衡的降维算法,不需要标签,但可以揭示许多类型数据中的潜在结构。当 t-SNE 可以使用部分标签在低维嵌入中重建成对相似性时会发生什么?
IBM Research AI 在 TensorBoard t-SNE 中实现了半监督学习,并
贡献了交互式监督所需的组件,以展示认知辅助标签。除了半监督 t-SNE 之外,还为 TensorBoard 添加了元数据编辑器、距离度量/空间选择、邻域函数选择和 t-SNE 扰动。这些组件协同工作,应用部分标签来告知半监督 t-SNE 明确嵌入,并逐步减轻标签负担。
半监督 t-SNE
可用的样本类别标签可用于计算
Leland 等人 [1] 的贝叶斯先验,它可以应用于高维相似性,以促进相同标签对之间的更大吸引力。加权 t-SNE 中的吸引力和排斥力根据
Yang 等人 [1] 的连接标量来平衡,但我们通过除以先验概率之和来对梯度大小进行归一化,并保持排斥归一化不受影响。
“这就像一个液体思维过程,它流畅地适应用户对结构的定义。用户可以构建对数据的有用视角”
|
半监督 t-SNE(反复开启/关闭监督) |
可以预见,总体效果是相同标签的样本形成更紧密和组合的集群,这有效地清理了嵌入中的空间,从而突出显示异常值和未标记点。这可能会逐步降低用户将标签应用于数据集的难度,因为嵌入逐渐组织成紧凑的集群。t-SNE 在提供数据的初始结构视图方面非常有用,但随后可以将监督注入其目标,并且迭代梯度下降可以构建用户对数据的视角。
通过监督 t-SNE 强加额外的约束可能会使其更难逃避局部最优,这在例如连接两个分离的相同标签集群时是必需的,尤其是在 Barnes-Hut 近似将吸引力定位时。此外,当相同标签的集群坍缩时,标签会变得更难,因此需要一种方法来将嵌入踢出其局部最优。
|
t-SNE 使用随机游走进行扰动 |
我们建议使用随机游走来扰动 t-SNE 的点,方法是迭代地将用户指定的范围内的小超球体内的独立偏移应用于用户指定的范围。扰动函数可以在任何时候应用,这有助于减少精灵遮挡,以便可以细化选择或连接分离的相同标签集群。
交互式监督
TensorBoard 中的元数据提供有关张量的信息,例如每个样本的类别标签。现在可以编辑 TensorBoard 中的现有元数据,这实际上允许将标签应用于选定样本。当用户开始标注时,投影仪会切换到元数据上下文,这将显示标签直方图,有助于快速识别和应用所需的标签。
以前,只有高维输入空间中的余弦和欧几里得度量可用于选择邻域。这些距离度量已扩展到包括在 PCA 和 t-SNE 嵌入空间中的使用,这是半监督环境中多样本标签所需的。
|
距离度量/空间和邻域选择函数的新选项 |
提出了一种测地线邻域选择方法,以基于 k 最近邻选择所忽略的不连续性来获取更小的集群。测地线邻域以贪婪的近似方式计算,通常提供良好的多样本标签前景。
EMNIST 字母的认知辅助标签
需要多少次交互才能获得对像 EMNIST 字母(26 类)或 CIFAR-100(100 类)这样的图像数据集的足够标签?
标注数据集通常是一项非常耗时且令人不快的工作,但通常是无法逃避的工作。标注有助于使用监督机器学习,但为什么不使用机器学习来促进最少监督标注呢?当然,迁移学习、零样本或单样本学习可以用来完全规避对标签的需求,但这些方法依赖于通常不适用于大多数真实世界数据的假设。
提供的标签也可以明确用于训练特征提取器和分类器,这些分类器能够做出越来越自信的标签推荐。请注意,t-SNE 如何向用户呈现一个适合聚类的初始视图,以及如何利用单个全局目标函数来帮助以优雅且自成一体的方式解决最少监督问题,坚持简单性的理念。
EMNIST 字母是一个包含 26 个类别的数据集,包含 411,302 个样本,使用
基于 OPIUM 的分类器 [3] 可实现 85.15% 的准确率,尽管我们在标注练习中只使用了大约 2000 个分层样本。这是一个很好的数据集,可以展示标注,因为样本图像很小,很熟悉,而且人眼很容易区分。因此,瓶颈变成了标注系统,挑战是如何从每次人类点击/按键中学习尽可能多的信息,以便以最少的交互次数获得每个类别的良好标注样本大小。
|
使用 TensorBoard 中的交互式监督,对 EMNIST 字母进行认知辅助标注。 |
上面的图像显示了更长标注会话的一部分,速度提高了 4 倍。事实证明,需要大量的交互,而且标注确实是一项痛苦的任务!但是,很明显,半监督 t-SNE 与测地线邻域选择相结合提供的澄清绝对提高了标签/交互效率。它在被标注后经常将不同的样本加入其成员集群,因此它清理了嵌入,并且更容易注意到和处理未标注样本。
对无线电频率干扰进行分类
SETI 研究所指挥着一台强大的射电望远镜,名为艾伦望远镜阵列,它聆听着夜空,希望能探测到地外信号。不幸的是,大多数信号来自人造来源,是不希望的干扰,必须将其滤除。然而,在数百万次捕获的信号事件中出现了自然类别的 RFI,如果能够准确地对其进行分类,那么去除噪声将容易得多。
我们将信号表示为小的方形图像,这些图像描绘了频谱图,或者说是时间-频率图,可以解释信号的频率内容和可能的性质。因此,现在如果我们可以可视化信号,我们可以有效地使用 TensorBoard 交互式标签,因为样本相似性很容易看到,这使得很容易描绘出好的集群。
大约 1400 万次存档测量已使用频谱特征提取和自编码进行处理,以生成 2000 次测量的平衡样本,这些样本具有良好的信号活动多样性。在上面的视频中,我们使用 TensorBoard 检查这些样本,并使用用户定义的术语逐步标注测地线集群。
可以探索剩余的未标注样本作为可能的异常,这些异常可能需要后续测量。您会注意到视频后半部分中出现了一些奇怪的信号。
它有用吗?
请注意半监督 t-SNE 在辅助标注过程中的作用
- 呈现了一个初始的集群状视图,这使得很容易挑选同类集群进行标注。
- 每次标注操作都会将更多样本压缩到标注的集群中,这会组织表示,以便更容易看到并获取剩余的未标注样本。由于这里解决了维度灾难,嵌入空间变得非常珍贵,必须不惜一切代价恢复它。
- 在进行足够的标注后,剩余的未标注样本可能是异常值,可以根据内容和上下文与常见类别相关的角度进行探索。
从以上演示可以看出,通过利用以梯度下降迭代求解的全局加权目标,可以简化标注过程。这里显而易见的限制是,点必须通过嵌入移动,并且使用 Barnes-Hut 近似,分离的相同标签集群很难合并,以获得完美的聚类。未来的工作可能会考虑使用替代方法,以更好地利用标签来优雅地获得最佳集群。
参考文献
[1] Leland McInnes、Alexander Fabisch、Christopher Moody、Nick Travers,“
使用基于部分标签的贝叶斯先验的半监督 t-SNE”,
https://github.com/lmcinnes/sstsne。2016 年。
[2] Zhirong Yang、Jaakko Peltonen 和 Samuel Kaski。
“散度的优化等价性改进了邻域嵌入”。国际机器学习会议。2014 年。
[3] Gregory Cohen、Saeed Afshar、Jonathan Tapson 和 André van Schaik。
“EMNIST:MNIST 手写字母的扩展”。
arXiv 预印本 arXiv:1702.05373 (2017)。