https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEijqesU2LWVCPv8Tia4B8eJUF-BygIorPt80TXQ4ma9livE2SEtFO5sMRhOSqn6JFQhc3dxN-Zm4Didc6y1A7r4vc7n1GUBGCbq67plmUwl9ZmjXjfYPbyM9o53rc19OJ1ZU64qVRDKTd8/s1600/MLpipeline.png
作者:Google Research 产品经理 Catherina Xu 和 Tulsee Doshi
虽然行业和学术界不断探索利用机器学习 (ML) 来打造更优秀的产品和解决重要问题的益处,但算法及其训练所使用的的数据集也有可能反映或加剧不公平的偏见。例如,在内容审核系统中,如果持续将某些群体发布的非攻击性文本标记为“垃圾邮件”或“高度攻击性”,则会导致这些群体被排除在对话之外。
2018 年,我们分享了 Google 如何使用 AI 来让产品更加实用,
强调 AI 原则,这些原则将指导我们未来的工作。第二项原则 -“避免创造或加剧不公平的偏见” - 明确了我们致力于避免创造或加剧对人们不公正的偏见和影响。
作为这一承诺的一部分,我们最近在
TensorFlow 世界大会上发布了
公平性指标的测试版,这套工具可以定期计算和可视化二元和多类分类的公平性指标,帮助团队迈出第一步,识别不公正的影响。公平性指标可以用来生成透明度报告的指标,例如用于
模型卡的指标,帮助开发者在负责任地部署模型时做出更好的决策。由于公平性问题和评估因案例而异,因此我们还在此次发布中包含了一个
互动案例研究,以及
Jigsaw的
毒性分类中无意偏差数据集,以说明如何在生产机器学习 (ML) 模型中使用公平性指标来检测和修复偏差,具体取决于模型的部署环境。公平性指标目前已
进入测试阶段,您可以尝试将其应用于自己的用例。
什么是 ML 公平性?
偏见可能出现在典型机器学习管道的任何部分,从不具有代表性的数据集到学习到的模型
表示,再到结果向用户呈现的方式。这种偏见带来的错误可能会对某些用户造成不成比例的影响。
为了检测这种不平等的影响,对单个切片或用户组进行评估至关重要,因为整体指标可能会掩盖某些群体表现不佳的情况。这些群体可能包括,但不限于,由敏感特征定义的群体,例如种族、民族、性别、国籍、收入、性取向、能力和宗教信仰。然而,同样重要的是要记住,公平性不能仅仅通过指标和测量来实现;即使跨切片表现良好,也不能证明系统是公平的。相反,评估应被视为识别性能差距的首要方式之一,特别是对于分类模型而言。
公平性指标工具套件
公平性指标工具套件可以计算和可视化分类模型中常用的公平性指标,例如假阳性率和假阴性率,从而可以轻松比较不同切片或与基准切片之间的性能。该工具计算
置信区间,可以找出统计上显著的差异,并在多个阈值上进行评估。在 UI 中,可以切换基准切片并调查其他各种指标的性能。用户还可以添加自己的指标进行可视化,以适应其特定用例。
此外,公平性指标与
What-If 工具 (WIT) 集成在一起 - 点击公平性指标图表中的一个条形将把这些特定数据点加载到 WIT 小部件中,以便进一步检查、比较和反事实分析。这对于大型数据集特别有用,因为公平性指标可以在 WIT 用于更深入分析之前,用来识别有问题的切片。
|
使用公平性指标可视化用于公平性评估的指标。 |
|
点击公平性指标中的一个切片,将把该切片中的所有数据点加载到 What-If 工具小部件中。在本例中,显示了所有带有“女性”标签的数据点。 |
公平性指标测试版发布包括以下内容
如何在当今的模型中使用公平性指标
公平性指标建立在 TensorFlow 模型分析之上,它是
TensorFlow Extended (TFX) 的一个组件,可用于调查和可视化模型性能。根据具体的 ML 工作流程,可以以下列方式之一将公平性指标纳入系统
如果使用 TensorFlow 模型和工具(如 TFX)
如果不使用现有的 TensorFlow 工具
- 下载公平性指标 pip 包,并将 Tensorflow 模型分析用作独立工具
对于非 TensorFlow 模型
公平性指标案例研究
我们创建了一个
案例研究和
介绍性视频,说明如何结合使用工具来检测和缓解在 Jigsaw 的
毒性分类中无意偏差数据集上训练的模型中的偏差。该数据集由 Jigsaw 内部致力于训练 ML 模型以保护对话中声音的 Conversation AI 团队开发。模型经过训练可以预测文本评论是否可能在毒性、侮辱和性暗示等多个维度上具有攻击性。
这类模型的主要用例是内容审核。如果模型以系统的方式惩罚某些类型的消息(例如,经常将评论标记为攻击性,而实际上并非如此,导致假阳性率很高),那么这些声音将被压制。在本案例研究中,我们使用一系列工具(公平性指标、TFDV 和 WIT)来调查按数据集中的性别身份关键词分组的子组的假阳性率,以检测、诊断并采取措施修复根本问题。
下一步是什么?
公平性指标仅仅是第一步。我们计划通过启用更多支持的指标(例如,使您能够评估没有阈值的分类器的指标)来
垂直扩展,并通过创建利用方法(例如
主动学习和
min-diff)的修复库来
横向扩展。因为我们相信通过实际示例学习非常重要,所以我们希望将我们的工作建立在实际案例基础上,并在未来几个月发布更多案例研究,随着更多功能的推出。
要开始使用,请参阅
公平性指标 GitHub 存储库。有关如何在您的用例上下文中考虑公平性评估的更多信息,请参阅
此链接。
我们希望与您合作,了解公平性指标在哪些方面最有用,以及在哪些方面需要添加功能。请通过
[email protected] 联系我们,提供您使用体验的任何反馈意见!
致谢
这项工作背后的核心团队包括 Christina Greer、Manasi Joshi、Huanming Fang、Shivam Jindal、Karan Shukla、Osman Aka、Sanders Kleinfeld、Alicia Chang、Alex Hanna 和 Dan Nanas。我们还要感谢 James Wexler、Mahima Pushkarna、Meg Mitchell 和 Ben Hutchinson 对该项目的贡献。