2021 年 9 月 20 日 — 发布者 Sayak Paul (Carted 的 MLE,兼 GDE) 和 Morgan Roff (Google) 我们很高兴分享今年与 TensorFlow Hub 合作的 Google Summer of Code 学生完成的工作。如果你是一名对编写开源代码感兴趣的学生,那么你可能会对 Google 的 Summer of Code 项目感兴趣。通过这个项目,学生向开源组织提出项目想法,如果被选中,他们将获得津贴,并在整个夏天与他们合作完成项目。学生有机会直接从其选定的组织中的导师那里学习,而组织则从学生的贡献中获益。今年,17 名成功的学生在许多项目上完成了与 TensorFlow 组织的项目。在本文中,我们将重点介绍一些在 TensorFlow Hub 上完成的工作。
发布者 Sayak Paul (Carted 的 MLE,兼 GDE) 和 Morgan Roff (Google)
我们很高兴分享今年与 TensorFlow Hub 合作的 Google Summer of Code 学生完成的工作。如果你是一名对编写开源代码感兴趣的学生,那么你可能会对 Google 的 Summer of Code 项目感兴趣。
通过这个项目,学生向开源组织提出项目想法,如果被选中,他们将获得津贴,并在整个夏天与他们合作完成项目。学生有机会直接从其选定的组织中的导师那里学习,而组织则从学生的贡献中获益。今年,17 名成功的学生在许多项目上完成了与 TensorFlow 组织的项目。在本文中,我们将重点介绍一些在 TensorFlow Hub 上完成的工作。
我们是 Sayak 和 Morgan,是 TensorFlow Hub (TF Hub) 项目的两位导师。在这里,我们分享了学生在构建和发布最先进模型、在大型基准数据集上训练模型方面的学习经验,以及我们作为导师的学习经验,以及夏令营对我们每个人和整个社区的回报。
我们有机会指导两位学生 - Aditya Kane 和 Vasudev Gupta。Aditya 成功地实现了 RegNets 的几种变体,包括基于这篇文章的变体 论文,并在 ImageNet-1k 数据集 上训练它们。Vasudev 将来自这篇文章的预训练 wav2vec2 权重移植到 TensorFlow,这要求他从头开始实现模型架构。然后,他 演示 了在 LibriSpeech 数据集 上微调这些预训练的检查点,使他的工作更具可定制性和社区相关性。
随着模型训练在如此大规模的范围内进行,在实现过程中遵循良好的工程实践变得尤为重要。这些包括代码模块化、单元测试、良好的设计模式、优化等等。模型在 Cloud TPU 上训练以加速训练时间,因此,大量精力投入到 数据输入管道 中,以确保最大限度地利用加速器。
所有这些因素共同造成了项目的复杂性。感谢 Summer of Code 项目,学生有机会在经验丰富的导师的帮助下应对这些挑战。这也使学生能够深入了解他们的组织,并与拥有多种技能的人员进行互动,这些人员共同努力使大型项目成为可能。在这里,我们要衷心感谢我们的学生,他们优雅地处理了这些工程工作并认真听取了我们的反馈。
Vasudev 和 Aditya 为 TensorFlow Hub 做出了重大贡献,包括预训练模型,以及有关其使用情况的教程(Wav2Vec、RegNetY),以及 TensorFlow 实现,供那些想要深入研究的人使用。用他们自己的话说
过去 2-3 个月充满了学习和编码。GSoC 帮助我进入语音领域,并激励我探索更多有关 TensorFlow 生态系统的知识。我感谢我的导师们一直以来的及时反馈。我期待着为 TensorFlow 社区和其他很棒的开源项目做出更多贡献。- Vasudev Gupta
在 ResNet 首次发布 大约 6 年后,它们仍然被广泛用作图像理解任务的基准架构。许多 近期 的自监督和半监督学习框架仍然利用 ResNet50 作为其主干架构。然而,ResNets 通常 无法 在更大数据范围内很好地扩展,并且随着它们的发展,会造成训练和推理时间延迟很大。相比之下,RegNets 专为可扩展的架构框架而开发,该框架在保持低延迟的同时在标准图像识别任务中展现出高性能。Aditya 的模型发布在 TF Hub 上,代码和教程可在 GitHub 上获取。
自监督学习是机器学习研究的一个重要领域。最近的许多成功案例都集中在 NLP 和计算机视觉方面,而对于 Vasudev 的项目,我们想要探索语音。去年,一组研究人员发布了 wav2vec2 框架,用于以自监督的方式从音频中学习表示,有利于语音转文本等下游任务。
使用 wav2vec2,你现在可以使用无标签数据预训练语音模型,并在像说话人识别这样的下游任务上微调这些模型。Vasudev 的模型可在 TF Hub 上获取,以及一个新的 教程 ,介绍微调方法,代码可在 GitHub 上获取。
我们想衷心感谢所有学生、导师和组织者,他们让 Summer of Code 尽管今年遇到了许多挑战,但依然取得了成功。我们鼓励您查看这些模型,并通过在社交媒体帖子中添加 #TFHub 标签与我们分享您的作品,或者将您的作品分享到 社区亮点计划 中。如果您有任何问题或想了解有关这些新模型的更多信息,您可以在 discuss.tensorflow.org 上提出问题。
2021 年 9 月 20 日 — 发布者 Sayak Paul (Carted 的 MLE,兼 GDE) 和 Morgan Roff (Google) 我们很高兴分享今年与 TensorFlow Hub 合作的 Google Summer of Code 学生完成的工作。如果你是一名对编写开源代码感兴趣的学生,那么你可能会对 Google 的 Summer of Code 项目感兴趣。通过这个项目,学生向开源组织提出项目想法,如果被选中,他们将获得津贴,并在整个夏天与他们合作完成项目。学生有机会直接从其选定的组织中的导师那里学习,而组织则从学生的贡献中获益。今年,17 名成功的学生在许多项目上完成了与 TensorFlow 组织的项目。在本文中,我们将重点介绍一些在 TensorFlow Hub 上完成的工作。