Wednesday, January 12, 2022

Jeff Dean万字长文回顾2021:除了超大的AI模型,谷歌还有啥?

Jan. 12, 2022

Here is the article.

【新智元导读】新年伊始,谷歌AI掌门人Jeff Dean的年度总结「虽迟但到」,这篇万字长文系统回顾了过去一年来机器学习领域的五大趋势。除了超大AI模型,谷歌去年还做了啥?
2021年,谷歌在机器学习领域可谓是十分高产。毕竟,这帮人在NeurIPS 2021上就投了177篇论文。1月11日,Jeff Dean终于用一篇万字长文完成了总结。

趋势 1:功能更强大、通用的机器学习模型 

研究人员正在训练出比以往任何时候更大、功能更强大的机器学习模型。近几年,语言领域的模型规模迅速增长,参数数量从百亿级(例如110亿参数的T5模型)发展到现在的数千亿级(如 OpenAI 的 1750亿参数的GPT-3模型和 DeepMind 的 2800亿参数的Gopher模型。

在稀疏模型方面,如Google的GShard模型参数为6000亿,GLaM模型参数更是达到了1.2万亿)。

数据集和模型规模的扩大,使得各种语言任务的准确性显著提高,标准自然语言处理 (NLP) 基准任务性能获得全面改进。

这些高级模型中,很大一部分模型专注于书面语言的单一但重要的模态,并在语言理解基准和开放式会话能力方面达到了最先进的结果。此外,这些模型可以在训练数据相对较少的情况下泛化到新的语言任务中,有时甚至不需要新的训练样本。

比如Google的的LaMDA模型就可以进行开放式对话,并在多轮对话中保留重要的上下文语境信息。

用于图像识别和视频分类的Transformer在许多基准测试中取得了SOTA。与单独的视频数据相比,在图像数据和视频数据上共同训练模型可以提高视频任务的性能。
 
我们为图像和视频Transformer开发了稀疏的轴向注意力机制,为视觉Transformer模型找到了更好的标记图像的方法,并通过研究视觉Transformer方法与卷积神经网络相比如何运作,提高了对视觉Transformer的理解。Transformer与卷积操作的结合,在视觉以及语音识别任务中均表现出明显优势。
 
生成式模型的输出也在大幅提高。尤其是图像生成模型。最近的模型已经具备这样的能力:只给定一个类别的逼真图像,模型就可以对低分辨率的图像进行「填充」,生成自然的高分辨率对应图像,甚至可以生成自然的任意尺度的自然场景。图像甚至可以被转换为一串离散的标记,然后用自回归生成模型实现高精度合成。

No comments:

Post a Comment