Press "Enter" to skip to content

分类: AIGC

大模型“涌现”的思维链,究竟是一种什么能力?

天灵灵地灵灵,大模型快“显灵” 听说最近AI大厂的开发人员和高校的NLP研究人员,都在琢磨,怎么让大模型“涌现”。那画面莫名就让我想到了程序员给服务器上香来保佑不宕机,都有种求诸于天的玄学。 所谓“涌现”,在大模型领域指的是当模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等。一般来说,模型在100亿到1000亿参数区间,可能产生能力涌现。…

Leave a Comment

文本生成系列之因果语言模型

1. 简介 在前面一章我们已经介绍过文本生成任务中非常流行的一种模型结构,encoder-decoder,但是除此之外,还存在其他一些不一样的模型结构。本文主要介绍另外一种模型结构,因果语言模型。因果语言模型(causal language model),是跟掩码语言模型相对的语言模型,跟transformer机制中的decoder很相似,因果语言模型采用了对角掩蔽矩阵,使得每个token只能看到…

Leave a Comment