本文介绍并解释了对生成式 AI 很重要的关键术语,并链接到其他资源以了解更多信息。
在过去的几年里,特别是自 ChatGPT 在 12 个多月前出现以来,用于创建逼真的合成文本、图像、视频和音频的生成式 AI 模型已经出现,并且此后一直在迅速发展。最初是不起眼的研究,很快就发展成为能够在上述各种媒介上产生高质量、类似人类输出的系统。特别是在神经网络的关键创新和计算能力大幅提高的推动下,越来越多的公司现在提供免费和/或付费访问这些模型,这些模型的能力以惊人的速度增长。
然而,生成式人工智能并不全是彩虹和小狗。虽然在各种应用中增强人类创造力的前景广阔,但人们仍然担心如何正确评估、测试和负责任地部署这些生成系统。与错误信息的传播有关,以及对这种技术带来的偏见、真实性和社会影响的担忧,尤其令人不安。
然而,任何新技术要做的第一件事就是在我们利用或批评它之前尝试理解它。开始这样做是我们在本文中计划的内容。我们打算列出一些关键的生成式人工智能术语,并尽最大努力让初学者在直观的水平上理解它们,以便为未来更深入的学习提供基础并为铺平道路。本着这种精神,对于下面的每个关键术语,您将找到相关材料的链接,以便根据需要开始进一步调查。
现在让我们开始吧。
自然语言处理 (NLP) 是一个 AI 子领域,专注于通过以编程方式为这些机器提供所需的工具,使机器能够理解、解释和生成人类语言。NLP弥合了人类交流和计算机理解之间的差距。NLP 首先采用基于规则的方法,其次是“传统”机器学习方法,而当今大多数尖端 NLP 都依赖于各种神经网络技术。
神经网络是受人脑启发(而不是复制品)的机器学习计算模型,用于从数据中学习。神经网络由人工神经元的层(多层=深度学习)组成,这些神经元处理和传输小的单个数据,使这些数据适合功能,并重复更新与处理神经元相关的权重,以试图将数据“更好地拟合”到函数中。神经网络对于当今人工智能的学习和决策能力至关重要。如果没有十多年前开始的深度学习革命,我们所说的人工智能就不可能实现。
生成式人工智能是一类人工智能,由神经网络提供支持,专注于创建新内容。这些内容可以采用多种形式,从文本到图像再到音频等等。这与“传统”类型的人工智能不同,后者专注于对现有数据进行分类或分析,体现了基于训练数据“想象”和生成新内容的能力。
内容生成是经过训练的生成模型生成合成文本、图像、视频和音频的实际过程,使用从训练数据中学习的模式,生成上下文相关的输出以响应用户输入或提示。这些提示也可以采用上述任何形式。例如,文本可以用作生成更多文本的提示,或者根据文本描述生成图像,或者代替一段音频或视频。同样,图像可以用作生成另一个图像、文本或视频等的提示。多模态提示也是可能的,例如,可以使用文本和图像来生成音频。
大型语言模型 (LLM) 是专门的机器学习模型,专为处理和“理解”人类语言而量身定制。LLM 在大量文本数据上进行训练,这使他们能够分析和复制复杂的语言结构、细微差别和上下文。无论使用何种确切的LLM模型和技术,这些模型的全部本质都是学习和预测下一个单词或标记(字母组)跟随当前的内容,依此类推。LLM 本质上是非常复杂的“下一个单词猜测器”,正如您可能听说过的那样,改进下一个单词猜测是目前一个非常热门的研究课题。
基础模型是设计具有广泛功能的人工智能系统,可以适应各种特定任务。基础模型为构建更专业的应用程序提供了基础,例如针对特定聊天机器人、助手或其他生成功能调整通用语言模型。然而,基础模型并不局限于语言模型,还存在于图像和视频等生成任务中。众所周知和依赖的基础模型的例子包括 GPT、BERT 和 Stable Diffusion。
在这种情况下,参数是定义模型结构、操作行为以及学习和预测能力的数值。例如,OpenAI 的 GPT-4 中的数十亿个参数会影响其单词预测和对话创建能力。从技术上讲,神经网络中每个神经元之间的连接都带有权重(如上所述),每个权重都是一个模型参数。→的神经元越多,权重就越多→参数就越多,→(训练有素的)网络学习和预测的能力就越大。
单词嵌入是一种技术,其中单词或短语被转换为预定数量维度的数字向量,试图在多维空间中捕获它们的含义和上下文关系,其大小远小于对词汇表中的每个单词(或短语)进行一热编码所需的大小。如果要创建一个包含 500,000 个单词的矩阵,其中每一行都是为单个单词创建的,并且该行中的每一列都设置为“0”,除了表示相关单词的单个列之外,该矩阵将是 500,000 x 500,000 行 x 列,并且非常稀疏。这对存储和性能来说都是一场灾难。通过将列设置为介于 0 和 1 之间的各种小数值,并将列数减少到 300(维度),我们拥有了更加集中的存储结构,并从本质上提高了操作性能。作为副作用,通过神经网络学习这些维度嵌入值,相似术语的维度值将比不同的术语“更接近”,从而为我们提供了对相对单词含义的见解。
Transformer 模型是同时处理整个句子的 AI 架构,这对于掌握语言上下文和长期关联至关重要。它们擅长检测单词和短语之间的关系,即使在句子中相距很远也是如此。例如,当“她”在文本块的早期被确立为名词和/或代词,指的是一个特定的个体,转换器能够“记住”这种关系。
位置编码是指转换器模型中有助于保持单词顺序的方法。这是理解句子内和句子之间上下文的关键组成部分。
来自人类反馈的强化学习 (RLHF) 是指一种训练 LLM 的方法。与传统的强化学习(RL)一样,RLHF训练和使用奖励模型,尽管这个模型直接来自人类反馈。然后,通过使用优化算法将奖励模型用作LLM训练中的奖励函数。该模型在模型训练期间明确地让人类处于循环中,希望人类反馈能够提供优化 LLM 所需的基本反馈,否则可能无法实现。
紧急行为是指大型复杂语言模型所表现出的意想不到的技能,这些技能在更简单的模型中没有显示出来。这些意想不到的技能可以包括编码、音乐创作和小说写作等能力。这些技能没有明确地编程到模型中,而是从其复杂的架构中产生。然而,新兴能力的问题可以超越这些更常见的技能;例如,心理理论是一种涌现行为吗?
幻觉是指 LLM 由于数据和架构的限制而产生事实不正确或不合逻辑的反应。尽管模型具有任何高级功能,但当遇到在模型的训练数据中没有基础的查询时,以及当模型的训练数据包含不正确或非事实信息时,仍然可能发生这些错误。
拟人化是将类似人类的品质归因于人工智能系统的倾向。需要注意的是,尽管它们能够模仿人类的情感或语言,并且我们本能地将模型或视为“他”或“她”(或任何其他代词),而不是“它”,但人工智能系统并不拥有感觉或意识。
偏见是人工智能研究中的一个术语,可以指代许多不同的事物。在我们的上下文中,偏差是指由偏斜的训练数据导致的 AI 输出错误,导致不准确、冒犯性或误导性的预测。当算法将不相关的数据特征优先于有意义的模式,或者完全缺乏有意义的模式时,就会出现偏差。