一文讲透 AI 九大核心概念
AI 圈每天都在冒新词。但你真的能准确说出每一个概念的确切含义吗?本文从最底层的工程视角出发,逐层拆解,帮你建立完整的 AI 技术认知体系。
LLM —— 一切的基础
LLM,全称 Large Language Model,中文译作大语言模型,简称大模型。
当前几乎所有主流大模型,底层都基于同一套架构——Transformer。这个架构最早由 Google 团队在 2017 年提出,对应的论文标题叫做《Attention Is All You Need》(注意力机制就是全部所需)。
虽然 Google 发明了这把火,但真正点燃全世界的是 OpenAI。
- 2022 年底,ChatGPT(GPT-3.5)横空出世,成为第一个真正达到"可用级别"的大模型;
- 2023 年 3 月,GPT-4 发布,把 AI 的能力天花板拉到了新高度。
GPT 系列是这轮 AI 浪潮的绝对引路人。时至今日,GPT 系列依然非常强大,如 GPT-4.5 仍是行业标杆之一。但如今 AI 赛道早已不是 OpenAI 一家独大,Claude、Gemini 等后起之秀都在各自擅长的领域与之同台竞技。
大模型是如何工作的?
大模型本质上是一个文字接龙游戏。
举个例子,你向大模型提问:「今天天气怎么样」
- 模型接收这句话,经过内部运算,预测下一个概率最高的词:「今」
- 模型把「今」追加到输入后面,再预测下一个词:「天」
- 如此循环,直到预测出特殊的结束标记
最终输出:「今天天气晴朗」
这就是大模型最底层的生成原理——一个词一个词地输出答案,因为它就是这么运作的。
Token —— 大模型的"最小单位"
大模型本质上是一个庞大的数学系统,接收的是数字,输出的也是数字,根本不认识人类书写的文字。
因此,在人类和大模型之间必须有一个中间人来做翻译,这个中间人就叫做 Tokenizer。它负责两件事:
- 编码(Encode):把文字变成数字
- 解码(Decode):把数字还原成文字
Token 化的过程
编码分两步:
