<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI on liubang's blog</title><link>https://blog.liubang.cc/tags/ai/</link><description>Recent content in AI on liubang's blog</description><generator>Hugo</generator><language>en</language><copyright>Copyright © 2019-2026 LiuBang. All Rights Reserved.</copyright><lastBuildDate>Sun, 12 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.liubang.cc/tags/ai/index.xml" rel="self" type="application/rss+xml"/><item><title>一文讲透 AI 九大核心概念</title><link>https://blog.liubang.cc/posts/llm/2026-04-12-ai-ai-concepts-explained/</link><pubDate>Sun, 12 Apr 2026 00:00:00 +0000</pubDate><guid>https://blog.liubang.cc/posts/llm/2026-04-12-ai-ai-concepts-explained/</guid><description><![CDATA[<blockquote>
<p>AI 圈每天都在冒新词。但你真的能准确说出每一个概念的确切含义吗？本文从最底层的工程视角出发，逐层拆解，帮你建立完整的 AI 技术认知体系。</p>
</blockquote>
<hr>

<h2 id="llm--一切的基础" data-numberify>LLM —— 一切的基础<a class="anchor ms-1" href="#llm--一切的基础"></a></h2>
<p><strong>LLM</strong>，全称 <strong>Large Language Model</strong>，中文译作<strong>大语言模型</strong>，简称<strong>大模型</strong>。</p>
<p>当前几乎所有主流大模型，底层都基于同一套架构——<strong>Transformer</strong>。这个架构最早由 Google 团队在 2017 年提出，对应的论文标题叫做《Attention Is All You Need》（注意力机制就是全部所需）。</p>
<p>虽然 Google 发明了这把火，但真正点燃全世界的是 OpenAI。</p>
<ul>
<li><strong>2022 年底</strong>，ChatGPT（GPT-3.5）横空出世，成为第一个真正达到&quot;可用级别&quot;的大模型；</li>
<li><strong>2023 年 3 月</strong>，GPT-4 发布，把 AI 的能力天花板拉到了新高度。</li>
</ul>
<p>GPT 系列是这轮 AI 浪潮的绝对引路人。时至今日，GPT 系列依然非常强大，如 GPT-4.5 仍是行业标杆之一。但如今 AI 赛道早已不是 OpenAI 一家独大，Claude、Gemini 等后起之秀都在各自擅长的领域与之同台竞技。</p>

<h3 id="大模型是如何工作的" data-numberify>大模型是如何工作的？<a class="anchor ms-1" href="#大模型是如何工作的"></a></h3>
<p>大模型本质上是一个<strong>文字接龙游戏</strong>。</p>
<p>举个例子，你向大模型提问：「马克的视频怎么样」</p>
<ol>
<li>模型接收这句话，经过内部运算，预测下一个概率最高的词：<strong>「特」</strong></li>
<li>模型把「特」追加到输入后面，再预测下一个词：<strong>「别」</strong></li>
<li>如此循环，直到预测出特殊的<strong>结束标记</strong></li>
</ol>
<p>最终输出：「特别棒」</p>
<p>这就是大模型最底层的生成原理——<strong>一个词一个词地输出答案，因为它就是这么运作的</strong>。</p>
<p><picture><img class="img-fluid " alt="LLM 文字接龙流程图" src="https://blog.liubang.cc/images/2026-04-12/llm-next-token.svg?v=3b7bbf8ec99cb76d7d5df5d7dfe0bd84" loading="lazy" />
</picture>

</p>
<hr>

<h2 id="token--大模型的最小单位" data-numberify>Token —— 大模型的"最小单位"<a class="anchor ms-1" href="#token--大模型的最小单位"></a></h2>
<p>大模型本质上是一个庞大的数学系统，接收的是数字，输出的也是数字，<strong>根本不认识人类书写的文字</strong>。</p>
<p>因此，在人类和大模型之间必须有一个中间人来做翻译，这个中间人就叫做 <strong>Tokenizer</strong>。它负责两件事：</p>
<ul>
<li><strong>编码（Encode）</strong>：把文字变成数字</li>
<li><strong>解码（Decode）</strong>：把数字还原成文字</li>
</ul>

<h3 id="token-化的过程" data-numberify>Token 化的过程<a class="anchor ms-1" href="#token-化的过程"></a></h3>
<p>编码分两步：</p>]]></description></item></channel></rss>