从源码到 AST：Flux Parser 的实现

Sat, 23 May 2026 00:00:00 +0000

语言实现的第一层是把源码变成结构化数据。对 cpp/pl/flux 来说，这一层由 syntax/scanner.rl、生成的 scanner、syntax/parser.cpp 和 syntax/ast.h 组成。它的目标不是只让正确程序通过，而是尽量为后面的 runtime、CLI、LSP 和测试提供稳定、可定位的 AST。

Scanner：把字符流切成 token

Flux 的词法并不只是普通标识符和数字。当前 scanner 覆盖了关键字、字符串、字符串插值、duration、RFC3339 风格 datetime、正则字面量、注释、pipe-forward、比较运算符、属性注解和类型语法相关 token。

正则字面量是一个典型细节。/cpu.*/ 和除法操作符都以 / 开头，scanner 不能只靠单个字符判断。当前实现区分表达式上下文，在可能期待表达式的位置接受 regex literal，在普通二元运算位置按除法处理。这类细节决定了 parser 后面看到的 token 是否有语义。

scanner 还维护 line/column 信息。这个成本看起来不大，但收益很高：parser error、AST dump、LSP diagnostics、goto definition、semantic tokens 都需要准确的 source location。

Token 设计里几个容易低估的点

第一个点是 import、option、builtin、testcase 这些关键字不是普通标识符。它们在文件级语法和语句级语法里有特殊入口，如果 scanner 不提前分类，parser 就必须在更多地方做字符串判断。

第二个点是 duration 和 unsigned integer。1h、5m、42u 看起来像数字加后缀，但语义完全不同。duration 后续要参与 time range/window 计算；unsigned integer 则进入普通 numeric value。scanner 和 parser 必须在 AST 层把它们分开。

第三个点是字符串插值。"host ${user}" 不是普通字符串拼接，parser 需要保留插值表达式，这样 runtime 才能在当前 environment 下求值。

Parser - 标签 - 星河拾贝录

从源码到 AST：Flux Parser 的实现

Scanner：把字符流切成 token

Token 设计里几个容易低估的点