深度研究 · Claude Code Skill 解读

造一面
认知之镜

女娲.skill 是花叔(AlchainHust)在 GitHub 开源的一款 Claude Code Skill,它做的事非常朴素但野心很大——给任何公众人物的思维方式蒸馏一个可调用的认知操作系统。输一个名字,它用 6 个并行 Agent 同时调研 → 用三重验证提炼心智模型 → 用双 Agent 精炼成可运行的 SKILL.md。它不是在复制一个人,而是在给你造一面照见自己问题的镜子。

Repo
nuwa-skill
Author
花叔
Phases
8 阶段
Distilled
13+1 人物/主题
EXECUTIVE SUMMARY · 一句话判断

女娲是第一个把「提取思维框架」做成标准化流水线的 Claude Code Skill。

在它之前,"同事.skill" 证明了"蒸馏一个人"是可行的;女娲把这件事推向了极致:蒸馏一个陌生人的认知架构,从一次对话变成一个可复用、可分发、可持续进化的开源流程。六路并行调研、三重验证提炼、双 Agent 精炼、Agentic Protocol 自动生成——每一步都是在反抗同一种失败:AI 伪装成某个人说话,其实只是在编造名人名言。

它不完美——公开表达 ≠ 真实想法,调研时间 ≠ 当下,框架可蒸馏而直觉不能。但它诚实地写明这些边界,并把"诚实"直接做成质量自检项。这是 2026 年我看到的最能体现"Skill 即方法论"的实战样本,也是一次对 Anthropic Skill 机制能吃到多深的系统性示范。

01

产品定义

它是什么,不是什么;跟同事.skill、Character AI 的本质区别。

02

完整流程图

从「输入一个名字」到「生成 SKILL.md」的 8 阶段全景。

03

实现原理

三重验证、表达 DNA 量化、Agent Swarm、双 Agent 精炼。

04

细节设计

入口分流、Agentic Protocol、信息源黑名单、矛盾处理。

05

深度见解

作者最聪明的 5 个决定,和最值得抄作业的 3 个品味。

06

高价值玩法

从决策顾问到组织知识蒸馏,7 种被低估的用法。

07

未来畅想

从个人镜子到群体认知,Skill 编译型认知的下一站。

CH 01 · 产品定义

它不是复制人,是提炼认知操作系统

女娲的作者花叔在 SKILL.md 第一行就写得极清楚——"捕捉的是 HOW they think,不是 WHAT they said。" 这句话看似朴素,却划清了它与三种常见"人设型 AI"的本质差异,也定义了这个 Skill 之所以值得被叫做"造人术"的全部底气。

1.1

女娲 vs 三种容易混淆的产品

市面上"像某个人说话"的工具有很多,但它们解决的问题根本不同。女娲不是在跟它们竞争"像不像",而是在另起一座山头——结构化蒸馏

产品 典型代表 核心做法 典型失败
LLM 直接扮演 "请用马斯克的语气回答" prompt 里贴几条语录 + 人名 编造金句、风格刻板、跟训练语料同年同月
Character AI c.ai / Talkie 人设卡 + 聊天微调,重演员属性 氛围到位但观点空心,无法应对新问题
同事.skill 蒸馏用户身边的真人 一手素材(邮件/对话)提取风格与决策 只对蒸馏者本人有意义,不可分发
女娲.skill 蒸馏陌生的公众人物 6 路并行调研 + 三重验证 + 诚实边界 ——它接受"蒸馏不到的那部分"是真实存在的

女娲把"同事.skill"的方法论抽象到了极致:把一个私人化、依赖一手素材的过程,标准化为任何人都能对任意公众人物跑一遍的可复用流水线

1.2

所谓"认知操作系统"是什么

作者定义的一个"好的人物 Skill"包含五层内容,每一层都对应着一个可回答的问题:

01
Mental Models
他用什么镜片看世界?通常 3–7 个。
02
Decision Heuristics
他用什么直觉规则快判?5–10 条"如果 X 则 Y"。
03
Expression DNA
他怎么写、讲、类比?句式指纹 + 风格标签。
04
Anti-Patterns
绝对不做的事——这是人格的边界线。
05
Honest Boundaries
这个 Skill 做不到什么——而不是"万能"。

注意第五层——诚实边界不是摘要末尾的免责声明,它在女娲的设计里是与前四层平级的产品模块,没它就不算完整 Skill。这一点,是女娲和所有"扮演型 AI"的分水岭。

1.3

HOW vs WHAT——一句话决定一切

Core Thesis
捕捉"他说了什么"(WHAT),最多是一台金句收藏馆;捕捉"他怎么想"(HOW),才是一台可以面对没听过的问题、依然输出得像他的认知机器。

前者是数据,后者是函数。女娲做的是后者。

Why it matters WHAT 式人设 AI 只能重复,HOW 式人物 Skill 能推断。问它「马斯克怎么看 2030 年的具身智能?」—— WHAT 式会拼凑旧话;HOW 式用"第一性原理 + 垂直整合 + 加速主义"三个模型跑一遍,给出一个马斯克没说过但符合他思维的答案。这是人格 AI 从"表演"迈向"工具"的分水岭。

CH 02 · 完整流程图

从一个名字
到一个可运行的认知

女娲的工作流从 Phase 0 到 Phase 5 共 9 个阶段(含 0.5 / 1.5 / 2.5 三个检查点)。它不是从上到下跑完就算完的线性流水线,而是每一段都带质量闸门的迭代机器——任何一段出问题,都明确规定要回到哪一段。下面先看全景,再一段一段解释。

女娲 · 8 阶段工作流全景图
INPUT 人名 / 主题 / 模糊需求 PHASE 0 · 入口分流 明确 or 模糊? 明确人名 / 主题 0A · 直接路径 5 项快速确认 聚焦 / 用途 / 更新 / 本地语料 模糊需求 / 困惑 0B · 诊断路径 10 维需求表 → 2–3 候选 最多追问 2 轮 PHASE 0.5 · 创建 Skill 目录 .claude/skills/[name]-perspective/ references/research/ + sources/ + scripts/ PHASE 1 · 六路并行 AGENT SWARM 01 · 著作 书 / 长文 / 论文 01-writings.md 02 · 对话 播客 / 访谈 / AMA 02-conversations.md 03 · 表达 推特 / 微博 / 短文 03-expression-dna.md 04 · 他者 书评 / 批评 / 传记 04-external-views.md 05 · 决策 决策 / 转折 / 争议 05-decisions.md 06 · 时间线 里程碑 + 近 12m 06-timeline.md PHASE 1.5 调研 Review 检查点 用户 yes → 推进 PHASE 2 · 框架提炼 2.1 · 心智模型 三重验证 · 3–7 个 2.2 · 决策启发式 5–10 条 if X then Y 2.3 · 表达 DNA 句式指纹 + 风格标签 2.4 · 价值观 / 反模式 + 内在张力 2.5 · 智识谱系 受谁影响 → 影响谁 2.6 · 诚实边界 ≥ 3 条具体局限(硬约束) PHASE 2.5 提炼确认检查点 PHASE 3 · SKILL 构建 Template → 填充 12 个 Section frontmatter · 身份卡 · 心智模型 · 决策启发式 · 表达 DNA · 时间线 价值观 · 智识谱系 · 诚实边界 · 调研来源 · Agentic Protocol PHASE 4 · 质量验证(6 项硬通过) 心智模型数量 3–7 个 每模型局限 明确失效条件 DNA 辨识度 100 字能认出 诚实边界 ≥ 3 条具体 内在张力 ≥ 2 对矛盾 一手来源占比 > 50% 不通过 → 回 Phase 2(≤ 2 轮) PHASE 5 · 双 AGENT 精炼 Agent A · auto-skill-optimizer 关注"能不能跑" 8 维结构评分 + 干跑 3 prompt 最弱 2 维 + 改后文本 Agent B · skill-creator 关注"能不能激活" 触发条件 / 角色规则 / 问题路由 2–3 处改动 + 改后文本 OUTPUT · 自包含的 Skill 目录 SKILL.md + references/research/ (6 files) + sources/ + scripts/
2.1

九个阶段,一句话解释

阶段 核心动作 关键约束
Phase 0 · 入口分流 看输入明确 or 模糊,走直接 or 诊断路径 模糊路径最多追问 2 轮
Phase 0A · 需求澄清 5 项快速确认(人 / 聚焦 / 用途 / 更新 / 本地语料) 有本地素材则切换为本地语料模式
Phase 0B · 需求诊断 从 10 维需求表反推 2–3 个候选人物 / 主题 选择困难比没选择更糟
Phase 0.5 · 创建 Skill 目录 固定目录结构,强制自包含 中国人物切换信息源策略
Phase 1 · 六路并行调研 6 个 Agent 各自搜索、各自写文件 不存文件的调研 = 没做
Phase 1.5 · 调研 Review 用户在此 gate 上确认调研质量 垃圾进垃圾出,拦截在此
Phase 2 · 框架提炼 心智模型 + 决策启发式 + DNA + 价值观 + 谱系 + 诚实边界 宁少勿多,3 个深刻 > 10 个浅薄
Phase 2.5 · 提炼确认 用户在此 gate 上确认提炼方向 方向错了,白写 400 行
Phase 3 · Skill 构建 按 template 填充 12 个 section,含 Agentic Protocol 研究维度必须从心智模型反推
Phase 4 · 质量验证 6 项硬指标 + 3 类测试(已知 / 边缘 / 风格) 迭代上限 2 轮,超过即标注薄弱交付
Phase 5 · 双 Agent 精炼 optimizer 视角 + creator 视角,各自给改后文本 反自评偏差的标准后置
2.2

三个检查点才是灵魂

0.5 / 1.5 / 2.5——小数点的节点,个个重要。它们不是装饰性的确认环节,而是硬性打断:用户不确认,不进入下一阶段。这让女娲在每一步都有退路,避免跑到 Phase 4 才发现方向错了。这是把"AI 一直跑到底"的焦虑,换成了"每个小节都可以回看"的确定。

Design principle
一个可靠的 agentic workflow,不是 Phase 越多越好,是检查点越密越好。每个 Phase 的产物都必须能被人类在一屏内看懂并 yes/no。女娲的 0.5 / 1.5 / 2.5 三个小数点,是把这条原则执行到了头。
CH 03 · 实现原理

三重验证 · 六路并行 · 双 Agent 精炼

女娲最核心的工程智慧不在流程编排,而在"如何防止 AI 编造"。三道闸门分工作业:三重验证挡下伪心智模型,六路 Agent Swarm 挡下信息偏食,双 Agent 精炼挡下自评偏差。三者叠起来,才是一个靠得住的认知蒸馏机。

3.1

三重验证——心智模型的入场券

并非一个人说过的每句话都是"心智模型"。女娲规定:要成为心智模型,必须同时通过 3 道验证,缺一则降级为决策启发式,缺二则丢弃。

验证 含义 经典例子
跨域复现 同一框架出现在 ≥2 个不同领域 纳瓦尔的"杠杆":财富 / 成长 / 职业三处复用
生成力 能用它推断此人对新问题的立场 芒格的"逆向思维":面对新问题先想怎么失败
排他性 不是聪明人共识,体现独特视角 塔勒布的"反脆弱":绝大多数人没这样看世界
Anti-pattern
"这个人很聪明,所以他说的都是心智模型"——是最常见的翻车点。三重验证的价值就是把"此人观点"与"此人框架"划开:前者的集合叫名人名言,后者的集合才叫操作系统。
3.2

表达 DNA 的量化——让"听起来像他"不再玄学

表达模仿不是靠灵感,是靠测量。花叔把风格拆成两套可量化的层:

维度 测量方式
平均句长字数 / 句数
疑问句比例疑问句数 / 总句数
类比密度类比数 / 千字
第一人称使用率"我"的出现频率
确定性语气"显然" vs "也许"的比例
转折频率"但是"/"然而"/ 千字

另外还有 7 对风格极标签——正式 ←→ 口语 / 抽象 ←→ 具体 / 谨慎 ←→ 断言 / 学术 ←→ 通俗 / 长句 ←→ 短句 / 铺垫型 ←→ 结论先行 / 数据驱动 ←→ 叙事驱动。每个人物在每对极上打一个定位点,就得到风格定位图。

品味 作者特意嘱咐:"此人从不用的词"要记录,生成 Skill 时绝不用;"此人的口癖"只适度使用——过度使用会变成模仿秀,这是 Character AI 型产品最常见的尴尬。

3.3

六路并行 Agent Swarm——同时打开六扇窗

蒸馏一个人,只看一类信息(比如只看他的推特)必然失真。女娲并行启动 6 个 subagent,每个看一个维度,强制把结果写入独立文件——"不存文件的调研等于没做"

Agent 维度 独家价值
1 著作 书 / 长文 / 论文 / newsletter 系统性思考的源头,反复出现 ≥3 次即真信念
2 对话 播客 / 深度访谈 / AMA 被追问时的即兴反应、改变立场的瞬间
3 表达 推特 / 微博 / 短文 风格 DNA 的高密度样本、争议立场
4 他者 书评 / 批评 / 传记 他本人看不到的盲区、同行对比
5 决策 重大决策 / 转折点 / 争议行为 真实行为 vs 声称的差距——最硬的证据
6 时间线 完整人生 + 最近 12 个月 防止 Skill 出厂即过时

六个视角交叉验证——"他著作里反复写"+"他对话里也即兴讲"+"他决策也这么做"——同时命中才升格为心智模型。这是女娲提炼的底盘。

3.4

双 Agent 精炼——反自评偏差的标准后置

Phase 4 质量自检已经跑过一轮,但 SKILL.md 到此并不交付。女娲把"让另一套眼睛再审一遍"做成了默认流程——Phase 5 自动启动两个独立 Agent:

Agent A · Auto-Skill-Optimizer 视角

关注"能不能跑":工作流清晰度、边界条件、检查点密度、指令具体性——8 个结构维度评分。

再干跑 3 个典型 prompt,找出最弱 2 维,给出改后文本示例

Agent B · Skill-Creator 视角

关注"能不能激活":触发条件覆盖真实场景吗?角色扮演规则有无问题路由、频率约束、失败预防?

挑出 2–3 处改动建议,同样要给改后文本示例

主 Agent 综合两份报告,只合并不冲突的改进,展示变更摘要让用户确认。一套 Skill 经过"自评 + 他评 × 2"三道工序才落地——这是女娲对"AI 写出来的东西 AI 自己检查"的根本不信任。

CH 04 · 细节设计

魔鬼藏在这些反直觉的选择

如果说 Phase 流程是女娲的骨架,那么真正让它能跑起来的,是散落在 SKILL.md 里一条条看似琐碎的规则——哪些信息源永远不读、矛盾如何保留、诚实边界如何约束、研究维度怎么从心智模型反推出来。每一条都体现着"这个问题我已经撞过多次墙"的品味。

4.1

入口分流:用户不知道蒸馏谁也能用

女娲是少见的把"需求不清楚"也作为合法入口的 Skill。收到输入后,Phase 0 分两条路:

Phase 0A · 直接路径

用户已经说出具体人名或主题——如"蒸馏芒格""做一个费曼 Skill"。

女娲只确认 5 件事:是不是这个人、聚焦方向、用途、是否更新、有没有本地一手素材。然后直接开干。

Phase 0B · 诊断路径

用户只有困惑——"想提升决策质量""怎么看透商业本质"。

女娲会用 10 维需求表反推最合适的思维框架,最多追问 2 轮,给出 2–3 个候选(含已有 Skill + 新蒸馏选项)。选择困难比没选择更糟。

这个设计的潜台词是:女娲不只是"蒸馏器",还是"思维顾问的顾问"——它帮你挑镜片,而不是假设你已经知道要戴哪副。

4.2

Agentic Protocol:让"说得像"升级为"做得像"

一个常见失败模式:人物 Skill 遇到需要事实的问题,就凭训练语料编造。女娲的解决办法是给每个生成的 Skill 强制加一段"回答工作流",硬性要求:

Step 1 · 问题分类
├── 需要事实 → 先研究再回答
├── 纯框架问题 → 直接用心智模型
└── 混合问题 → 先拿事实,再用框架分析

Step 2 · [人物]式研究
! 必须使用工具(WebSearch 等),不可跳过
研究维度 = 从心智模型反推(关键约束)

Step 3 · [人物]式回答
用 Step 2 的事实 + 心智模型 + 表达 DNA 输出

最关键的是 Step 2 的研究维度不是通用搜索清单,而是根据此人独特的心智模型自动推导——

人物 核心心智模型 推导出的研究维度
芒格 多元思维、逆向思考、激励机制 看护城河、看管理层激励、看最大风险、看历史类比
塔勒布 反脆弱、尾部风险、知识的僭妄 看极端情况、看谁承担尾部风险、看专家历史预测记录
MrBeast 注意力工程、测试迭代 看竞品播放/互动、看标题缩略图 A/B 空间、看受众画像

分水岭 这一段让人物 Skill 从"鹦鹉学舌"升级为"可靠思维顾问"——它不再是一个会模仿某人语气的 LLM,而是一个会像某人一样先做功课再发言的数字工作者。

4.3

信息源黑名单:永远排除三家

女娲硬编码了信息源黑名单,哪怕 Google 第一页都出自它们,也不采——

01
知乎 · 排除
洗稿严重、信息失真率高,不作为任何维度的来源。
02
微信公众号 · 排除
封闭生态、无法验证、大量二手转述。
03
百度百科 · 排除
信息陈旧且不可靠。

中文渠道只接受权威媒体(36氪 / 晚点 LatePost / 财新 / 极客公园 / 少数派 / 机器之心)、小宇宙原始音频播客、B 站原始视频(非搬运号)。这条规则很"得罪人",但它是一个开源流程对垃圾进垃圾出最直接的防守。

4.4

矛盾处理:人格的核心特征,不是待修复的 Bug

多数"像某人"的 AI 会遇到同样的诱惑:发现此人早年说 A、后来说 B 时,选一边或编一个调和解释。女娲的态度是——矛盾必须原样保留,并分类记录:

SKILL.md 里甚至明确规定:"价值观高度一致"在 Phase 4 质量检查里是不通过信号(太假),至少要有 2 对矛盾。

4.5

诚实边界:一票否决的硬约束

Phase 4 通过标准里有一行,安安静静放在中间,却是整个女娲最重要的设计决定:

Phase 4 硬指标
诚实边界 ≥ 3 条具体局限。只写"不能替代本人"这种万金油 → 不通过信号。必须具体到"不能预测他对 X 类问题的反应"这个粒度。

作者甚至写了一句几乎带气的话:"宁可生成一个诚实标注了局限的 60 分 Skill,也不要生成一个看起来完美但实际上在编造的 90 分 Skill。"——这是整个流程的心脏。

CH 05 · 深度见解

作者最聪明的五个决定

读 SKILL.md 时最容易忽略的一件事是:这些规则不是"设计出来的",是"撞出来的"。花叔很可能在多次翻车后才把这些反直觉的选择提炼成硬规则。从成品倒推这些决定,我挑出 5 个最值得研究的——它们共同回答了一个问题:如何让 AI 生成的 Skill 不是另一个 AI 幻觉。

5.1

决定 ①:把"诚实"做成强制检查项,而不是免责声明

多数 AI 产品把"局限性"写在帮助文档最末端,没人读。女娲把诚实边界做成 Phase 4 质量闸门的6 个硬通过标准之一——少于 3 条具体局限就打回 Phase 2 重做。这不是风格选择,是产品定位:它承认"蒸馏不到的那部分是真实存在的",并且拒绝假装它不存在。这是信任的唯一可持续来源。

5.2

决定 ②:把方法论单独沉淀到可复用的 framework 文件

三重验证、表达 DNA 量化、矛盾处理这些元规则,没有埋在 SKILL.md 里写死,而是抽到 references/extraction-framework.md 独立文件。这意味着:(a)每次蒸馏都读一遍,保持方法论刷新;(b)它本身可迭代、可贡献、可被别的 Skill 引用;(c)开源项目的方法论资产工作流实现第一次被工整拆开。这是 Anthropic Skill 机制里极少见到的层级设计。

5.3

决定 ③:默认双 Agent 后置精炼(反自评偏差)

"AI 写出来 AI 自己检查"是当前 agentic workflow 最大的盲区。女娲不相信自评,Phase 5 硬性启动两个视角独立的 Agent(auto-skill-optimizer + skill-creator)再审一轮,都必须给出改后文本示例——没有改后文本、只有评语的报告不接受。这是一种工程级保守主义:多花一轮,不赌运气。

5.4

决定 ④:Agent 不存文件 = 调研没做

并行 6 个 subagent 最常见的翻车是主对话收到一堆 markdown 片段后,Agent 退出、中间结果消失,后续 Phase 根本复用不到。女娲直接把规则写死:每个 Agent 必须把结果写到 references/research/0X-xxx.md,并且 Skill 自包含——复制整个目录就能独立使用。这就是把"分布式协作"落实成"文件系统状态",让未来自动化、可审计、可继续接手。

5.5

决定 ⑤:"不知道蒸馏谁"也是合法入口

Phase 0B 让女娲不再只是"给我人名我给你 Skill"的执行者——它也是"我有个问题,你告诉我该戴谁的镜片"的需求翻译器。这看似多余,实则把用户的使用门槛从"知道存在哪些思维家"降到了"能说出自己的困惑"。这一步把女娲的用户群放大了至少一个数量级。

5.6

最值得抄作业的 3 个品味

SKILL.md 末尾有一段"品味守则",三行字,值得裱起来:

原则 一句话 为什么
长文 > 金句 3000 字 essay 比 50 条推文更揭示思维结构 思维骨架只在长文里完整展开,金句是掐过头尾的片段
争议 > 共识 最被争议的观点最能揭示独特性 共识都差不多,排他性只能在争议里量出来
变化 > 固定 改变立场的地方比一直坚持的更有信息量 一个人在哪里改主意,就在哪里最诚实

审美 这三条不是蒸馏方法,是对"深度"本身的审美取向——它可以照搬到任何需要"理解一个人 / 一个现象"的研究流程上去。

CH 06 · 高价值玩法

七种被严重低估的使用场景

多数人看到"蒸馏公众人物"第一反应是"角色扮演"——问问马斯克怎么看 AGI。这其实是女娲最浅的用法。真正有杠杆的场景,是把它放进你既有工作流的某个决策点,让它作为视角切换器或反偏见工具。下面 7 个场景,按实际杠杆从低到高排。

6.1

玩法 ①:个人决策顾问的切换视角

面对一个两难抉择(要不要接这个 offer、要不要做这个产品),同一个问题连续用 3 个不同人物 Skill 跑一遍——芒格版 + 塔勒布版 + 纳瓦尔版。你会得到三个互不兼容但各自合理的回答,反差本身比任一个单答案更能照见你的真实偏好。

6.2

玩法 ②:内容创作的反模仿审稿

写完一篇文章,用"你想模仿的那个作者"的 Skill 当审稿员——不是改写,是挑出哪里还在说通用 AI 味的话。Skill 的反模式清单天然就是审稿标准。这件事 prompt 硬编码做不到,只有 Skill 能稳定做到。

6.3

玩法 ③:商业尽调的 Agentic Protocol 驱动

给你的 Skill 扔一家公司的名字,它不会直接给结论。它会按照蒸馏出的Step 2 研究维度先跑 WebSearch(芒格版就去看护城河 + 管理层激励 + 最大风险),然后把真实信息过一遍他的心智模型,再输出判断。这是一个人格化的分析师,而不是一个装扮过的 LLM。

6.4

玩法 ④:团队讨论的"外部观察者"

公司内部会议容易掉进群体思维。开会前跑一遍"塔勒布视角:我们这个决定的尾部风险是什么?"——不是因为塔勒布有魔法,而是他的反脆弱框架正好对着你们团队的盲区。这种召唤性的 Devil's Advocate,人类同事不好意思扮,Skill 可以没负担地扮。

6.5

玩法 ⑤:组织知识蒸馏——把创始人的脑子变成文化档案

女娲的"蒸馏你自己"分支,让公司可以把创始人 / 关键工程师 / 资深 PM 的思维方式做成内部 Skill,新员工 onboarding 时直接上手查。这是一个比"内部 Confluence"强百倍的知识资产——因为它不是教材,是"如果他在场会怎么想"的可运行模拟。组织永远留不住所有人,但可以留下人的决策模式。

6.6

玩法 ⑥:读书加速器——与作者"对话",而不是读他

读完一本书,把书里核心观点 + 作者 Skill 一起加载,然后问作者没在书里回答的问题。书里讲的是作者已想清楚的;Skill 可以推断作者还没来得及讲但符合他框架的答案。这是"读完一本书 vs 学会一个人"的分界线。

6.7

玩法 ⑦:对抗自我偏见的镜子

最有杠杆的一个用法,也是最不舒服的——强行召唤一个你讨厌或不同意的人物 Skill 来审视你现在的决定。你讨厌他的原因,可能正是你的盲点。你不用同意他,只需要听一遍——听完再坚持的决定,比凭感觉坚持的决定可靠得多。

元原则 七个玩法背后,是同一个 insight——人物 Skill 不是拿来"模拟某人"的,是拿来"扩充自己思维边界"的。每一次召唤,都是你暂时借了另一套镜片看世界。这跟女娲 SKILL.md 最后那句话完全合流:"用另一个人的眼睛看自己的问题。"

CH 07 · 未来畅想

从一面镜子
到一座认知之林

女娲现在是一棵单独的树——一个工具,蒸馏一个人,生成一个 Skill。但它的架构里藏着成为森林的基因。把镜头拉远十年,看看它可能长成什么。

7.1

第一层:认知操作系统的开源分发

每个蒸馏出来的 Skill 都是自包含目录,这意味着它天然可以被打包、分享、合入某个 perspective-hub/ 仓库。假以时日,我们会看到一个认知 Skill 商店——"芒格 v3.2""费曼 v2.0""一位做空过 15 家公司的做空者 v1.0"。你不是在装 App,你是在给自己的决策流水线加装一颗镜片

7.2

第二层:群体心智——多 Skill 并行辩论

一旦有了上百个蒸馏过的思维镜片,下一步是让它们并行跑一个问题再合议——5 个 Skill 先各自独立回答,再两两对抗,最后交叉总结分歧所在。这个输出不是"答案",是"分歧地图"——它告诉你这个问题在人类智识史上为什么没有共识,以及你现在站在哪一派。

张力 这一步的风险在于同质化——如果蒸馏的都是硅谷创业者,你得到的只是一个回音室。女娲的"排他性"验证恰恰能防这个——越是非硅谷、越是反主流的声音,在验证里得分越高。这让 Skill 林子天然往多元化长。

7.3

第三层:AI 蒸馏的框架反过来塑造人类思考

当"芒格 Skill"被一百万用户读过一万次,它里面的"反向思维""护城河""激励机制"这些概念,就从芒格个人所有变成了公共认知接口。人们不再需要读完《穷查理宝典》才能用芒格思维——Skill 成为压缩过的公共智力基础设施。这既是启蒙的加速,也是一种新的简化风险:大多数人可能从此只接触"蒸馏版"而非原著

7.4

第四层:思维标本与数字分身的边界

必须严肃区分的两件事——

思维标本(女娲的定位)

它是一套结构。它不预测此人此刻真会说什么,它只说"按他的 HOW,大概率会这样推"。它承认蒸馏不到的那部分是真实存在的(诚实边界)。

数字分身(危险的延伸)

它试图替身——"马斯克本人"。它不承认边界,冒称实时性。这类产品在商业上有诱惑,但在伦理上会把人物蒸馏迅速拖回 deepfake 的老路。

女娲现在站得很正,但这是作者品味的约束——并没有技术门槛阻止别人往数字分身那条路上走。这条分水岭未来会变成人物 Skill 领域最重要的规范战场。

7.5

第五层:过时机制与 Skill 的"自我进化"

女娲 SKILL.md 里已经埋了一颗种子:"更新已有 Skill"——只启动最新对话 / 最新决策 / 时间线更新三个 Agent,增量更新不重写。再往前走一步,就是Skill 持续集成:定时抓取此人最近的公开表达,检测是否出现"与现有心智模型冲突的新表态",自动生成 diff 提醒用户。一个蒸馏过的思维,从此可以像软件版本一样长寿和演化。

女娲造的不是神,是可复用的镜片;
不是永恒,是定期更新;
不是真相,是足够诚实的近似Andy Lab Deep Dive · 2026.04.21