女娲 · Skill 造人术深度解读

CH 01 · 产品定义

它不是复制人，是提炼认知操作系统

女娲的作者花叔在 SKILL.md 第一行就写得极清楚——"捕捉的是 HOW they think，不是 WHAT they said。" 这句话看似朴素，却划清了它与三种常见"人设型 AI"的本质差异，也定义了这个 Skill 之所以值得被叫做"造人术"的全部底气。

1.1

女娲 vs 三种容易混淆的产品

市面上"像某个人说话"的工具有很多，但它们解决的问题根本不同。女娲不是在跟它们竞争"像不像"，而是在另起一座山头——结构化蒸馏。

产品	典型代表	核心做法	典型失败
LLM 直接扮演	"请用马斯克的语气回答"	prompt 里贴几条语录 + 人名	编造金句、风格刻板、跟训练语料同年同月
Character AI	c.ai / Talkie	人设卡 + 聊天微调，重演员属性	氛围到位但观点空心，无法应对新问题
同事.skill	蒸馏用户身边的真人	一手素材（邮件/对话）提取风格与决策	只对蒸馏者本人有意义，不可分发
女娲.skill	蒸馏陌生的公众人物	6 路并行调研 + 三重验证 + 诚实边界	——它接受"蒸馏不到的那部分"是真实存在的

女娲把"同事.skill"的方法论抽象到了极致：把一个私人化、依赖一手素材的过程，标准化为任何人都能对任意公众人物跑一遍的可复用流水线。

1.2

所谓"认知操作系统"是什么

作者定义的一个"好的人物 Skill"包含五层内容，每一层都对应着一个可回答的问题：

01

Mental Models

他用什么镜片看世界？通常 3–7 个。

02

Decision Heuristics

他用什么直觉规则快判？5–10 条"如果 X 则 Y"。

03

Expression DNA

他怎么写、讲、类比？句式指纹 + 风格标签。

04

Anti-Patterns

他绝对不做的事——这是人格的边界线。

05

Honest Boundaries

这个 Skill 做不到什么——而不是"万能"。

注意第五层——诚实边界不是摘要末尾的免责声明，它在女娲的设计里是与前四层平级的产品模块，没它就不算完整 Skill。这一点，是女娲和所有"扮演型 AI"的分水岭。

1.3

HOW vs WHAT——一句话决定一切

Core Thesis

捕捉"他说了什么"（WHAT），最多是一台金句收藏馆；捕捉"他怎么想"（HOW），才是一台可以面对没听过的问题、依然输出得像他的认知机器。

前者是数据，后者是函数。女娲做的是后者。

Why it matters WHAT 式人设 AI 只能重复，HOW 式人物 Skill 能推断。问它「马斯克怎么看 2030 年的具身智能？」—— WHAT 式会拼凑旧话；HOW 式用"第一性原理 + 垂直整合 + 加速主义"三个模型跑一遍，给出一个马斯克没说过但符合他思维的答案。这是人格 AI 从"表演"迈向"工具"的分水岭。

CH 02 · 完整流程图

从一个名字
到一个可运行的认知

女娲的工作流从 Phase 0 到 Phase 5 共 9 个阶段（含 0.5 / 1.5 / 2.5 三个检查点）。它不是从上到下跑完就算完的线性流水线，而是每一段都带质量闸门的迭代机器——任何一段出问题，都明确规定要回到哪一段。下面先看全景，再一段一段解释。

女娲 · 8 阶段工作流全景图

2.1

九个阶段，一句话解释

阶段	核心动作	关键约束
Phase 0 · 入口分流	看输入明确 or 模糊，走直接 or 诊断路径	模糊路径最多追问 2 轮
Phase 0A · 需求澄清	5 项快速确认（人 / 聚焦 / 用途 / 更新 / 本地语料）	有本地素材则切换为本地语料模式
Phase 0B · 需求诊断	从 10 维需求表反推 2–3 个候选人物 / 主题	选择困难比没选择更糟
Phase 0.5 · 创建 Skill 目录	固定目录结构，强制自包含	中国人物切换信息源策略
Phase 1 · 六路并行调研	6 个 Agent 各自搜索、各自写文件	不存文件的调研 = 没做
Phase 1.5 · 调研 Review	用户在此 gate 上确认调研质量	垃圾进垃圾出，拦截在此
Phase 2 · 框架提炼	心智模型 + 决策启发式 + DNA + 价值观 + 谱系 + 诚实边界	宁少勿多，3 个深刻 > 10 个浅薄
Phase 2.5 · 提炼确认	用户在此 gate 上确认提炼方向	方向错了，白写 400 行
Phase 3 · Skill 构建	按 template 填充 12 个 section，含 Agentic Protocol	研究维度必须从心智模型反推
Phase 4 · 质量验证	6 项硬指标 + 3 类测试（已知 / 边缘 / 风格）	迭代上限 2 轮，超过即标注薄弱交付
Phase 5 · 双 Agent 精炼	optimizer 视角 + creator 视角，各自给改后文本	反自评偏差的标准后置

2.2

三个检查点才是灵魂

0.5 / 1.5 / 2.5——小数点的节点，个个重要。它们不是装饰性的确认环节，而是硬性打断：用户不确认，不进入下一阶段。这让女娲在每一步都有退路，避免跑到 Phase 4 才发现方向错了。这是把"AI 一直跑到底"的焦虑，换成了"每个小节都可以回看"的确定。

Design principle

一个可靠的 agentic workflow，不是 Phase 越多越好，是检查点越密越好。每个 Phase 的产物都必须能被人类在一屏内看懂并 yes/no。女娲的 0.5 / 1.5 / 2.5 三个小数点，是把这条原则执行到了头。

CH 03 · 实现原理

三重验证 · 六路并行 · 双 Agent 精炼

女娲最核心的工程智慧不在流程编排，而在"如何防止 AI 编造"。三道闸门分工作业：三重验证挡下伪心智模型，六路 Agent Swarm 挡下信息偏食，双 Agent 精炼挡下自评偏差。三者叠起来，才是一个靠得住的认知蒸馏机。

3.1

三重验证——心智模型的入场券

并非一个人说过的每句话都是"心智模型"。女娲规定：要成为心智模型，必须同时通过 3 道验证，缺一则降级为决策启发式，缺二则丢弃。

验证	含义	经典例子
跨域复现	同一框架出现在 ≥2 个不同领域	纳瓦尔的"杠杆"：财富 / 成长 / 职业三处复用
生成力	能用它推断此人对新问题的立场	芒格的"逆向思维"：面对新问题先想怎么失败
排他性	不是聪明人共识，体现独特视角	塔勒布的"反脆弱"：绝大多数人没这样看世界

Anti-pattern

"这个人很聪明，所以他说的都是心智模型"——是最常见的翻车点。三重验证的价值就是把"此人观点"与"此人框架"划开：前者的集合叫名人名言，后者的集合才叫操作系统。

3.2

表达 DNA 的量化——让"听起来像他"不再玄学

表达模仿不是靠灵感，是靠测量。花叔把风格拆成两套可量化的层：

维度	测量方式
平均句长	字数 / 句数
疑问句比例	疑问句数 / 总句数
类比密度	类比数 / 千字
第一人称使用率	"我"的出现频率
确定性语气	"显然" vs "也许"的比例
转折频率	"但是"/"然而"/ 千字

另外还有 7 对风格极标签——正式 ←→ 口语 / 抽象 ←→ 具体 / 谨慎 ←→ 断言 / 学术 ←→ 通俗 / 长句 ←→ 短句 / 铺垫型 ←→ 结论先行 / 数据驱动 ←→ 叙事驱动。每个人物在每对极上打一个定位点，就得到风格定位图。

品味作者特意嘱咐："此人从不用的词"要记录，生成 Skill 时绝不用；"此人的口癖"只适度使用——过度使用会变成模仿秀，这是 Character AI 型产品最常见的尴尬。

3.3

六路并行 Agent Swarm——同时打开六扇窗

蒸馏一个人，只看一类信息（比如只看他的推特）必然失真。女娲并行启动 6 个 subagent，每个看一个维度，强制把结果写入独立文件——"不存文件的调研等于没做"。

Agent	维度	独家价值
1 著作	书 / 长文 / 论文 / newsletter	系统性思考的源头，反复出现 ≥3 次即真信念
2 对话	播客 / 深度访谈 / AMA	被追问时的即兴反应、改变立场的瞬间
3 表达	推特 / 微博 / 短文	风格 DNA 的高密度样本、争议立场
4 他者	书评 / 批评 / 传记	他本人看不到的盲区、同行对比
5 决策	重大决策 / 转折点 / 争议行为	真实行为 vs 声称的差距——最硬的证据
6 时间线	完整人生 + 最近 12 个月	防止 Skill 出厂即过时

六个视角交叉验证——"他著作里反复写"+"他对话里也即兴讲"+"他决策也这么做"——同时命中才升格为心智模型。这是女娲提炼的底盘。

3.4

双 Agent 精炼——反自评偏差的标准后置

Phase 4 质量自检已经跑过一轮，但 SKILL.md 到此并不交付。女娲把"让另一套眼睛再审一遍"做成了默认流程——Phase 5 自动启动两个独立 Agent：

Agent A · Auto-Skill-Optimizer 视角

关注"能不能跑"：工作流清晰度、边界条件、检查点密度、指令具体性——8 个结构维度评分。

再干跑 3 个典型 prompt，找出最弱 2 维，给出改后文本示例。

Agent B · Skill-Creator 视角

关注"能不能激活"：触发条件覆盖真实场景吗？角色扮演规则有无问题路由、频率约束、失败预防？

挑出 2–3 处改动建议，同样要给改后文本示例。

主 Agent 综合两份报告，只合并不冲突的改进，展示变更摘要让用户确认。一套 Skill 经过"自评 + 他评 × 2"三道工序才落地——这是女娲对"AI 写出来的东西 AI 自己检查"的根本不信任。

CH 04 · 细节设计

魔鬼藏在这些反直觉的选择里

如果说 Phase 流程是女娲的骨架，那么真正让它能跑起来的，是散落在 SKILL.md 里一条条看似琐碎的规则——哪些信息源永远不读、矛盾如何保留、诚实边界如何约束、研究维度怎么从心智模型反推出来。每一条都体现着"这个问题我已经撞过多次墙"的品味。

4.1

入口分流：用户不知道蒸馏谁也能用

女娲是少见的把"需求不清楚"也作为合法入口的 Skill。收到输入后，Phase 0 分两条路：

Phase 0A · 直接路径

用户已经说出具体人名或主题——如"蒸馏芒格""做一个费曼 Skill"。

女娲只确认 5 件事：是不是这个人、聚焦方向、用途、是否更新、有没有本地一手素材。然后直接开干。

Phase 0B · 诊断路径

用户只有困惑——"想提升决策质量""怎么看透商业本质"。

女娲会用 10 维需求表反推最合适的思维框架，最多追问 2 轮，给出 2–3 个候选（含已有 Skill + 新蒸馏选项）。选择困难比没选择更糟。

这个设计的潜台词是：女娲不只是"蒸馏器"，还是"思维顾问的顾问"——它帮你挑镜片，而不是假设你已经知道要戴哪副。

4.2

Agentic Protocol：让"说得像"升级为"做得像"

一个常见失败模式：人物 Skill 遇到需要事实的问题，就凭训练语料编造。女娲的解决办法是给每个生成的 Skill 强制加一段"回答工作流"，硬性要求：

Step 1 · 问题分类
├── 需要事实 → 先研究再回答
├── 纯框架问题 → 直接用心智模型
└── 混合问题 → 先拿事实，再用框架分析

Step 2 · [人物]式研究
! 必须使用工具（WebSearch 等），不可跳过
研究维度 = 从心智模型反推（关键约束）

Step 3 · [人物]式回答
用 Step 2 的事实 + 心智模型 + 表达 DNA 输出

最关键的是 Step 2 的研究维度不是通用搜索清单，而是根据此人独特的心智模型自动推导——

人物	核心心智模型	推导出的研究维度
芒格	多元思维、逆向思考、激励机制	看护城河、看管理层激励、看最大风险、看历史类比
塔勒布	反脆弱、尾部风险、知识的僭妄	看极端情况、看谁承担尾部风险、看专家历史预测记录
MrBeast	注意力工程、测试迭代	看竞品播放/互动、看标题缩略图 A/B 空间、看受众画像

分水岭这一段让人物 Skill 从"鹦鹉学舌"升级为"可靠思维顾问"——它不再是一个会模仿某人语气的 LLM，而是一个会像某人一样先做功课再发言的数字工作者。

4.3

信息源黑名单：永远排除三家

女娲硬编码了信息源黑名单，哪怕 Google 第一页都出自它们，也不采——

01

知乎 · 排除

洗稿严重、信息失真率高，不作为任何维度的来源。

02

微信公众号 · 排除

封闭生态、无法验证、大量二手转述。

03

百度百科 · 排除

信息陈旧且不可靠。

中文渠道只接受权威媒体（36氪 / 晚点 LatePost / 财新 / 极客公园 / 少数派 / 机器之心）、小宇宙原始音频播客、B 站原始视频（非搬运号）。这条规则很"得罪人"，但它是一个开源流程对垃圾进垃圾出最直接的防守。

4.4

矛盾处理：人格的核心特征，不是待修复的 Bug

多数"像某人"的 AI 会遇到同样的诱惑：发现此人早年说 A、后来说 B 时，选一边或编一个调和解释。女娲的态度是——矛盾必须原样保留，并分类记录：

时间性矛盾（观点演化）——早期 A → 近期 B。记录演化轨迹，近期观点为主，但提及演化。
领域性矛盾（不同场景不同规则）——工作中主张 X，生活中主张 Y。分领域记录，不强求统一——这恰恰是深度的来源。
本质性张力（价值观内在冲突）——既追求自由又重视纪律。明确记录为"核心张力"，这通常是此人最有意思的部分。

SKILL.md 里甚至明确规定："价值观高度一致"在 Phase 4 质量检查里是不通过信号（太假），至少要有 2 对矛盾。

4.5

诚实边界：一票否决的硬约束

Phase 4 通过标准里有一行，安安静静放在中间，却是整个女娲最重要的设计决定：

Phase 4 硬指标

诚实边界 ≥ 3 条具体局限。只写"不能替代本人"这种万金油 → 不通过信号。必须具体到"不能预测他对 X 类问题的反应"这个粒度。

作者甚至写了一句几乎带气的话："宁可生成一个诚实标注了局限的 60 分 Skill，也不要生成一个看起来完美但实际上在编造的 90 分 Skill。"——这是整个流程的心脏。

CH 05 · 深度见解

作者最聪明的五个决定

读 SKILL.md 时最容易忽略的一件事是：这些规则不是"设计出来的"，是"撞出来的"。花叔很可能在多次翻车后才把这些反直觉的选择提炼成硬规则。从成品倒推这些决定，我挑出 5 个最值得研究的——它们共同回答了一个问题：如何让 AI 生成的 Skill 不是另一个 AI 幻觉。

5.1

决定 ①：把"诚实"做成强制检查项，而不是免责声明

多数 AI 产品把"局限性"写在帮助文档最末端，没人读。女娲把诚实边界做成 Phase 4 质量闸门的6 个硬通过标准之一——少于 3 条具体局限就打回 Phase 2 重做。这不是风格选择，是产品定位：它承认"蒸馏不到的那部分是真实存在的"，并且拒绝假装它不存在。这是信任的唯一可持续来源。

5.2

决定 ②：把方法论单独沉淀到可复用的 framework 文件

三重验证、表达 DNA 量化、矛盾处理这些元规则，没有埋在 SKILL.md 里写死，而是抽到 references/extraction-framework.md 独立文件。这意味着：（a）每次蒸馏都读一遍，保持方法论刷新；（b）它本身可迭代、可贡献、可被别的 Skill 引用；（c）开源项目的方法论资产与工作流实现第一次被工整拆开。这是 Anthropic Skill 机制里极少见到的层级设计。

5.3

决定 ③：默认双 Agent 后置精炼（反自评偏差）

"AI 写出来 AI 自己检查"是当前 agentic workflow 最大的盲区。女娲不相信自评，Phase 5 硬性启动两个视角独立的 Agent（auto-skill-optimizer + skill-creator）再审一轮，都必须给出改后文本示例——没有改后文本、只有评语的报告不接受。这是一种工程级保守主义：多花一轮，不赌运气。

5.4

决定 ④：Agent 不存文件 = 调研没做

并行 6 个 subagent 最常见的翻车是主对话收到一堆 markdown 片段后，Agent 退出、中间结果消失，后续 Phase 根本复用不到。女娲直接把规则写死：每个 Agent 必须把结果写到 references/research/0X-xxx.md，并且 Skill 自包含——复制整个目录就能独立使用。这就是把"分布式协作"落实成"文件系统状态"，让未来自动化、可审计、可继续接手。

5.5

决定 ⑤："不知道蒸馏谁"也是合法入口

Phase 0B 让女娲不再只是"给我人名我给你 Skill"的执行者——它也是"我有个问题，你告诉我该戴谁的镜片"的需求翻译器。这看似多余，实则把用户的使用门槛从"知道存在哪些思维家"降到了"能说出自己的困惑"。这一步把女娲的用户群放大了至少一个数量级。

5.6

最值得抄作业的 3 个品味

SKILL.md 末尾有一段"品味守则"，三行字，值得裱起来：

原则	一句话	为什么
长文 > 金句	3000 字 essay 比 50 条推文更揭示思维结构	思维骨架只在长文里完整展开，金句是掐过头尾的片段
争议 > 共识	最被争议的观点最能揭示独特性	共识都差不多，排他性只能在争议里量出来
变化 > 固定	改变立场的地方比一直坚持的更有信息量	一个人在哪里改主意，就在哪里最诚实

审美这三条不是蒸馏方法，是对"深度"本身的审美取向——它可以照搬到任何需要"理解一个人 / 一个现象"的研究流程上去。

CH 06 · 高价值玩法

七种被严重低估的使用场景

多数人看到"蒸馏公众人物"第一反应是"角色扮演"——问问马斯克怎么看 AGI。这其实是女娲最浅的用法。真正有杠杆的场景，是把它放进你既有工作流的某个决策点，让它作为视角切换器或反偏见工具。下面 7 个场景，按实际杠杆从低到高排。

6.1

玩法 ①：个人决策顾问的切换视角

面对一个两难抉择（要不要接这个 offer、要不要做这个产品），同一个问题连续用 3 个不同人物 Skill 跑一遍——芒格版 + 塔勒布版 + 纳瓦尔版。你会得到三个互不兼容但各自合理的回答，反差本身比任一个单答案更能照见你的真实偏好。

6.2

玩法 ②：内容创作的反模仿审稿

写完一篇文章，用"你想模仿的那个作者"的 Skill 当审稿员——不是改写，是挑出哪里还在说通用 AI 味的话。Skill 的反模式清单天然就是审稿标准。这件事 prompt 硬编码做不到，只有 Skill 能稳定做到。

6.3

玩法 ③：商业尽调的 Agentic Protocol 驱动

给你的 Skill 扔一家公司的名字，它不会直接给结论。它会按照蒸馏出的Step 2 研究维度先跑 WebSearch（芒格版就去看护城河 + 管理层激励 + 最大风险），然后把真实信息过一遍他的心智模型，再输出判断。这是一个人格化的分析师，而不是一个装扮过的 LLM。

6.4

玩法 ④：团队讨论的"外部观察者"

公司内部会议容易掉进群体思维。开会前跑一遍"塔勒布视角：我们这个决定的尾部风险是什么？"——不是因为塔勒布有魔法，而是他的反脆弱框架正好对着你们团队的盲区。这种召唤性的 Devil's Advocate，人类同事不好意思扮，Skill 可以没负担地扮。

6.5

玩法 ⑤：组织知识蒸馏——把创始人的脑子变成文化档案

女娲的"蒸馏你自己"分支，让公司可以把创始人 / 关键工程师 / 资深 PM 的思维方式做成内部 Skill，新员工 onboarding 时直接上手查。这是一个比"内部 Confluence"强百倍的知识资产——因为它不是教材，是"如果他在场会怎么想"的可运行模拟。组织永远留不住所有人，但可以留下人的决策模式。

6.6

玩法 ⑥：读书加速器——与作者"对话"，而不是读他

读完一本书，把书里核心观点 + 作者 Skill 一起加载，然后问作者没在书里回答的问题。书里讲的是作者已想清楚的；Skill 可以推断作者还没来得及讲但符合他框架的答案。这是"读完一本书 vs 学会一个人"的分界线。

6.7

玩法 ⑦：对抗自我偏见的镜子

最有杠杆的一个用法，也是最不舒服的——强行召唤一个你讨厌或不同意的人物 Skill 来审视你现在的决定。你讨厌他的原因，可能正是你的盲点。你不用同意他，只需要听一遍——听完再坚持的决定，比凭感觉坚持的决定可靠得多。

元原则七个玩法背后，是同一个 insight——人物 Skill 不是拿来"模拟某人"的，是拿来"扩充自己思维边界"的。每一次召唤，都是你暂时借了另一套镜片看世界。这跟女娲 SKILL.md 最后那句话完全合流："用另一个人的眼睛看自己的问题。"

CH 07 · 未来畅想

从一面镜子
到一座认知之林

女娲现在是一棵单独的树——一个工具，蒸馏一个人，生成一个 Skill。但它的架构里藏着成为森林的基因。把镜头拉远十年，看看它可能长成什么。

7.1

第一层：认知操作系统的开源分发

每个蒸馏出来的 Skill 都是自包含目录，这意味着它天然可以被打包、分享、合入某个 perspective-hub/ 仓库。假以时日，我们会看到一个认知 Skill 商店——"芒格 v3.2""费曼 v2.0""一位做空过 15 家公司的做空者 v1.0"。你不是在装 App，你是在给自己的决策流水线加装一颗镜片。

7.2

第二层：群体心智——多 Skill 并行辩论

一旦有了上百个蒸馏过的思维镜片，下一步是让它们并行跑一个问题再合议——5 个 Skill 先各自独立回答，再两两对抗，最后交叉总结分歧所在。这个输出不是"答案"，是"分歧地图"——它告诉你这个问题在人类智识史上为什么没有共识，以及你现在站在哪一派。

张力这一步的风险在于同质化——如果蒸馏的都是硅谷创业者，你得到的只是一个回音室。女娲的"排他性"验证恰恰能防这个——越是非硅谷、越是反主流的声音，在验证里得分越高。这让 Skill 林子天然往多元化长。

7.3

第三层：AI 蒸馏的框架反过来塑造人类思考

当"芒格 Skill"被一百万用户读过一万次，它里面的"反向思维""护城河""激励机制"这些概念，就从芒格个人所有变成了公共认知接口。人们不再需要读完《穷查理宝典》才能用芒格思维——Skill 成为压缩过的公共智力基础设施。这既是启蒙的加速，也是一种新的简化风险：大多数人可能从此只接触"蒸馏版"而非原著。

7.4

第四层：思维标本与数字分身的边界

必须严肃区分的两件事——

思维标本（女娲的定位）

它是一套结构。它不预测此人此刻真会说什么，它只说"按他的 HOW，大概率会这样推"。它承认蒸馏不到的那部分是真实存在的（诚实边界）。

数字分身（危险的延伸）

它试图替身——"马斯克本人"。它不承认边界，冒称实时性。这类产品在商业上有诱惑，但在伦理上会把人物蒸馏迅速拖回 deepfake 的老路。

女娲现在站得很正，但这是作者品味的约束——并没有技术门槛阻止别人往数字分身那条路上走。这条分水岭未来会变成人物 Skill 领域最重要的规范战场。

7.5

第五层：过时机制与 Skill 的"自我进化"

女娲 SKILL.md 里已经埋了一颗种子："更新已有 Skill"——只启动最新对话 / 最新决策 / 时间线更新三个 Agent，增量更新不重写。再往前走一步，就是Skill 持续集成：定时抓取此人最近的公开表达，检测是否出现"与现有心智模型冲突的新表态"，自动生成 diff 提醒用户。一个蒸馏过的思维，从此可以像软件版本一样长寿和演化。

女娲造的不是神，是可复用的镜片；
不是永恒，是定期更新；
不是真相，是足够诚实的近似。 Andy Lab Deep Dive · 2026.04.21

造一面认知之镜

女娲是第一个把「提取思维框架」做成标准化流水线的 Claude Code Skill。

产品定义

完整流程图

实现原理

细节设计

深度见解

高价值玩法

未来畅想