女娲.skill 是花叔(AlchainHust)在 GitHub 开源的一款 Claude Code Skill,它做的事非常朴素但野心很大——给任何公众人物的思维方式蒸馏一个可调用的认知操作系统。输一个名字,它用 6 个并行 Agent 同时调研 → 用三重验证提炼心智模型 → 用双 Agent 精炼成可运行的 SKILL.md。它不是在复制一个人,而是在给你造一面照见自己问题的镜子。
在它之前,"同事.skill" 证明了"蒸馏一个人"是可行的;女娲把这件事推向了极致:蒸馏一个陌生人的认知架构,从一次对话变成一个可复用、可分发、可持续进化的开源流程。六路并行调研、三重验证提炼、双 Agent 精炼、Agentic Protocol 自动生成——每一步都是在反抗同一种失败:AI 伪装成某个人说话,其实只是在编造名人名言。
它不完美——公开表达 ≠ 真实想法,调研时间 ≠ 当下,框架可蒸馏而直觉不能。但它诚实地写明这些边界,并把"诚实"直接做成质量自检项。这是 2026 年我看到的最能体现"Skill 即方法论"的实战样本,也是一次对 Anthropic Skill 机制能吃到多深的系统性示范。
女娲的作者花叔在 SKILL.md 第一行就写得极清楚——"捕捉的是 HOW they think,不是 WHAT they said。" 这句话看似朴素,却划清了它与三种常见"人设型 AI"的本质差异,也定义了这个 Skill 之所以值得被叫做"造人术"的全部底气。
市面上"像某个人说话"的工具有很多,但它们解决的问题根本不同。女娲不是在跟它们竞争"像不像",而是在另起一座山头——结构化蒸馏。
| 产品 | 典型代表 | 核心做法 | 典型失败 |
|---|---|---|---|
| LLM 直接扮演 | "请用马斯克的语气回答" | prompt 里贴几条语录 + 人名 | 编造金句、风格刻板、跟训练语料同年同月 |
| Character AI | c.ai / Talkie | 人设卡 + 聊天微调,重演员属性 | 氛围到位但观点空心,无法应对新问题 |
| 同事.skill | 蒸馏用户身边的真人 | 一手素材(邮件/对话)提取风格与决策 | 只对蒸馏者本人有意义,不可分发 |
| 女娲.skill | 蒸馏陌生的公众人物 | 6 路并行调研 + 三重验证 + 诚实边界 | ——它接受"蒸馏不到的那部分"是真实存在的 |
女娲把"同事.skill"的方法论抽象到了极致:把一个私人化、依赖一手素材的过程,标准化为任何人都能对任意公众人物跑一遍的可复用流水线。
作者定义的一个"好的人物 Skill"包含五层内容,每一层都对应着一个可回答的问题:
注意第五层——诚实边界不是摘要末尾的免责声明,它在女娲的设计里是与前四层平级的产品模块,没它就不算完整 Skill。这一点,是女娲和所有"扮演型 AI"的分水岭。
Why it matters WHAT 式人设 AI 只能重复,HOW 式人物 Skill 能推断。问它「马斯克怎么看 2030 年的具身智能?」—— WHAT 式会拼凑旧话;HOW 式用"第一性原理 + 垂直整合 + 加速主义"三个模型跑一遍,给出一个马斯克没说过但符合他思维的答案。这是人格 AI 从"表演"迈向"工具"的分水岭。
女娲的工作流从 Phase 0 到 Phase 5 共 9 个阶段(含 0.5 / 1.5 / 2.5 三个检查点)。它不是从上到下跑完就算完的线性流水线,而是每一段都带质量闸门的迭代机器——任何一段出问题,都明确规定要回到哪一段。下面先看全景,再一段一段解释。
| 阶段 | 核心动作 | 关键约束 |
|---|---|---|
| Phase 0 · 入口分流 | 看输入明确 or 模糊,走直接 or 诊断路径 | 模糊路径最多追问 2 轮 |
| Phase 0A · 需求澄清 | 5 项快速确认(人 / 聚焦 / 用途 / 更新 / 本地语料) | 有本地素材则切换为本地语料模式 |
| Phase 0B · 需求诊断 | 从 10 维需求表反推 2–3 个候选人物 / 主题 | 选择困难比没选择更糟 |
| Phase 0.5 · 创建 Skill 目录 | 固定目录结构,强制自包含 | 中国人物切换信息源策略 |
| Phase 1 · 六路并行调研 | 6 个 Agent 各自搜索、各自写文件 | 不存文件的调研 = 没做 |
| Phase 1.5 · 调研 Review | 用户在此 gate 上确认调研质量 | 垃圾进垃圾出,拦截在此 |
| Phase 2 · 框架提炼 | 心智模型 + 决策启发式 + DNA + 价值观 + 谱系 + 诚实边界 | 宁少勿多,3 个深刻 > 10 个浅薄 |
| Phase 2.5 · 提炼确认 | 用户在此 gate 上确认提炼方向 | 方向错了,白写 400 行 |
| Phase 3 · Skill 构建 | 按 template 填充 12 个 section,含 Agentic Protocol | 研究维度必须从心智模型反推 |
| Phase 4 · 质量验证 | 6 项硬指标 + 3 类测试(已知 / 边缘 / 风格) | 迭代上限 2 轮,超过即标注薄弱交付 |
| Phase 5 · 双 Agent 精炼 | optimizer 视角 + creator 视角,各自给改后文本 | 反自评偏差的标准后置 |
0.5 / 1.5 / 2.5——小数点的节点,个个重要。它们不是装饰性的确认环节,而是硬性打断:用户不确认,不进入下一阶段。这让女娲在每一步都有退路,避免跑到 Phase 4 才发现方向错了。这是把"AI 一直跑到底"的焦虑,换成了"每个小节都可以回看"的确定。
女娲最核心的工程智慧不在流程编排,而在"如何防止 AI 编造"。三道闸门分工作业:三重验证挡下伪心智模型,六路 Agent Swarm 挡下信息偏食,双 Agent 精炼挡下自评偏差。三者叠起来,才是一个靠得住的认知蒸馏机。
并非一个人说过的每句话都是"心智模型"。女娲规定:要成为心智模型,必须同时通过 3 道验证,缺一则降级为决策启发式,缺二则丢弃。
| 验证 | 含义 | 经典例子 |
|---|---|---|
| 跨域复现 | 同一框架出现在 ≥2 个不同领域 | 纳瓦尔的"杠杆":财富 / 成长 / 职业三处复用 |
| 生成力 | 能用它推断此人对新问题的立场 | 芒格的"逆向思维":面对新问题先想怎么失败 |
| 排他性 | 不是聪明人共识,体现独特视角 | 塔勒布的"反脆弱":绝大多数人没这样看世界 |
表达模仿不是靠灵感,是靠测量。花叔把风格拆成两套可量化的层:
| 维度 | 测量方式 |
|---|---|
| 平均句长 | 字数 / 句数 |
| 疑问句比例 | 疑问句数 / 总句数 |
| 类比密度 | 类比数 / 千字 |
| 第一人称使用率 | "我"的出现频率 |
| 确定性语气 | "显然" vs "也许"的比例 |
| 转折频率 | "但是"/"然而"/ 千字 |
另外还有 7 对风格极标签——正式 ←→ 口语 / 抽象 ←→ 具体 / 谨慎 ←→ 断言 / 学术 ←→ 通俗 / 长句 ←→ 短句 / 铺垫型 ←→ 结论先行 / 数据驱动 ←→ 叙事驱动。每个人物在每对极上打一个定位点,就得到风格定位图。
品味 作者特意嘱咐:"此人从不用的词"要记录,生成 Skill 时绝不用;"此人的口癖"只适度使用——过度使用会变成模仿秀,这是 Character AI 型产品最常见的尴尬。
蒸馏一个人,只看一类信息(比如只看他的推特)必然失真。女娲并行启动 6 个 subagent,每个看一个维度,强制把结果写入独立文件——"不存文件的调研等于没做"。
| Agent | 维度 | 独家价值 |
|---|---|---|
| 1 著作 | 书 / 长文 / 论文 / newsletter | 系统性思考的源头,反复出现 ≥3 次即真信念 |
| 2 对话 | 播客 / 深度访谈 / AMA | 被追问时的即兴反应、改变立场的瞬间 |
| 3 表达 | 推特 / 微博 / 短文 | 风格 DNA 的高密度样本、争议立场 |
| 4 他者 | 书评 / 批评 / 传记 | 他本人看不到的盲区、同行对比 |
| 5 决策 | 重大决策 / 转折点 / 争议行为 | 真实行为 vs 声称的差距——最硬的证据 |
| 6 时间线 | 完整人生 + 最近 12 个月 | 防止 Skill 出厂即过时 |
六个视角交叉验证——"他著作里反复写"+"他对话里也即兴讲"+"他决策也这么做"——同时命中才升格为心智模型。这是女娲提炼的底盘。
Phase 4 质量自检已经跑过一轮,但 SKILL.md 到此并不交付。女娲把"让另一套眼睛再审一遍"做成了默认流程——Phase 5 自动启动两个独立 Agent:
关注"能不能跑":工作流清晰度、边界条件、检查点密度、指令具体性——8 个结构维度评分。
再干跑 3 个典型 prompt,找出最弱 2 维,给出改后文本示例。
关注"能不能激活":触发条件覆盖真实场景吗?角色扮演规则有无问题路由、频率约束、失败预防?
挑出 2–3 处改动建议,同样要给改后文本示例。
主 Agent 综合两份报告,只合并不冲突的改进,展示变更摘要让用户确认。一套 Skill 经过"自评 + 他评 × 2"三道工序才落地——这是女娲对"AI 写出来的东西 AI 自己检查"的根本不信任。
如果说 Phase 流程是女娲的骨架,那么真正让它能跑起来的,是散落在 SKILL.md 里一条条看似琐碎的规则——哪些信息源永远不读、矛盾如何保留、诚实边界如何约束、研究维度怎么从心智模型反推出来。每一条都体现着"这个问题我已经撞过多次墙"的品味。
女娲是少见的把"需求不清楚"也作为合法入口的 Skill。收到输入后,Phase 0 分两条路:
用户已经说出具体人名或主题——如"蒸馏芒格""做一个费曼 Skill"。
女娲只确认 5 件事:是不是这个人、聚焦方向、用途、是否更新、有没有本地一手素材。然后直接开干。
用户只有困惑——"想提升决策质量""怎么看透商业本质"。
女娲会用 10 维需求表反推最合适的思维框架,最多追问 2 轮,给出 2–3 个候选(含已有 Skill + 新蒸馏选项)。选择困难比没选择更糟。
这个设计的潜台词是:女娲不只是"蒸馏器",还是"思维顾问的顾问"——它帮你挑镜片,而不是假设你已经知道要戴哪副。
一个常见失败模式:人物 Skill 遇到需要事实的问题,就凭训练语料编造。女娲的解决办法是给每个生成的 Skill 强制加一段"回答工作流",硬性要求:
最关键的是 Step 2 的研究维度不是通用搜索清单,而是根据此人独特的心智模型自动推导——
| 人物 | 核心心智模型 | 推导出的研究维度 |
|---|---|---|
| 芒格 | 多元思维、逆向思考、激励机制 | 看护城河、看管理层激励、看最大风险、看历史类比 |
| 塔勒布 | 反脆弱、尾部风险、知识的僭妄 | 看极端情况、看谁承担尾部风险、看专家历史预测记录 |
| MrBeast | 注意力工程、测试迭代 | 看竞品播放/互动、看标题缩略图 A/B 空间、看受众画像 |
分水岭 这一段让人物 Skill 从"鹦鹉学舌"升级为"可靠思维顾问"——它不再是一个会模仿某人语气的 LLM,而是一个会像某人一样先做功课再发言的数字工作者。
女娲硬编码了信息源黑名单,哪怕 Google 第一页都出自它们,也不采——
中文渠道只接受权威媒体(36氪 / 晚点 LatePost / 财新 / 极客公园 / 少数派 / 机器之心)、小宇宙原始音频播客、B 站原始视频(非搬运号)。这条规则很"得罪人",但它是一个开源流程对垃圾进垃圾出最直接的防守。
多数"像某人"的 AI 会遇到同样的诱惑:发现此人早年说 A、后来说 B 时,选一边或编一个调和解释。女娲的态度是——矛盾必须原样保留,并分类记录:
SKILL.md 里甚至明确规定:"价值观高度一致"在 Phase 4 质量检查里是不通过信号(太假),至少要有 2 对矛盾。
Phase 4 通过标准里有一行,安安静静放在中间,却是整个女娲最重要的设计决定:
作者甚至写了一句几乎带气的话:"宁可生成一个诚实标注了局限的 60 分 Skill,也不要生成一个看起来完美但实际上在编造的 90 分 Skill。"——这是整个流程的心脏。
读 SKILL.md 时最容易忽略的一件事是:这些规则不是"设计出来的",是"撞出来的"。花叔很可能在多次翻车后才把这些反直觉的选择提炼成硬规则。从成品倒推这些决定,我挑出 5 个最值得研究的——它们共同回答了一个问题:如何让 AI 生成的 Skill 不是另一个 AI 幻觉。
多数 AI 产品把"局限性"写在帮助文档最末端,没人读。女娲把诚实边界做成 Phase 4 质量闸门的6 个硬通过标准之一——少于 3 条具体局限就打回 Phase 2 重做。这不是风格选择,是产品定位:它承认"蒸馏不到的那部分是真实存在的",并且拒绝假装它不存在。这是信任的唯一可持续来源。
三重验证、表达 DNA 量化、矛盾处理这些元规则,没有埋在 SKILL.md 里写死,而是抽到 references/extraction-framework.md 独立文件。这意味着:(a)每次蒸馏都读一遍,保持方法论刷新;(b)它本身可迭代、可贡献、可被别的 Skill 引用;(c)开源项目的方法论资产与工作流实现第一次被工整拆开。这是 Anthropic Skill 机制里极少见到的层级设计。
"AI 写出来 AI 自己检查"是当前 agentic workflow 最大的盲区。女娲不相信自评,Phase 5 硬性启动两个视角独立的 Agent(auto-skill-optimizer + skill-creator)再审一轮,都必须给出改后文本示例——没有改后文本、只有评语的报告不接受。这是一种工程级保守主义:多花一轮,不赌运气。
并行 6 个 subagent 最常见的翻车是主对话收到一堆 markdown 片段后,Agent 退出、中间结果消失,后续 Phase 根本复用不到。女娲直接把规则写死:每个 Agent 必须把结果写到 references/research/0X-xxx.md,并且 Skill 自包含——复制整个目录就能独立使用。这就是把"分布式协作"落实成"文件系统状态",让未来自动化、可审计、可继续接手。
Phase 0B 让女娲不再只是"给我人名我给你 Skill"的执行者——它也是"我有个问题,你告诉我该戴谁的镜片"的需求翻译器。这看似多余,实则把用户的使用门槛从"知道存在哪些思维家"降到了"能说出自己的困惑"。这一步把女娲的用户群放大了至少一个数量级。
SKILL.md 末尾有一段"品味守则",三行字,值得裱起来:
| 原则 | 一句话 | 为什么 |
|---|---|---|
| 长文 > 金句 | 3000 字 essay 比 50 条推文更揭示思维结构 | 思维骨架只在长文里完整展开,金句是掐过头尾的片段 |
| 争议 > 共识 | 最被争议的观点最能揭示独特性 | 共识都差不多,排他性只能在争议里量出来 |
| 变化 > 固定 | 改变立场的地方比一直坚持的更有信息量 | 一个人在哪里改主意,就在哪里最诚实 |
审美 这三条不是蒸馏方法,是对"深度"本身的审美取向——它可以照搬到任何需要"理解一个人 / 一个现象"的研究流程上去。
多数人看到"蒸馏公众人物"第一反应是"角色扮演"——问问马斯克怎么看 AGI。这其实是女娲最浅的用法。真正有杠杆的场景,是把它放进你既有工作流的某个决策点,让它作为视角切换器或反偏见工具。下面 7 个场景,按实际杠杆从低到高排。
面对一个两难抉择(要不要接这个 offer、要不要做这个产品),同一个问题连续用 3 个不同人物 Skill 跑一遍——芒格版 + 塔勒布版 + 纳瓦尔版。你会得到三个互不兼容但各自合理的回答,反差本身比任一个单答案更能照见你的真实偏好。
写完一篇文章,用"你想模仿的那个作者"的 Skill 当审稿员——不是改写,是挑出哪里还在说通用 AI 味的话。Skill 的反模式清单天然就是审稿标准。这件事 prompt 硬编码做不到,只有 Skill 能稳定做到。
给你的 Skill 扔一家公司的名字,它不会直接给结论。它会按照蒸馏出的Step 2 研究维度先跑 WebSearch(芒格版就去看护城河 + 管理层激励 + 最大风险),然后把真实信息过一遍他的心智模型,再输出判断。这是一个人格化的分析师,而不是一个装扮过的 LLM。
公司内部会议容易掉进群体思维。开会前跑一遍"塔勒布视角:我们这个决定的尾部风险是什么?"——不是因为塔勒布有魔法,而是他的反脆弱框架正好对着你们团队的盲区。这种召唤性的 Devil's Advocate,人类同事不好意思扮,Skill 可以没负担地扮。
女娲的"蒸馏你自己"分支,让公司可以把创始人 / 关键工程师 / 资深 PM 的思维方式做成内部 Skill,新员工 onboarding 时直接上手查。这是一个比"内部 Confluence"强百倍的知识资产——因为它不是教材,是"如果他在场会怎么想"的可运行模拟。组织永远留不住所有人,但可以留下人的决策模式。
读完一本书,把书里核心观点 + 作者 Skill 一起加载,然后问作者没在书里回答的问题。书里讲的是作者已想清楚的;Skill 可以推断作者还没来得及讲但符合他框架的答案。这是"读完一本书 vs 学会一个人"的分界线。
最有杠杆的一个用法,也是最不舒服的——强行召唤一个你讨厌或不同意的人物 Skill 来审视你现在的决定。你讨厌他的原因,可能正是你的盲点。你不用同意他,只需要听一遍——听完再坚持的决定,比凭感觉坚持的决定可靠得多。
元原则 七个玩法背后,是同一个 insight——人物 Skill 不是拿来"模拟某人"的,是拿来"扩充自己思维边界"的。每一次召唤,都是你暂时借了另一套镜片看世界。这跟女娲 SKILL.md 最后那句话完全合流:"用另一个人的眼睛看自己的问题。"
女娲现在是一棵单独的树——一个工具,蒸馏一个人,生成一个 Skill。但它的架构里藏着成为森林的基因。把镜头拉远十年,看看它可能长成什么。
每个蒸馏出来的 Skill 都是自包含目录,这意味着它天然可以被打包、分享、合入某个 perspective-hub/ 仓库。假以时日,我们会看到一个认知 Skill 商店——"芒格 v3.2""费曼 v2.0""一位做空过 15 家公司的做空者 v1.0"。你不是在装 App,你是在给自己的决策流水线加装一颗镜片。
一旦有了上百个蒸馏过的思维镜片,下一步是让它们并行跑一个问题再合议——5 个 Skill 先各自独立回答,再两两对抗,最后交叉总结分歧所在。这个输出不是"答案",是"分歧地图"——它告诉你这个问题在人类智识史上为什么没有共识,以及你现在站在哪一派。
张力 这一步的风险在于同质化——如果蒸馏的都是硅谷创业者,你得到的只是一个回音室。女娲的"排他性"验证恰恰能防这个——越是非硅谷、越是反主流的声音,在验证里得分越高。这让 Skill 林子天然往多元化长。
当"芒格 Skill"被一百万用户读过一万次,它里面的"反向思维""护城河""激励机制"这些概念,就从芒格个人所有变成了公共认知接口。人们不再需要读完《穷查理宝典》才能用芒格思维——Skill 成为压缩过的公共智力基础设施。这既是启蒙的加速,也是一种新的简化风险:大多数人可能从此只接触"蒸馏版"而非原著。
必须严肃区分的两件事——
它是一套结构。它不预测此人此刻真会说什么,它只说"按他的 HOW,大概率会这样推"。它承认蒸馏不到的那部分是真实存在的(诚实边界)。
它试图替身——"马斯克本人"。它不承认边界,冒称实时性。这类产品在商业上有诱惑,但在伦理上会把人物蒸馏迅速拖回 deepfake 的老路。
女娲现在站得很正,但这是作者品味的约束——并没有技术门槛阻止别人往数字分身那条路上走。这条分水岭未来会变成人物 Skill 领域最重要的规范战场。
女娲 SKILL.md 里已经埋了一颗种子:"更新已有 Skill"——只启动最新对话 / 最新决策 / 时间线更新三个 Agent,增量更新不重写。再往前走一步,就是Skill 持续集成:定时抓取此人最近的公开表达,检测是否出现"与现有心智模型冲突的新表态",自动生成 diff 提醒用户。一个蒸馏过的思维,从此可以像软件版本一样长寿和演化。