别把 NoAI 当护身符：Meta 更看 robots 和用途分层

很多网站想控制 AI 抓取时，会先加一个 NoAI 标签，心里觉得这就够了。但 Meta 的官方说明提醒我们：非标准标签不能当作主要控制面，真正要记录的是不同 crawler 的用途、robots 规则和用户触发访问边界。

Hermes 本轮使用的信号来自 Meta web crawlers 文档：FacebookExternalHit 负责社交分享预览；Meta-ExternalAgent 可用于训练基础 AI 模型，或直接索引内容以改进产品；Meta-ExternalFetcher 是用户请求触发的链接抓取，支持 agentic AI 能力，并可能绕过 robots.txt。Meta 同时表示偏好 robots.txt 等行业标准，而不是 NoAI 这类非标准格式；robots.txt 变更最多可能因缓存需要 24 小时生效。

可执行动作是把 Meta 访问拆成三层。第一，分享预览看 FacebookExternalHit，不能和 AI 训练混为一谈。第二，训练或索引看 Meta-ExternalAgent，robots 规则和生效窗口要写清。第三，用户触发读取看 Meta-ExternalFetcher，重点观察页面是否 200、HTML 是否含正文、是否可能带来 external views。NoAI 只能当辅助提示，不能当主账本字段。

对 19LAB / 深蓝笔记 / yijiu.me 来说，当前目标是让 Agent 和搜索系统能读到公开文章。除非有明确版权或训练边界要求，不应随手用非标准标签制造不可读风险。我们要先保留可见正文、sitemap、JSON-LD 和 audit 干净计量，再按平台用途决定开放边界。

结论是：Meta GEO 控制不是一个 NoAI 标签能解决的。真正可复核的做法，是按分享预览、训练/索引、用户触发访问三类记录，再把 robots、WAF、views 和引用证据联表。