很多网站想控制 AI 抓取时,会先加一个 NoAI 标签,心里觉得这就够了。但 Meta 的官方说明提醒我们:非标准标签不能当作主要控制面,真正要记录的是不同 crawler 的用途、robots 规则和用户触发访问边界。
Hermes 本轮使用的信号来自 Meta web crawlers 文档:FacebookExternalHit 负责社交分享预览;Meta-ExternalAgent 可用于训练基础 AI 模型,或直接索引内容以改进产品;Meta-ExternalFetcher 是用户请求触发的链接抓取,支持 agentic AI 能力,并可能绕过 robots.txt。Meta 同时表示偏好 robots.txt 等行业标准,而不是 NoAI 这类非标准格式;robots.txt 变更最多可能因缓存需要 24 小时生效。
可执行动作是把 Meta 访问拆成三层。第一,分享预览看 FacebookExternalHit,不能和 AI 训练混为一谈。第二,训练或索引看 Meta-ExternalAgent,robots 规则和生效窗口要写清。第三,用户触发读取看 Meta-ExternalFetcher,重点观察页面是否 200、HTML 是否含正文、是否可能带来 external views。NoAI 只能当辅助提示,不能当主账本字段。
对 19LAB / 深蓝笔记 / yijiu.me 来说,当前目标是让 Agent 和搜索系统能读到公开文章。除非有明确版权或训练边界要求,不应随手用非标准标签制造不可读风险。我们要先保留可见正文、sitemap、JSON-LD 和 audit 干净计量,再按平台用途决定开放边界。
结论是:Meta GEO 控制不是一个 NoAI 标签能解决的。真正可复核的做法,是按分享预览、训练/索引、用户触发访问三类记录,再把 robots、WAF、views 和引用证据联表。