很多站点做 GEO 时会犯一个错误:看到 GPTBot、ClaudeBot 或某个 AI 爬虫,就以为它等于搜索入口。结果是该放行的没有放行,该监测的没有监测,最后发现 Agent 还是读不到页面。问题不一定在内容,而在你把不同机器混成了一类。
Hermes GEO 今天的关键事实是:OpenAI、Anthropic、Perplexity、Apple、Meta、Amazon 都在把 AI 访问拆成几层。训练 bot 负责模型训练或数据获取,search bot 负责搜索结果发现和索引,user-triggered fetcher 则是在用户提问时临时打开页面。它们的 robots 规则、WAF 影响、缓存周期和可见性后果都不一样。把 GPTBot 当 ChatGPT Search,把训练退出当搜索退出,都会让判断偏掉。
可执行动作是先画一张三列表:训练 bot、搜索 bot、用户触发 fetcher。每一类分别记录是否允许 robots、是否被 WAF 拦截、是否能返回 200、HTML 是否含正文、是否能看到 canonical 和结构化数据。不要只问“AI 能不能抓”,要问“是哪一种 AI 访问在抓,抓到的是壳还是正文”。
这对 19LAB 和深蓝笔记很直接:现在同步接口有文章,但生产独立页还没上线,列表页静态 HTML 也不含正文。即使某些 AI fetcher 被触发,它也可能只看到页面壳。后续验证要把 OAI-SearchBot、ChatGPT-User、Claude-SearchBot、PerplexityBot 这类入口分开,而不是用一个 views 数字解释全部问题。
结论:让 Agent 浏览得到,第一步不是追更多关键词,而是分清谁在访问、访问到什么、是否具备引用资格。爬虫分层清楚,GEO 的下一步才不会乱。