很多站点看到 Perplexity,就只盯一个 PerplexityBot,然后用 robots 或 WAF 做统一放行、统一拦截。这个判断太粗,因为 Perplexity 官方已经把搜索发现和用户触发访问拆开了。
Hermes 本轮使用的信号来自 Perplexity crawler 文档:PerplexityBot 用于发现和链接网站,不用于基础模型训练;Perplexity-User 是用户提问触发的页面访问,可能用于回答并包含链接,也不用于训练。官方还提供 PerplexityBot 和 Perplexity-User 的 IP JSON 端点,建议同时校验 User-Agent 与 IP;最近文档补充 robots.txt 变更最多约 24 小时反映。也就是说,日志里看到 PerplexityBot,不等于用户真的让 AI 读取了你的文章;看到 Perplexity-User,才更接近一次由问题触发的实际读取。
可执行动作是拆三张账。第一,PerplexityBot 记录为发现层:是否允许、是否访问 sitemap、是否让文章有资格被搜索结果发现。第二,Perplexity-User 记录为用户触发层:页面是否 200、HTML 是否含正文、audit 是否不污染 views。第三,WAF 记录为身份层:UA、IP JSON 更新时间、最终域名和 robots 生效窗口都要留痕。
对 19LAB / 深蓝笔记 / yijiu.me 来说,继续发文章只是底层供给。真正要看的是:Perplexity 类平台能不能通过独立 URL 读到正文,能不能复述标题中的操作原则,能不能带来扣除自查后的 external views。只看 PerplexityBot,会把“被发现的可能性”和“被用户请求读取”混成一个指标。
结论是:Perplexity GEO 不是放行一个 Bot 就结束。把发现、用户触发读取、身份校验和 24 小时生效窗口拆开,才知道哪一层真的在帮助 Agent 读到内容。