New Relic首席技术战略官：AI时代，可观测性不只是看系统崩没崩，更要看模型有没有胡说

在AI技术高速迭代的今天，可观测性（Observability）领域正经历一场深刻变革。传统以仪表盘（dashboard）和告警（alert）为核心的监控方式，在面对海量数据和复杂系统时已显得力不从心。更棘手的是，当AI模型本身成为系统的一部分，如何监控这些不确定、会“胡说”的模型，成为新的难题。

近日，在播客节目中，New Relic首席技术战略官（Chief Technology Strategist）Nic Benders与主持人Lee Atchison深入探讨了这一话题。Nic Benders指出，可观测性正从“让你看见问题”走向“直接告诉你该关注什么”，甚至在问题发生前自动采取行动。他同时强调，AI时代的可观测性不仅要看系统是否崩溃，还要看模型是否在胡说八道。

可观测性的三次跃迁：从插桩到智能

Nic Benders在New Relic工作了16年，见证了可观测性行业的演变。他将这一历程划分为三个阶段：

第一阶段是“代码插桩时代”。团队专注于为关键系统添加监控代码，从Ruby到Java、.NET、Python，再到浏览器和移动端App。但很快，数据量激增，人们发现“看得见”变成了“看不过来”。

第二阶段是“数据平台时代”，大约从2013-2014年开始，New Relic推出了NRDB（New Relic数据库）。其核心价值在于支持“交互式提问”——用户可以先将数据全部收入，再探索问题，例如发现慢查询后排除测试环境，再按国家拆分分析。这一能力支撑了仪表盘、数据探索器和告警等整套功能。

然而，十年后的今天，仅仅“能问问题”已经不够。数据多到用户甚至不知道该问什么。于是，行业进入第三阶段：“智能时代”。重点不再是“你能问什么”，而是系统告诉你“你应该问什么”、“你该看什么”。Nic Benders认为，这种演进不会停止，未来可能迈向“Action时代”，系统不仅能看，还能直接动手解决问题。

传统仪表盘和告警已到尽头

Nic Benders直言，以仪表盘和告警为核心的可观测性“已经走到尽头了”。他指出，现在的仪表盘更漂亮、数据更多，但本质上与90年代的监控方式没有区别——只是从3个图变成了300个图。然而，没有任何一个仪表盘小到可以让人“看见一切”。

“增加告警并不会提升响应能力，”Nic Benders说，“它反而会训练人产生一种反应：‘先等一下，看看它会不会自己恢复。’结果响应时间反而被拉长了。噪音越多，响应越慢，但团队却误以为告警越多越安全。”他进一步指出，没人真的想写告警，也没人真的想做仪表盘，大家只想知道：系统到底怎么了？仪表盘和告警只是工具，而不是目标。

AI与统计方法协同：三类技术各司其职

对于AI在可观测性中的应用，Nic Benders将其分为三类：

第一类是纯粹的数学和统计方法，例如信号分析、基线偏差检测，本质是公式计算。第二类是机器学习（Machine Learning），通过定义超参数让算法自动调整告警基准，例如保证一段时间内只发送一个告警，这支撑了前几年的MLOps实践。第三类是神经网络（Neural Networks），尤其是基于Transformer架构的模型，如OpenAI的GPT、Google的Gemini、Anthropic的Claude，它们成为“决策层”，但背后调用的工具应包含前两类技术。

Nic Benders强调：“如果你的AI策略只是把所有东西塞给OpenAI等着拿答案，那当然也有价值，但不是万能解法。很多场景下，传统机器学习或统计方法更合适。”一个好的可观测性产品，应该三者兼备。

AI时代的可观测性新挑战：监控模型胡言乱语

随着AI模型成为系统的一部分，新的监控需求浮现。Nic Benders指出，AI模型具有不确定性和“胡说”倾向，这要求可观测性系统不仅要监控传统指标（如CPU、内存、网络），还要监控模型的输出质量、幻觉率、一致性等。例如，在电商场景中，可观测性应关注“有没有成交”；在社交产品中，应关注“用户有没有互动”。真正的“source of truth”始终是业务本身。

Nic Benders还提到，AI让每个人有能力完成更多事情，但结果不是“少工作”，而是“多产出”。“历史上从来没有哪次技术进步让人类真的减少工作量，”他笑称。

未来展望：可观测性即“可理解性”

Nic Benders认为，可观测性系统其实更应该叫“可理解性（Understandability）系统”，因为没人真的想“观察”，大家要的是“理解”。随着AI技术的融入，可观测性将变得更智能、更主动，最终实现系统自动诊断和修复，而人类只需关注业务目标。

这一观点引发了行业对可观测性未来方向的思考：当AI成为监控者，谁来监控AI？或许，答案就在可观测性本身的进化之中。

文章来源：https://aidadog.com/news/ai/o5fz1mqc5t394n0ziera5csl

New Relic首席技术战略官：AI时代，可观测性不只是看系统崩没崩，更要看模型有没有胡说

可观测性的三次跃迁：从插桩到智能

传统仪表盘和告警已到尽头

AI与统计方法协同：三类技术各司其职

AI时代的可观测性新挑战：监控模型胡言乱语

未来展望：可观测性即“可理解性”

贾扬清出走英伟达：20亿美元AI Infra豪赌，为何一年就崩了？

AWS 推出开源框架 Blocks：专为 AI 智能体打造的后端工具，本地开发无需云账户

继续阅读