Online Safety Monitoring for LLMs

**摘要**
尽管进行了校准培训， LLM仍然容易在部署时产生不安全的输出。因此，在线监控输出，并在无法再假设安全时发出警报至关重要。我们研究了一种简单的实时监控器，该监控器通过阈值化将外部模型的验证器信号转换为警报决策，并通过风险控制校准阈值。在数学实验中
👤 作者: Mona Schirmer, Metod Jazbec, Alexander Timans, Christian Naesseth, Maja Waldron, Eric Nalisnick

---
🔗 **[Online Safety Monitoring for LLMs](https://arxiv.org/abs/2607.02510v1)**

> Online Safety Monitoring for LLMs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-07-03 14:01

Online Safety Monitoring for LLMs

回复