**摘要**
尽管进行了校准培训, LLM仍然容易在部署时产生不安全的输出。因此,在线监控输出,并在无法再假设安全时发出警报至关重要。我们研究了一种简单的实时监控器,该监控器通过阈值化将外部模型的验证器信号转换为警报决策,并通过风险控制校准阈值。在数学实验中
👤 作者: Mona Schirmer, Metod Jazbec, Alexander Timans, Christian Naesseth, Maja Waldron, Eric Nalisnick
---
🔗 **[Online Safety Monitoring for LLMs](https://arxiv.org/abs/2607.02510v1)**
> Online Safety Monitoring for LLMs
🏷️ 来源: ArXiv cs.AI
⏱️ 2026-07-03 14:01
加载回复中...