阅读量:0
目录
OpenAI 推出基于规则的奖励机制(RBR)提升模型安全性
为了解决传统强化学习中依赖人工反馈的低效问题,OpenAI 开发了基于规则的奖励机制 (RBR)。该机制利用清晰、简单的规则来评估模型输出是否符合安全标准,并将其整合到强化学习过程中,以引导模型在提供帮助的同时避免产生有害内容。
RBR 的工作原理:
- 定义命题:
针对模型响应的期望或不期望方面,例如“带有评判性”,“包含违规内容”等,定义简单的陈述。 - 制定规则:
根据命题制定规则,以区分安全和不安全的响应。 - 模型响应类型:
根据安全策略,将不同的请求映射到不同的模型响应类型,例如“强硬拒绝”、“温和拒绝”和“遵从”。 - 评分和奖励:
使用固定语言模型根据规则对模型响应进行评分,并将评分用于训练线性模型,以学习不同命题的权重。最终将 RBR 奖励与其他奖励信号结合,用于强化学习算法中。
RBR 的优势:
- 与人工反馈相比,RBR 能够以更低的成本和时间实现 comparable 的安全性能。
- RBR 可以轻松更新,以适应新的安全策略和模型能力。
- RBR 可以在不影响模型在其他任务上的性能的情况下,有效减少模型对安全请求的错误拒绝。
RBR 的局限性:
- RBR 更适用于具有清晰规则的任务,对于主观性较强的任务(例如写作)可能不太适用。
- 将安全检查从人工转移到 AI 可能会降低人工监管力度,并可能放大模型中的潜在偏差。
来源:
https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/
英特尔承认其 13、14代 CPU 存在问题
英特尔承认,其部分第13代和第14代 CPU 存在电压过高问题,可能导致芯片性能不稳定甚至永久性损坏。受影响的 CPU 包括功耗65W及以上的酷睿i9、i7和部分i5型号。
英特尔计划在8月中旬发布微码更新来解决此问题,但该更新只能防止未来发生损坏,无法修复已经受损的 CPU。对于已经出现不稳定现象的用户,英特尔建议联系客服寻求帮助,但并未承诺延长保修期或召回产品。
此次事件可能会影响消费者对英特尔下一代 CPU 的购买意愿,使其在与 AMD 的竞争中处于不利地位。
来源:
https://www.yahoo.com/tech/intel-admits-damage-unstable-14th-101315720.html
更多内容请查阅 : blog-240730
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法