[240730] OpenAI 推出基于规则的奖励机制 (RBR) 提升模型安全性 | 英特尔承认其13、14代 CPU 存在问题

作者

首页»
业界新闻»
新闻资讯»
[240730] OpenAI 推出基于规则的奖励机制 (RBR) 提升模型安全性 | 英特尔承认其13、14代 CPU 存在问题

发布时间:2024-08-03 14:24

阅读量:0

目录

- OpenAI 推出基于规则的奖励机制（RBR）提升模型安全性
- 英特尔承认其 13、14代 CPU 存在问题

OpenAI 推出基于规则的奖励机制（RBR）提升模型安全性

为了解决传统强化学习中依赖人工反馈的低效问题，OpenAI 开发了基于规则的奖励机制 (RBR)。该机制利用清晰、简单的规则来评估模型输出是否符合安全标准，并将其整合到强化学习过程中，以引导模型在提供帮助的同时避免产生有害内容。

RBR 的工作原理：

定义命题：
针对模型响应的期望或不期望方面，例如“带有评判性”，“包含违规内容”等，定义简单的陈述。
制定规则：
根据命题制定规则，以区分安全和不安全的响应。
模型响应类型：
根据安全策略，将不同的请求映射到不同的模型响应类型，例如“强硬拒绝”、“温和拒绝”和“遵从”。
评分和奖励：
使用固定语言模型根据规则对模型响应进行评分，并将评分用于训练线性模型，以学习不同命题的权重。最终将 RBR 奖励与其他奖励信号结合，用于强化学习算法中。

RBR 的优势：

与人工反馈相比，RBR 能够以更低的成本和时间实现 comparable 的安全性能。
RBR 可以轻松更新，以适应新的安全策略和模型能力。
RBR 可以在不影响模型在其他任务上的性能的情况下，有效减少模型对安全请求的错误拒绝。

RBR 的局限性：

RBR 更适用于具有清晰规则的任务，对于主观性较强的任务（例如写作）可能不太适用。
将安全检查从人工转移到 AI 可能会降低人工监管力度，并可能放大模型中的潜在偏差。

来源：

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

英特尔承认其 13、14代 CPU 存在问题

英特尔承认，其部分第13代和第14代 CPU 存在电压过高问题，可能导致芯片性能不稳定甚至永久性损坏。受影响的 CPU 包括功耗65W及以上的酷睿i9、i7和部分i5型号。

英特尔计划在8月中旬发布微码更新来解决此问题，但该更新只能防止未来发生损坏，无法修复已经受损的 CPU。对于已经出现不稳定现象的用户，英特尔建议联系客服寻求帮助，但并未承诺延长保修期或召回产品。

此次事件可能会影响消费者对英特尔下一代 CPU 的购买意愿，使其在与 AMD 的竞争中处于不利地位。

来源：

https://www.yahoo.com/tech/intel-admits-damage-unstable-14th-101315720.html

更多内容请查阅 : blog-240730

关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

相关阅读

上一篇：
探索 Java 网络爬虫：Jsoup、HtmlUnit 与 WebMagic 的比较分析
下一篇：
Linux 安装 MySQL

广告一刻

为您即时展示最新活动产品广告消息，让您随时掌握产品活动新动态！

弹性云特惠专区

轻量云年度专区

裸金属物理服务器