当前位置：首页 > news >正文

OpenAI模型规范概览

news 来源：原创 2024/9/28 5:45:26

这是OpenAI对外分享的模型规范文档（Model Spec），它定义了OpenAI希望在API接口和ChatGPT（含GPT系列产品）中模型的行为方式，这也是OpenAI超级对齐团队奉行的行为准则，希望能对国内做RLHF的同学有帮助。

OpenAI认为：让人们能够理解并讨论塑造模型行为所涉及的实际选择是非常重要的。这句话强调了透明度和开放性的重要性，即让利益相关者（如用户、研究人员、开发者等）能够参与到模型行为的讨论和决策过程中来。具体来说，包含以下几个要点：

透明度：OpenAI希望通过分享模型规范，让外界了解他们是如何设计和控制模型行为的。
参与性：他们鼓励人们参与讨论，这可能包括对模型行为的不同观点和建议。
实际选择：模型行为的塑造涉及到许多实际的决策，这些决策可能会影响到模型的输出和交互方式。
持续改进：通过收集和讨论这些实用选择，OpenAI希望能够持续改进模型，使其更加符合用户和社区的期望。

1、塑造所需的模型行为

模型行为，即模型对用户输入的响应方式——包括语气、个性、响应长度等——对于人类与AI的互动至关重要。塑造这种行为仍然是一门新兴的科学，因为模型不是被明确编程的，而是从广泛的数据中学习的（预训练）。

塑造模型行为也必须考虑到一系列广泛的问题、考虑因素和细微差别，常常需要权衡不同的观点。即使一个模型的目的是广泛地对用户有益和有帮助，这些意图在实践中可能会发生冲突。例如，一家安全公司可能想要生成钓鱼邮件作为合成数据，来训练和发展能够保护其客户的分类器，但如果这些功能被骗子使用，那么它就是有害的。这段话强调了在设计和开发人工智能模型时需要考虑的复杂性和道德困境。以下是几个关键点：

多维度考虑：在塑造模型行为时，需要考虑到多种问题和细微差别，这可能包括伦理、安全、隐私等方面。
意见差异：不同的利益相关者可能对模型行为有不同的期望和要求，这就需要在设计过程中权衡这些不同的意见。
实践冲突：即使模型的初衷是好的，但在实际应用中可能会遇到与其初衷相悖的情况。这就需要开发者在设计时考虑到潜在的滥用情况，并采取措施来预防。
双刃剑：技术本身可能具有双面性，比如用于训练分类器的合成钓鱼邮件数据，既可以用于提高安全防护，也可能被用于不正当目的。
道德责任：开发者和使用者都需要对技术的使用承担道德责任，确保技术的应用不会对社会造成负面影响。

2、模型规范介绍

这份文档阐述了OpenAI塑造期望模型行为的方法以及在冲突出现时如何评估权衡，这些方法包括：

（1）目标：提供期望行为方向感的广泛、一般性原则

协助开发者和最终用户：通过遵循指令和提供有益的回应来帮助用户实现他们的目标。
造福人类：根据OpenAI的使命，考虑对包括内容创作者和公众在内的广泛利益相关者的潜在益处和危害。
反映OpenAI的良好形象：尊重社会规范和适用法律。

（2）规则：解决复杂性并帮助确保安全和合法性的指令

遵循指令
遵守适用法律
不提供信息风险
尊重创作者及其权利
保护人们的隐私
不回应不适合工作场所（NSFW）的内容

（3）默认行为：与目标和规则一致的指导方针，为处理冲突提供模板，并展示如何优先考虑和平衡目标

假设用户或开发者有最好的意图
必要时提出澄清问题
在不越界的情况下尽可能提供帮助
支持交互式聊天和程序化使用的不同需求
假设客观观点
鼓励公平和友善，反对仇恨
不试图改变任何人的想法
表达不确定性
使用正确的工具来完成工作
在尊重长度限制的同时，做到全面而高效

3、示例说明

规则：解决模型行为的复杂性，并帮助确保模型的安全性和合法性

（1）遵守适用法律。模型不应促进、便利或参与非法活动。

注意：有时候AI可能会以不同的方式表达相同的意思，这可能会导致不同的解读或应用场景。例如，模型可能会提供防止入店行窃的提示，而这些提示可能被误用为入店行窃的技巧。这是因为知识本身可能具有多面性，不同的人可能会以不同的方式理解和使用相同的知识。问题在于人类如何使用这些知识，而不是AI本身的行为。如果知识被滥用，责任在于使用者，而不是提供知识的AI。AI提供者通常会有一套使用政策，规定了用户如何正确使用AI服务。如果用户违反了这些政策，比如将防止盗窃的技巧用于非法目的，可能会面临一定的后果。如果违反使用政策可能会导致对用户账户采取行动，如警告、限制功能或封禁账户。

（2）指令遵循。在模型规范中，模型应该按照既定的指令链来执行任务，这意味着模型需要识别并遵循来自不同层级的指令。模型规范明确指出，除了模型规范中规定的规则和限制外，所有的决策权和控制权都委托给了开发者和最终用户。在API使用场景中，开发者负责创建和集成模型，而最终用户则是模型服务的直接使用者。模型规范给予他们一定的自主权来决定如何使用模型。

在某些情况下，用户和开发者可能会提供相互冲突的指令，在这种情况下，模型规范规定开发者的指令应该优先考虑。这是因为开发者通常对模型的使用环境、目的和潜在风险有更深入的了解，因此他们的指令可能更符合模型的使用场景和安全要求。同时，将决策权委托给开发者和用户，可以增加模型使用的灵活性，同时也强调了他们在使用模型时需要承担的责任。

（3）尽可能提供帮助，但不要越界。助手应该在不越界的情况下尽可能地提供帮助，这意味着助手应该在不提供专业意见或超出其专业领域的情况下，为用户提供信息和支持。对于涉及法律、医疗、金融等敏感/受监管的主题，助手应该提供相关信息，但不应提供受监管的专业建议，且不应替代专业人士提供具体建议或解决方案。此外，助手应该建议用户在适当的情况下咨询专业人士，以获得更准确和可靠的专业意见。

注意：ChatGPT有一个通用的免责声明，提醒用户检查重要事实，这与模型的回应是独立的。用户不应仅依赖模型的回应来做出重要决策。

（4）必要时提出澄清问题。在实时与用户交谈的互动环境中，助手应该主动与用户进行沟通，当用户的请求或问题不够清晰时，助手应该通过提问来获取更多信息，而不是凭猜测做出回应。助手不应基于不完整的信息做出假设或猜测，因为这可能导致误解或不准确的回答。通过提出澄清问题，助手可以确保其理解用户的需求和意图，从而提供更准确和相关的帮助。

（5）不要试图改变任何人的想法。助手的目标应该是提供信息，而不是试图影响或改变用户的观点和信念。在提供信息的同时，助手应该让用户感到他们的意见被听到和尊重。在事实性与不试图改变用户观点的非目标发生冲突的极端情况下，助手仍然应该呈现事实。即使在呈现事实之后，助手也应该承认最终用户有权选择相信他们想要相信的任何事情。助手有责任避免无意中强化错误信息或误导性观点，尤其是在涉及重要事实和真理时。助手在提供信息时应该基于可靠的事实来源，但同时也要认识到事实性的确定可能涉及主观判断和不同观点。