OpenAI直播第9天,OPENAI o1模型API、实时API优化、偏好微调、Java SDK

chatgpt2024-12-18 18:03:18131

在第9天的直播中，OpenAI推出o1的API，以及多项重要更新，展示更强大的模型和工具，提升性能与灵活性。这次发布聚焦开发者体验，涵盖模型定制、实时API优化等方面。

新发布的OpenAI o1模型API支持函数调用、开发者消息、结构化输出和视觉处理能力，为构建智能应用提供更强大的基础。

实时API新增WebRTC集成，同时降低GPT-4o音频价格60%，推出GPT-4o mini，音频费用仅为之前的十分之一。

Preference Fine-Tuning技术让开发者轻松定制模型，满足个性化需求，同时优化用户体验与效率。

开发者可尝试全新Go与Java SDK，提升应用开发效率，为主流编程语言扩展支持。

全新OpenAI o1：赋能复杂任务的推理模型

OpenAI o1作为高级推理模型，专为处理复杂多步骤任务而设计。它是o1-preview的正式版本，已被用于优化供应链决策、预测金融趋势和改进客户支持等关键场景。

o1支持函数调用功能，可无缝连接外部数据与API。

结构化输出功能确保响应严格符合自定义JSON Schema，提供稳定可靠的交互体验。

开发者消息功能让用户可定义模型语气、风格和行为规范，提升个性化定制能力。o1还具备视觉推理能力，能够分析图像，在科学研究、制造和编程中提供更多应用可能。

相比o1-preview，o1减少了平均60%的推理令牌消耗，并新增reasoning_effort参数，允许开发者灵活控制模型思考时间。

最新快照o1-2024-12-17基于用户反馈优化模型行为，在函数调用与结构化输出测试中表现显著优于gpt-4o，同时也更新至ChatGPT。

o1已面向API使用5级用户逐步开放，未来将扩展更多使用级别和提高速率限制，提供更广泛的开发支持。开发文档现已上线，方便用户快速上手。

实时API升级：重塑实时交互体验

OpenAI实时API现支持WebRTC，简化跨平台实时语音产品开发。无论是浏览器应用、移动端、物联网设备还是服务器对接，WebRTC都能提供流畅的实时语音体验，具备音频编码、噪声抑制和拥堵控制等功能。

实时API新增两款快照模型：GPT-4o和GPT-4o mini。

GPT-4o提供改进的语音质量和可靠输入，音频令牌价格下降60%至$40/百万输入令牌，输出$80/百万。

GPT-4o mini则以更低成本实现同样丰富的语音功能，音频令牌价格仅$10/百万输入，输出$20/百万，文本令牌更低至$0.60/百万输入。

通过技术优化，缓存音频输入成本降低87.5%，仅为$2.50/百万输入令牌。文本和音频缓存均降至$0.30/百万令牌，使高频交互更具成本优势。

新增功能包括：

并发后台响应：可在语音交互不中断的情况下运行内容审核或分类任务。

自定义输入上下文：灵活选择对话片段作为模型输入，例如仅审核用户最后一句话。

响应时序控制：支持服务器端语音活动检测（VAD），允许在收集足够上下文后手动触发语音回复，确保更精准的响应。

实时API将会话最长时长从15分钟延长至30分钟，为复杂对话提供更充分的时间支持。

这些更新不仅提升了实时API的语音质量与成本效益，还为开发者提供了更大的灵活性和控制力，为语音助手、实时翻译和虚拟客服等场景注入更多可能性。

偏好微调：让模型更加个性化

偏好微调（Preference Fine-Tuning, PFT）是OpenAI最新推出的模型定制方法。通过直接偏好优化（DPO），它对比模型生成的成对响应，从中学习偏好差异。相比传统的监督微调，它尤其适用于需要创造力、语调或风格的主观任务，如写作或摘要生成。

偏好微调与监督微调的关键区别：

监督微调（SFT）依赖于明确的输入输出对，适合严格正确性任务，如代码格式化。

偏好微调则通过人类注释、A/B测试或合成数据生成偏好对，优化模型生成用户更喜欢的输出，减少不理想输出的可能性。

Rogo AI通过偏好微调改进其金融分析助手性能。例如，在处理类似“公司X的增长速度如何”这样复杂查询时，基础模型在75%的准确率基础上，通过PFT提升至80%以上，显著改善对超分布查询的理解能力。

偏好微调现已适用于gpt-4o-2024-08-06，并即将扩展至gpt-4o-mini-2024-07-18，与监督微调保持相同的训练令牌定价。此外，新一代模型将在明年早期获得支持，帮助更多用户实现个性化目标。

详细指南已发布，开发者可以在API文档中找到具体实施方法，快速定制出符合特定需求的模型。偏好微调的推出，为开发者带来了更精准、更贴合用户需求的优化途径。

Go与Java SDK测试版发布：支持更多语言开发者

OpenAI正式推出Go SDK测试版，为擅长处理并发和构建可扩展后端系统的开发者提供便利。Go语言的静态类型特性让其成为现代API开发的重要工具，SDK可轻松集成OpenAI模型功能。

Java作为企业级开发的经典语言，其完善的类型系统与开源生态深受开发者青睐。OpenAI Java SDK提供类型化的请求与响应对象，并配备管理API请求的实用工具，助力高效开发。

在已有Python、Node.js和.NET官方库基础上，新增的Go与Java SDK满足更多语言用户需求，进一步降低OpenAI API的接入门槛，推动多场景开发创新。

结语

OpenAI直播第9天的多项发布为开发者开拓了全新可能。无论是构建创新的语音应用、微调模型，还是开发具备自主能力的智能系统，这些工具都将助力突破技术边界。

开发者可立即开启实验，打造更多令人惊叹的AI应用。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！

参考：

https://openai.com/12-days/

https://openai.com/index/o1-and-new-tools-for-developers/

本文链接：https://openai-o1.cc/chatgpt/541.html

OPENAI o1 GPT-4o mini OpenAI o1 api

OpenAI’s o1 Model--一个需要深思熟虑的模型

OpenAI直播第9天,OPENAI o1模型API、实时API优化、偏好微调、Java SDK

相关文章

OpenAI’s o1 Model--一个需要深思熟虑的模型

OpenAI o1为何让其他AI感到担心

OpenAI o1：使用限额提高，o1 模型深度解析

【一手测评】OpenAI 震撼发布 o1 大模型！

为什么说 OpenAI o1是自Transformer以来最大的更新？

网友评论