新发布的OpenAI o1模型API支持函数调用、开发者消息、结构化输出和视觉处理能力,为构建智能应用提供更强大的基础。
实时API新增WebRTC集成,同时降低GPT-4o音频价格60%,推出GPT-4o mini,音频费用仅为之前的十分之一。
Preference Fine-Tuning技术让开发者轻松定制模型,满足个性化需求,同时优化用户体验与效率。
开发者可尝试全新Go与Java SDK,提升应用开发效率,为主流编程语言扩展支持。
全新OpenAI o1:赋能复杂任务的推理模型
OpenAI o1作为高级推理模型,专为处理复杂多步骤任务而设计。它是o1-preview的正式版本,已被用于优化供应链决策、预测金融趋势和改进客户支持等关键场景。
o1支持函数调用功能,可无缝连接外部数据与API。
结构化输出功能确保响应严格符合自定义JSON Schema,提供稳定可靠的交互体验。
开发者消息功能让用户可定义模型语气、风格和行为规范,提升个性化定制能力。o1还具备视觉推理能力,能够分析图像,在科学研究、制造和编程中提供更多应用可能。
相比o1-preview,o1减少了平均60%的推理令牌消耗,并新增reasoning_effort参数,允许开发者灵活控制模型思考时间。
最新快照o1-2024-12-17基于用户反馈优化模型行为,在函数调用与结构化输出测试中表现显著优于gpt-4o,同时也更新至ChatGPT。
o1已面向API使用5级用户逐步开放,未来将扩展更多使用级别和提高速率限制,提供更广泛的开发支持。开发文档现已上线,方便用户快速上手。
实时API升级:重塑实时交互体验
OpenAI实时API现支持WebRTC,简化跨平台实时语音产品开发。无论是浏览器应用、移动端、物联网设备还是服务器对接,WebRTC都能提供流畅的实时语音体验,具备音频编码、噪声抑制和拥堵控制等功能。
实时API新增两款快照模型:GPT-4o和GPT-4o mini。
GPT-4o提供改进的语音质量和可靠输入,音频令牌价格下降60%至$40/百万输入令牌,输出$80/百万。
GPT-4o mini则以更低成本实现同样丰富的语音功能,音频令牌价格仅$10/百万输入,输出$20/百万,文本令牌更低至$0.60/百万输入。
通过技术优化,缓存音频输入成本降低87.5%,仅为$2.50/百万输入令牌。文本和音频缓存均降至$0.30/百万令牌,使高频交互更具成本优势。
新增功能包括:
并发后台响应:可在语音交互不中断的情况下运行内容审核或分类任务。
自定义输入上下文:灵活选择对话片段作为模型输入,例如仅审核用户最后一句话。
响应时序控制:支持服务器端语音活动检测(VAD),允许在收集足够上下文后手动触发语音回复,确保更精准的响应。
实时API将会话最长时长从15分钟延长至30分钟,为复杂对话提供更充分的时间支持。
这些更新不仅提升了实时API的语音质量与成本效益,还为开发者提供了更大的灵活性和控制力,为语音助手、实时翻译和虚拟客服等场景注入更多可能性。
偏好微调:让模型更加个性化
偏好微调(Preference Fine-Tuning, PFT)是OpenAI最新推出的模型定制方法。通过直接偏好优化(DPO),它对比模型生成的成对响应,从中学习偏好差异。相比传统的监督微调,它尤其适用于需要创造力、语调或风格的主观任务,如写作或摘要生成。
偏好微调与监督微调的关键区别:
监督微调(SFT)依赖于明确的输入输出对,适合严格正确性任务,如代码格式化。
偏好微调则通过人类注释、A/B测试或合成数据生成偏好对,优化模型生成用户更喜欢的输出,减少不理想输出的可能性。
Rogo AI通过偏好微调改进其金融分析助手性能。例如,在处理类似“公司X的增长速度如何”这样复杂查询时,基础模型在75%的准确率基础上,通过PFT提升至80%以上,显著改善对超分布查询的理解能力。
偏好微调现已适用于gpt-4o-2024-08-06,并即将扩展至gpt-4o-mini-2024-07-18,与监督微调保持相同的训练令牌定价。此外,新一代模型将在明年早期获得支持,帮助更多用户实现个性化目标。
详细指南已发布,开发者可以在API文档中找到具体实施方法,快速定制出符合特定需求的模型。偏好微调的推出,为开发者带来了更精准、更贴合用户需求的优化途径。
Go与Java SDK测试版发布:支持更多语言开发者
OpenAI正式推出Go SDK测试版,为擅长处理并发和构建可扩展后端系统的开发者提供便利。Go语言的静态类型特性让其成为现代API开发的重要工具,SDK可轻松集成OpenAI模型功能。
Java作为企业级开发的经典语言,其完善的类型系统与开源生态深受开发者青睐。OpenAI Java SDK提供类型化的请求与响应对象,并配备管理API请求的实用工具,助力高效开发。
在已有Python、Node.js和.NET官方库基础上,新增的Go与Java SDK满足更多语言用户需求,进一步降低OpenAI API的接入门槛,推动多场景开发创新。
结语
OpenAI直播第9天的多项发布为开发者开拓了全新可能。无论是构建创新的语音应用、微调模型,还是开发具备自主能力的智能系统,这些工具都将助力突破技术边界。
开发者可立即开启实验,打造更多令人惊叹的AI应用。
如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!
参考:
https://openai.com/12-days/
https://openai.com/index/o1-and-new-tools-for-developers/
网友评论