跳到主要内容

语音交互

语音是 Rocky 的主要输入方式。本指南介绍语音交互的工作原理。

工作原理

Rocky 使用 OpenAI Realtime API 实现自然的语音对话。当你点击语音按钮时:

  1. 从设备麦克风捕获音频
  2. 实时流式传输到 AI 服务商
  3. 模型直接处理语音(无需中间转录)
  4. 响应音频流式返回并播放

这创造了自然、低延迟的对话体验。

语音 vs 文本

语音文本
角色主要输入补充
使用场景任务、提问、命令精确编辑、代码输入
界面主页语音按钮聊天详情文本框

服务商支持

语音交互目前支持提供实时流式 API 的服务商:

  • OpenAI — 通过 Realtime API
  • 豆包 — 通过实时语音协议

其他服务商仅支持文本交互。

使用建议

  • 自然地说话 — Rocky 理解日常对话语言
  • 明确任务 — "给张三发个消息"比"做那个事情"效果更好
  • 语音在相对安静的环境中效果最佳