语音交互
语音是 Rocky 的主要输入方式。本指南介绍语音交互的工作原理。
工作原理
Rocky 使用 OpenAI Realtime API 实现自然的语音对话。当你点击语音按钮时:
- 从设备麦克风捕获音频
- 实时流式传输到 AI 服务商
- 模型直接处理语音(无需中间转录)
- 响应音频流式返回并播放
这创造了自然、低延迟的对话体验。
语音 vs 文本
| 语音 | 文本 | |
|---|---|---|
| 角色 | 主要输入 | 补充 |
| 使用场景 | 任务、提问、命令 | 精确编辑、代码输入 |
| 界面 | 主页语音按钮 | 聊天详情文本框 |
服务商支持
语音交互目前支持提供实时流式 API 的服务商:
- OpenAI — 通过 Realtime API
- 豆包 — 通过实时语音协议
其他服务商仅支持文本交互。
使用建议
- 自然地说话 — Rocky 理解日常对话语言
- 明确任务 — "给张三发个消息"比"做那个事情"效果更好
- 语音在相对安静的环境中效果最佳