告别“打断创作”!十方融海最新开源:VoiceStick,一个按键实现“按住说话,松开成文”的AI极简输入方案
作为内容创作者、程序员与重度办公人群,你是否在高效创作与深度工作中,常被这样一套固定流程反复打断思路?——打开语音输入法、切换状态栏、等待麦克风加载、说完后手动复制粘贴到目标位置。每一次操作切换,都在消耗专注力、破坏创作心流,让最自然的语音输入沦为效率瓶颈。
“AI正从对话交互向自主执行快速演进,而电脑端语音输入仍停留在繁琐、封闭、高摩擦的传统形态。”
“行业真正需要的,是兼顾极简体验、开放生态与数据自主的下一代输入方案,让语音回归最自然、最流畅的交互本质。”
基于这一前瞻判断,十方融海创始人、董事长黄冠带领团队正式推出VoiceStick——一款以单按键实现“按住说话,松开成文”的BLE便携语音输入开源方案,用纯粹的物理动作,彻底抹平“说话”到“成文”之间所有中间环节,重构人机输入体验。
一、从云端模型到指尖按键:打造AI能力的物理入口
VoiceStick的核心价值并非硬件本身,而是面向未来的AI能力物理入口。它基于通用开源硬件M5Stack StickS3开发,通过低功耗蓝牙(BLE)与电脑稳定连接。使用逻辑极简到极致:按住按键说话,松开按键,文字自动出现在当前光标位置。全程无需打开任何软件界面、无需切换输入法、无需手动粘贴,如同按下一枚“文字打印键”,把“语音→文本”的全流程压缩为一次直觉化物理操作。
黄冠表示,语音是人类最自然的输入方式,但PC端长期被复杂流程与层层入口拖累,体验笨重割裂。VoiceStick让AI能力从屏幕内走到手边,把技术藏在背后,只保留最纯粹的输入动作,只专注做好“说话转文字”一件事,并做到极致。
二、全链路技术开源:定义BLE语音输入开放标准
十方融海以高度技术自信,将VoiceStick全量开源,以MIT协议向全球开发者开放核心能力,树立开放、中立、可扩展的BLE语音输入标杆。
全链路技术透明音频由StickS3麦克风采集,经ES8311I2S采集16kHz/16bit/MonoPCM音频,采用高效Opus编码压缩,通过BLE GATT协议传输至macOS端或Windows,最终调用云端ASR实现识别与自动粘贴,全流程低延迟、高稳定。
开源范围完整开放ESP-IDF固件、macOS菜单栏应用、完整BLE GATT通信规范,目前Linux版本正在快速开发中,覆盖更多主流平台。
生态不绑定、高度自主,当前默认接入豆包语音大模型,同时支持开发者自由替换ASR后端,不锁定任何云服务商,真正把模型选择权、数据控制权交还给用户与开发者。
对创作者而言,VoiceStick可以带来零摩擦输入体验:在咖啡厅、工位、移动场景下,纽扣大小的设备随手可用,灵感脱口而出,文字同步落地文档,全程无干扰、无等待、无操作损耗。
三、回归本质:为什么要做一款“极简到极致”的输入方案?
市面上语音输入产品众多,VoiceStick的差异化清晰明确:
AI能力的物理入口,即拿即用:无需启动APP、不占界面、不切输入法,不打断心流,随手按下就开始输入。
完全开源,数据自主:不捆绑生态、不锁定平台,开发者可深度定制、二次开发,保障隐私与安全。
十方融海选择以开源方案推动普及,而非将其打造为商业化硬件产品。企业坚信:开源是最低成本的全球化分发路径,开发者即是传播者,社区能让技术以最灵活的方式持续进化,让极简AI输入方案真正走向大众。
四、时代基石:效率与安全双引擎布局
VoiceStick并非孤立项目,它与十方融海此前开源的TenBox安全沙盒,共同构成AI基础设施版图的效率+安全双引擎。
TenBox:AI Agent时代的“安全围栏”,解决配置风险、系统暴露、权限失控等问题,保障AI执行安全可控。
VoiceStick:AI Agent时代的“效率前哨”,以极简物理入口,重新定义AI输入范式。
两者协同,一边守护数据主权,一边释放创作与工作效率,为行业提供底层基础设施支撑。
这一战略布局,源于集团创始人、董事长黄冠对AI技术趋势的深度判断。在OpenClaw等工具快速普及阶段,他率先发现默认配置存在严重安全隐患,普通用户易因配置错误暴露系统漏洞,企业缺乏可靠隔离方案,随即推出TenBox填补安全空白。如今再以VoiceStick解决输入效率痛点,形成从安全到交互的完整底层支撑。
在“人工智能+”国家战略与数字中国建设背景下,AI普惠不仅需要强大模型,更需要安全基座与极简接口。十方融海以持续开源贡献,从安全与效率两端降低全社会AI使用门槛,为“十五五”数字经济发展提供可落地的硬件交互标准与安全运行方案,推动人机交互走向更直觉、更开放、更安全的未来。
五、即刻上手:成为AI极简交互第一批先行者
VoiceStick已正式开源,可快速搭建体验。
十方融海向全球开发者、技术爱好者、效率追求者发出邀请:以一枚按键,重新定义AI物理交互方式,让创作不再被流程打断,让技术真正服务于人。
拿起这枚键,定义下一代人机交互。
GitHub项目地址:github.com/78/voicestick

