
做个小工具用说话的方式让 Mac 执行操作。比如「帮我在 YouTube 搜个 Python 教程」,它会自己打开浏览器、找到搜索框、输入、点击,不用你一步步告诉它怎么做。 原理是让大模型看屏幕截图(默认是 OCR/还有一些其他模型支持),然后决定下一步操作。做错了会自己调整。
挂个链接: https://www.bilibili.com/video/BV1NVBbBDE5K/?vd_source=c91cfe290c1aabe743bd9b89791e23cf
1 zzboat0422 2 天前 请问这个语音文字互转是怎么实现的啊?有现成的框架吗? |
2 jorneyr 2 天前 @zzboat0422 非常多的 api 可以使用,例如微软的 Azure Speech Service ( Speech to Text ),然后匹配关键词,映射操作(可以使用 Apple Script 执行操作)。 |
3 prefect 2 天前 都别吵,影响到我用坚果 TNT 了 |
4 Mark24 2 天前 TNT 棺材板要压不住了 |