分享自己参加 Y Combinator 的创业产品 - AI 沉浸式翻译的视频会议平台 Pinch - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
cky951113
V2EX    分享创造

分享自己参加 Y Combinator 的创业产品 - AI 沉浸式翻译的视频会议平台 Pinch

  •  
      cky951113 2025 年 2 月 5 日 3189 次点击
    这是一个创建于 343 天前的主题,其中的信息可能已经有所发展或是发生改变。
    开工大吉,今天想和社区分享一个我们正在参加 YC25 年冬季孵化营的沉浸式翻译视频会议产品 https://startpinch.com

    --------------------------
    一句话介绍
    Pinch 是一个基于 AI 语音和视频生成技术,提供沉浸式翻译,支持 20+语言,能够让不同国家的人无需通过字幕进行跨语言交流的视频会议平台。

    --------------------------
    怎么用
    免费公测(完全白嫖),直接前往我们的网站 https://startpinch.com 就可以体验 “单人 demo+创建多人会议(目前 1v1 效果最佳)+分享链接给朋友”。
    时间紧迫,我们这次发布甚至没有加上 login wall 。非常感谢如果您愿意在体验后花上一分钟为我们撰写一些反馈!

    --------------------------
    背景 (为什么要做这个)
    我是一个有 3 年工作经验的 AI 研究员/工程师,在此之前,我和创业搭档一起在一家硅谷的 AI 初创公司领导一个跨国的 AI 团队。我们招聘了不少来自国内的优秀工程师,但是发现受限于大家的英语/韩语/汉语水平不同,团队沟通始终是一个挑战。
    在国际化远程工作越来越普遍的当下,我们相信全世界同样还有很多因为语言障碍限制而无法充分发挥专业才能的人,比如工程师,外贸销售,特定领域的咨询(法律,移民,医疗,教育,新闻等等)

    我们希望为自己的团队和其他类似的朋友打造一个可以跨语言实时沟通的视频会议产品。

    --------------------------
    内容(我们做出来了什么)
    在开源视频通信方案基础上,我们自建了一套视频会议系统。所有参会者在云端都拥有一个专属的语音翻译 agent ,调用 AI 语音工作栈,实现低延迟的跨语言翻译和 TTS 合成。通过前端和语音翻译 agent 的通信,把说话人的语音和视频进行二次同步,确保接收端在 1-3s 内能够听到/看到说话人经过 agent 翻译后的音视频。


    --------------------------
    无偿交流/在线 coffe chat (欢迎私聊我的小红书/领英)
    如果你对创业感兴趣;
    如果你也有一个“Make something people want”的 idea ;
    如果你打算尝试通过创业孵化营的形式开始你的创业,包括硅谷的 YC ,Plug and Play ,HF0 / 国内的奇绩创坛等等;

    欢迎私聊,可以内推:)
    我的小红书 ID:626049781
    我的领英 Profile: https://www.linkedin.com/in/keyu-chen-3a3026143
    25 条回复    2025-06-22 15:55:36 +08:00
    cky951113
        1
    cky951113  
    OP
       2025 年 2 月 5 日
    demo 链接 ->
    vishun
        2
    vishun  
       2025 年 2 月 5 日
    感觉挺厉害的。
    还要选择要转换的目标语言吗?如果有多个不同国家的,例如,中、英、俄,我选择转换成英文,那俄罗斯同样听不懂啊,我还以为是根据参会者所选自己的语言来自动都转换呢。
    clhcowboy
        3
    clhcowboy  
       2025 年 2 月 5 日 via iPhone
    体验超棒
    cky951113
        4
    cky951113  
    OP
       2025 年 2 月 5 日
    @vishun 感谢!目前还是需要参会者自己指定原语言和目标语言的,所以 1v1 效果更佳。 我们正在做多人/多语言会议的方案,主要的难点是要解决多个 agent 的性能和进程冲突问题。 理想情况下,下一个版本,用户只需要指定“我想说什么语言”以及“我想听什么语言”就行了。
    lawted
        5
    lawted  
       2025 年 2 月 5 日
    很有意思,但是介绍视频上没体现有多实时的样子
    R4rvZ6agNVWr56V0
        6
    R4rvZ6agNVWr56V0  
       2025 年 2 月 5 日
    有点意思
    BeijingBaby
        7
    BeijingBaby  
       2025 年 2 月 5 日
    这个体验、场景来看都很不错。
    类似那种即时对话翻译器,这个用户会议场景感觉挺棒的。
    gpt5
        8
    gpt5  
       2025 年 2 月 5 日
    有一个大问题:对公司来说,更换视频会议平台的迁移成本太高了。
    cky951113
        9
    cky951113  
    OP
       2025 年 2 月 5 日
    @gpt5 非常对,我们产品的商业计划不是和现有的视频会议平台竞争( Zoom, Google Meet, Microsoft Meet, 腾讯会议)。事实上,我们产品的目标人群正是那些无法通过现有视频会议方案达到需求(语音翻译,沉浸沟通)的人群,所以理论上这些人/公司不需要迁移。
    当然,我们把虚拟摄像头(或者浏览器插件)也列入我们接下来的工作计划中了。不过从技术角度而言,由于各个平台的接口开放程度不一样,为了实现最优的延迟和音视频同步,自建平台的体验依然是最优的。
    AmoreLee
        10
    AmoreLee  
       2025 年 2 月 5 日 via iPhone
    看起来不错,或许以后可以直接用说话人本身的音色?
    cky951113
        11
    cky951113  
    OP
       2025 年 2 月 5 日
    @AmoreLee 是的!下一步是添加个性化音色,然后是端到端音频翻译模型(可以保留说话人的语气和咳嗽笑声这类信息)
    javaluo
        12
    javaluo  
       2025 年 2 月 5 日
    感觉不错,不过这种很容易被大厂竞争? 比如 Google meeting 之类的
    可以考虑看看从哪一个细分场景切入,把这里面的体验和问题做好增强壁垒,可以在有风险的时候保住基本盘
    Donaldo
        13
    Donaldo  
       2025 年 2 月 5 日
    这个需求相当有力,但我还是觉得做成插件会好一些,不过现在的大型平台是不是没有提供插件接口?或许虚拟 mic 和 cam 是个思路,希望有后续!
    DICK23
        14
    DICK23  
       2025 年 2 月 5 日
    遇到 connection error ,设备已经授权了
    xmsz
        15
    xmsz  
       2025 年 2 月 5 日
    我在国内,一直有个疑问,就是对于像 lz 这样的产品为什么可以存在?

    比如解决会议实时翻译的需求,这个对于现有的会议软件如 Zoom/飞书来说就是一个很简单的功能
    飞书已经有了,zoom 现在没有未来也会有

    一但这些会议软件有个这个功能,那不就算创业失败了?

    除非在 AI 翻译的能力和调教上有一定研究,否则不过是一个排期+一个程序员一个下午的活而已

    所以,我一直很好奇,像这样「短期功能性」的产品为什么会去做?

    是不是有别的原因?比如是用来磨练能力?技术?团队?还是说真的可以有不错的解决方案,然后大公司愿意直接买断?
    cky951113
        16
    cky951113  
    OP
       2025 年 2 月 5 日
    @DICK23 您好,刚刚检查了服务端应该还是正常的,您本地有使用了外置媒体设备吗(比如麦克风,摄像头)?
    cky951113
        17
    cky951113  
    OP
       2025 年 2 月 5 日   1
    @xmsz 感谢提问! 您提到的 zoom 和飞书已经有翻译功能了,其实是基于文本字幕的实时翻译,我们希望能替代字幕翻译,这对视频沟通的沉浸感会有很大帮助。

    其次,为什么我们要做这样一件好像大厂很容易就可以复制的事情?

    我觉得首先,如果一个产品有潜在价值(意味着有人需要),那就一定需要有人先做出来,一般情况下这个先行者都不是大厂。其次,至于大厂是否会跟上,我们是否会被吞噬,我觉得这是市场化竞争,包括用户体验,商业模式,迭代速度等等因素决定的。

    当下市面上的大厂产品,在雏形期也都或多或少面临同样的问题,比如 为什么有了 Webex 还要做 Zoom ,为什么有了 MySpace 还要做 Facebook ,为什么有了 Facebook 还要做 Twitter ?

    再次感谢您的提问,非常理解您的质疑,短期功能性的产品注定是失败的,所以我们的产品也不会止步于此。
    NeedforV2
        18
    NeedforV2  
       2025 年 2 月 5 日
    这个挺不错的,关注一下
    lldld
        19
    lldld  
       2025 年 2 月 6 日
    为什么不先做视频的语音翻译呢? 这个需求更大.
    实时做的不错的话, 可以做直播的实时语音翻译, 游戏直播, 体育直播, 想象一个主播可以直接多个几个语言的频道.
    xmsz
        20
    xmsz  
       2025 年 2 月 6 日
    @cky951113 感谢回复
    我看了下飞书现在只有人工的同声传译,ai 的不确定有没有在搞。其他厂商比如腾讯讯飞百度已经有展示相关 AI 同声传译功能
    不过 AI 的同声传译以及视频人物的口型合确实可以增加很强的沉浸感和增加跨国沟通效率,支持


    ----

    因为我在国内创业小团队,我经历的就是

    如果只是功能性的增强,其实大厂早有规划,但是会让市场其他小团队先发布,然后根据市场情况再决定要不要做,相当于帮大厂免费市场测试了,不仅是测试需求是不是合理,还帮他们测试现在市场时机合不合适


    如果是一些小众新奇产品或者老套路轮回(割新韭菜)产品,可能刚上线成功没多久,大厂就复刻了一个一模一样的


    我们也做过很多爆款小产品,但是不管什么情况,结果都一样,就是我们被挤出市场。
    市场竞争靠广告投流,用户体验根本打不过大厂,商业模式大家都差不多,迭代速度也一定比大厂快(因为国内大厂内部也是敏捷小团队),偶尔有几个幸运儿在大厂看不到的角落里能苟活(如果你看到某些产品又丑又难用但是却很成功也不用惊讶)


    当然我知道这种情况可能在哪都一样,但是我想知道在国外的市场有没有存在一些不同?有没有什么解决的办法?
    我们今年也要跟着国内洪流涌到 AI 和跨境领域了
    cky951113
        21
    cky951113  
    OP
       2025 年 2 月 6 日   1
    @xmsz 认同你对国内市场的感受。我的工作经历也是从国内的大厂和初创开始的,我就简单粗暴一点分成 (ToB, ToC) x (国内,国外) 谈谈我的感受哈

    国内 ToB 是经典的 SaaS 困局,目前看来又要变成大模型的 ToB 困局了。我想你提到小众产品,割韭菜产品,爆款小产品应该都是 ToC 类的,我也不太看好在国内做受众比较广泛的 ToC 应用。本质上字节就是一个 ToC 的超级应用工厂,腾讯阿里又是超级流量平台,有点像流量或者创意类产品的黑洞,小团队的成果总会被吸进去。破局之路要么是只做某个超级细分的受众群体(生意不能做大),要么是抓紧做自己的流量平台。

    国外的 ToB 和 ToC 恰好是反过来的,ToB 对于初创公司而言是一个更好的切入点。因为整个商业体系是建立在众多的 ToB 技术供应链之上的,所以初创公司只要融入进去(找到 PMF ),那么就不太容易被链路上的其他节点给覆盖。ToB 体系只有大节点和小节点之分,没有一键全包的解决平台。举个例子,Salesforce 作为 ToB 大厂,对于生态链上的其他节点公司开放程度是很高的,其他初创很容易就可以接入 Salesforce 的工具链里,然后跟 Salesforce 一起挣 b 端客户的钱。

    国外 ToC 也是一个比较困难的品类,不过经过国内地狱模式锻炼之后,出海做创意产品机会还是挺大的,但是我个人看法是出去了就不要停留在国内的“娱乐(应用)-> 社交 -> 流量平台”这个思路上了,这两年华人小团队做得比较成功的其实最后大多都转型做生产力应用了,ToC 做好营销之后最终还是在 ToB 挣到大钱,当然 tiktok/lemon8 这种就另当别论了
    gavin6liu
        22
    gavin6liu  
       2025 年 2 月 7 日
    如果把实时性做好,感觉非常不错呢
    lawted
        23
    lawted  
       2025 年 2 月 7 日
    @xmsz
    @cky951113 同意 op 的说法,如果能够把实时性做好,等到大厂反应过来时,可能 op 公司又在硬件上有所拓展了
    cleverstronger
        24
    cleverstronger  
       2025 年 2 月 8 日
    试了一下,发现实时性做的还蛮好的,很好奇如何在调用大模型的情况下还能做到如此实时,我的产品是 Neonlingo:划词翻译+沉浸式学习,加了您的小红书,期待交流!我的微信:clever_stronger
    imaxwell
        25
    imaxwell  
       2025 年 6 月 22 日
    非常牛的想法和厉害的实现,顶 op~
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2934 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 15:00 PVG 23:00 LAX 07:00 JFK 10:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86