当前位置:   article > 正文

heygen的前世今生_字节跳动 梁望

字节跳动 梁望

关于徐卓&梁望

徐卓本科毕业于同济大学,硕士毕业于卡内基梅隆大学计算机专业,之后在 Snap 工作了 6 年,是该司前100号员工,广告事业部 No.2 工程师,核心技术 Leader;曾在6 年间从 0 到 1 搭建 Snapchat 广告平台、推荐算法系统以及机器学习平台 Barista(百亿级数据), 并负责 AI Camera 的技术及产品研发。

期间在商业化,推荐算法,机器学习平台,以及公司产品中担任核心角色。尽管技术上的实力不俗,但徐卓认为市场需求才是第一位。由于在 Snap 工作期间就意识到跨境电商企业对广告中“替换人脸”需求,徐卓创立公司就把广告和电商行业作为首个落地场景。

另一位联创兼CPO为梁望,本科也来自同济大学,硕士毕业于CMU人机交互专业,曾任字节跳动北美设计Lead。带领企业级产品设计及创新产品项目探索;曾任 Smule 设计总监,负责千万级月活产品、跨国团队管理、开创内部方法论以及带领开拓视频、直播等业务,累计提升 UGC 总量超过 10 倍。

国内创业&诗云科技

刘慈欣的《三体》,为我们大胆描绘了宏伟壮阔的外星文明;他的另一部小说 《诗云》,却凸显着人类创造的力量:在诗仙李白的千古绝句前,外星文明的强大力量也难以匹敌,最终放弃侵略地球。

儿时,徐卓脑子里总是有各种奇思妙想,“但每次画出来后,(作品)跟电视上看到那些完全不一样。”由于技巧和材料的限制,大多数人的奇思妙想没有来得及付诸实现,就渐渐被淡忘。

现在,“诗云马良”作为诗云科技内容生成引擎的一部分,让梦想得以实现 :用户只需输入创意和内容,AI就像神笔马良的神奇画笔一样帮你呈现。

2020年底,诗云科技在深圳成立,愿景是用AI生成内容,即通过构建一套完整的内容生产系统,来革新内容创作过程,代替摄像头,让用户以更低成本完成内容创作。其核心技术是深度学习、生成对抗网络(GAN)、强化学习和3D建模。

第2年,诗云科技宣布获得数百万美元天使轮融资,投资方是红杉中国种子基金和真格基金。本轮融资主要用于技术研发、产品迭代和市场拓展。同年8月份,又拿到了数百美元的Pre-A轮融资
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

创业后,徐卓发现市场对3D内容如虚拟人、交互场景的需求和关注在迅速增长,许多客户都提出了对3D内容的需要。

2022年,由于国内市场不温不火,经营不善,徐卓团体打算放弃国内市场,转而国外市场,诗云科技服务器停止。

成立heygen

2022年底,徐卓团队沿用原班人马,远赴大洋对岸,在LA成立heygen公司。整个团队也只有约30人,分布在3个大陆、4个国家和6个城市,以远程办公进行。

在这里插入图片描述

Heygen 从 2022 年 7 月推出后用了 178 天就达到 100 万美元的 ARR,217 天达到“拉面盈利”状态。虽然官方没有披露最新数据,但从网站访问情况看,Heygen 在 9 月份的访问量同比暴增 92%,位居国内出海 AI 产品榜首位,相信营收数据应该也会大幅增加。

在这里插入图片描述

为什么原班人马在国内做和国外做产品,造成的结果如此迥异?

原因是多方面的,首先,人工智能的高地在美国,全球最顶尖的人才在美国,最先进的 AI 芯片也在美国。智涌时代在《AI 人才抢夺战:年初疯狂,年末彷徨》一文中就说得很明白,国内人工智能人才捉襟见肘,即便开出千万年薪也很难从美国挖来人才。为什么?很现实的问题,一个人好不容易在美国读书,留下工作,娶妻生子拿到美国绿卡,再回国内发展面临的诸多问题如何解决?在美国搞 AI 研究,芯片管够。在国内,四五百张 GPU 往往是一个项目组能够申请到的算力上限。

此外,方向不对,努力白费。国内做 SaaS 产品是个天坑。今年 7 月,一篇《中国市场不需要 SaaS》的文章刷屏。确实,当一个行业做了 8 年,全行业绝大部分玩家依然不赚钱,可能就是错付了。而且,国内用户白嫖成性,喜欢免费薅羊毛,对 SaaS 产品付费意识弱。梁望在接受媒体采访时也认为,“欧美地区对于 SaaS 的接受度、付费意愿和市场体量相比国内高很多。”

用为王道。创造一款产品,要有人用才有价值。Heygen 在推出前在 Fiverr 市场上测试了用户的反映,结果真的有人愿意付费使用,这证明产品方向没问题。一款产品实现从小部分人用到大规模采用,也需要一些小窍门。比如邀请新人获得积分,用户生成的视频里面打水印,增加品牌曝光度等。保持产品快速迭代也很重要,大多数互联网公司通常是每两周发布一次,Heygen 是每周发布一次。Bug 是不可避免的,但不是每个 Bug 都值得优化,团队要将精力用在紧急而重要的事情上。

在这里插入图片描述

技术原理

https://www.cifnews.com/article/151250

HeyGen背后的技术原理并不复杂。HeyGen中的文本翻译部分采用了GPT模型,语音转文字采用了whisper模型,声音克隆和新音频生成采用了so-vits-svc模型,最后的口型匹配采用了GeneFace++模型。通过整合优化这些开源模型,HeyGen才实现了当前流畅的一键中英文语音转换效果。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/930030
推荐阅读
相关标签
  

闽ICP备14008679号