光年之外最近在做什么?
曲凯:应该很多人都会好奇光年之外最近都在做些什么?
Hidecloud:最近我们发布了一个AI驱动的儿童绘画产品,叫Dodoboo,将小朋友的几笔涂鸦自动优化成一张比较精美的图画,激发孩子的创造力和自信心。
我们在这件事上做了一些小的创新。市面上已有的涂鸦增强产品,大部分是需要你先写一个prompt再画画。但我们的目标人群是5~10岁的小朋友,让他们写prompt其实是不现实的,所以我们是让他直接动笔画就行了,不需要事先想自己要画什么。这样的话,在同类产品中我们表现还不错。
曲凯:这类产品,它给用户的那个点是什么?
Hidecloud:这个很有意思,我们的产品是做涂鸦增强的,我们本来认为涂鸦本身就是ahamoment。后来工程师想到一个idea,他说除了这边画画,那边AI出图之外,是不是也应该支持把AI生成的图再拖过来,进行二次创作?
后来他自己就把这个功能给做了。实际做出来之后,我们发现了一些新的嗨点。
把生成的图拖过来,基于生成的图又生成了一张新的,再拖过来再生成新的,你会发现那个画越变越美,细节越变越多,纹理越变越好,整个过程我们自己就能玩得特别嗨。
所以那个时候我意识到一件事:以前我们可能会觉得对于大模型应用,都是人给它一个prompt,但这个prompt是否一定要来自于用户?我觉得是不一定的。
像我自己去年七八月份,看了很多产品之后,我当时有个判断:我很难想象两三年之后有一款大规模流行的AIC端产品,它的主流使用场景是用户拿着手机在那打字。因为打字是非常消耗人精力的事,成本太高了。
所以当时我在想,我一定要做低prompt甚至0prompt的产品。像刚才我描述的那个场景,把一张图拖过去再生成下一张图,这就是一个几乎0prompt的过程,但它给你带来的娱乐体验是非常有意思的。
曲凯:我觉得你刚才讲的这个场景就是非常产品经理的一个点,因为从技术上来看,完全可以做到不用拖,它就自己去不断地生成。
Hidecloud:这里面有两个感悟。
一个是在交互这件事上。其实有时候像这样一些人机交互的机会是藏在代码里的,比如在工程上,其实非常好实现“自动迭代10轮”。但我们发现,当把这个过程展开,让人参与进来的时候,这个过程本身就是具备消费价值的。
这其实就非常需要产品和工程之间有紧密的结合,你要理解整个的运作过程,你才能知道这其中哪一部分是可以抽离出来的,哪一部分是人可以以适当的方式参与进去的。这其中会有很多值得挖掘的点。
还有一个点在于,像我刚才描述的那个场景,从一张草稿变为一张精美的画作,对我来说消费的是过程,但对于我身边的同事来说,他们欣赏的是内容本身。
所以,AIGC里,G(Generate)和C(Content)都是具备消费价值的。我觉得最终不一定是每个人都来G,有可能是少部分人来G,而绝大部分人是来消费C的。只不过我们需要思考怎样用一个合适的形式,让用户参与进来,不管消费的是最终的产物,还是过程本身。
今年toB、toC都会有现象级的产品出来了
曲凯:做了半年多的AI产品,现在的你对于AI的理解和之前有哪些区别?
Hidecloud:行业内一直有一种说法,闭源模型永远会领先开源模型。但从我们自己的实践来看,最近半年,整个开源社区的进展是异常的夸张。每个星期都像过年一样。整个学术界和产业界对于开源社区的贡献,已经超过了我在半年前我对我所能够利用的AI能力的想象。
当然你也可以说这不算什么,闭源的某公司拥有更强大的模型能力,但我觉得sowhat?如果现有的开源社区已经提供了足够好用的模型能力,我为什么还一定要追求最强大的呢?
曲凯:我理解你的意思是,现在的各种开源模型、开源算法,其实相当于产品经理的弹药库。有的人有原子弹,但也无所谓,平时也用不上,只要够用就足够了。所以目前你的弹药库里大概都有哪些东西?
Hidecloud:比如先从我们最熟悉的语言模型开始说起。
从整个开源社区的角度来看,有两个比较主流的方向,一个是Llama2,另一个是Mistral。市场上绝大部分fine-tuned的版本都是基于它们两个做的。
另外,在视觉语言模型方面,开源社区里也有非常多好用的。
比如LLaVA,它是基于Llama的视觉语言模型,可以用它做一些图片描述。现在只要给它一张图,它便能够给出非常detail的图片描述,我有时候甚至都没能注意到这个图上居然还有这个细节,这在半年前都是想都不敢想的技术。
图像方面的话,在StableDiffusion生态里,有两个我觉得是去年比较重要的工作。一个是ControlNet,另一个是去年年底的LCM(LatentConsistencyModel)技术,它核心解决的是效率的问题。
以前就算你有4090的卡,跑一张图也得至少10秒,但是有LCM之后,它可以把出图的时间直接压缩到毫秒级别。
像以前的一些图像生成场景,可能需要二十几秒的延迟。但谁能想到半年的时间,就已经可以做到毫秒级出图,这在产品中的想象空间就变大了很多。
视频和声音方面,像Pika、ElevenLabs这种最顶尖的商业产品,它们的大部分模型能力,都能在开源社区中找到对应的方案。当然这其中可能需要一些界面上的包装、模型间的微调。
曲凯:但既然弹药库里已经有这么多武器了,也能更低成本、更高质量地完成了,为什么在过去半年里,我们没有看到更多像妙鸭这样的爆款应用出来?
Hidecloud:这个问题非常有意思。
我觉得这一波AI,不光是要站在用户需求和商业视角上做产品,更多是要去理解模型的能力边界。我很buyin王小川提过的一个观点:上一代产品经理解决的是PMF,即产品和市场的fit,这一代产品经理还要先解决TPF,即产品和技术的fit。
我上周末做了一个AI行业的分享,分享的对象是行业里一帮顶尖的,彼此认识了快10年的产品人。说实话我的分享只是一些很基础的,关于stablediffusion底层原理的认识,但即使是这样,对于这批顶尖的产品同学来说,大家仍然会觉得这是很崭新的认知。
所以我自己有一个很大的感受是,绝大部分人,只是保持了一种兴奋、震惊,但真的去理解整个学术界和工业界进展的同学,是非常少的。AI火了一年了,但是你看有多少人真的入行搞AI了?至于真的去理解每个月的技术进展,最新模型的能力边界、原理的人,就更少了。
所以我觉得这也是为什么过去半年,没有出来那么多新东西的原因。
曲凯:他们是没有去理解最底层的这些技术,还是他们没有及时读paper去理解最新的技术?
Hidecloud:都有。
曲凯:为什么是产品经理要来读这些东西?因为像以前这些技术问题似乎都交给CTO去做就好了。
Hidecloud:现在的产品大都比较薄。我自己对现在产品的定义是modelasaproduct,即model本身的输入和输出,决定了产品整体的交互。
当然我们不排除未来AINative的产品会越做越深,model在其中的占比会越来越低。但至少在当下,模型能力还和变戏法一样,它本身对用户来说就已经很新鲜、很有价值了,那这个时候产品经理如果不能去理解模型的能力边界的话,你就很难去把它和用户需求连接起来。
我见过有的团队,尤其是在大厂里,产品、技术和模型分三家,然后他们三家就仿佛在隔空对话,产品也不知道模型能做什么,技术也不知道产品这边到底想满足什么样的用户需求。
曲凯:这是不是也能解释,为什么现在很多很好的产品是小团队做出来的?
Hidecloud:对,产研之间的配合需要非常紧密。
曲凯:我理解肯定是有相当大比例的人存在这些问题,不管是组织结构跟不上,还是他日常的学习习惯跟不上。但肯定也还是有一小撮人是很优秀的,但他们目前也没有deliver出什么成果。你觉得其它的一些阻碍是什么?
Hidecloud:还有一个阻碍点在于,现在的互联网已经不是20年前的互联网了。消费者不管是在效率方面的需求,还是娱乐方面的需求,都更深了。你要去竞争的是抖音,是Office。那现在的modelasaproduct本身还太浅了,没法儿立刻满足这些复杂的用户需求。
曲凯:有道理,Albert(拒绝三亿美金offer的人|42章经)之前也跟我提过,他探索AI游戏的时候,也会问自己一个问题:为什么大家不去玩王者荣耀?
Hidecloud:简单来说,如果抖音是100分,那我们现在有10个AI产品在竞争,最低分30分,最高分50分,你竞争过了所有人,也竞争不过抖音。
曲凯:虽然整体的体验是30分,但有没有可能有一个点,我就是为了它而来,这个点可能在某一个维度上达到了100分?
Hidecloud:这对某些人群来说是成立的。
比如我一直在trackC.AI的付费率,我发现有一个非常稳定的人群,这半年以来,这个人群的续费率始终保持在94%。
但核心的问题在于这个人群的规模有限,很难破圈。如果要找一个更通用的点,目前这个行业还没有找到。
但现在的AI产品也冒出了一些好的苗头,像我两个前同事做的产品,一个是Answer.AI,一个出海教育产品,另一个是AiPPT,这俩产品的粘性都非常好,如果去细究产品,你会发现它不是单纯的modelasaproduct,它里面有很多其它的设计。
曲凯:我觉得现在的产品处于两个极端。
一种是90%的model,10%的传统功能,这一类大家就会觉得很薄,更多是一个玩法,可能突然火一下,就消失了。另一种像你举的AiPPT,我觉得是反过来的,它可能90%是旧有的东西,只有10%用到了AI。
但大家期待的似乎是比较偏中间的那种,一半的模型,一半的产品,这样又有一些神奇的能力,又不会显得太薄。
Hidecloud:我个人不太喜欢在这种事情上下定义。
从历史上看,产品的形态往往是由行业演进而来的,并不是规划出来的。并不是我们说最好是一半一半就一定是一半一半,它是被市场教育、被用户牵引,最后形成了一个情况。很难说什么是最好的。
曲凯:对,但这里涉及到一些问题,我想先问下你,你认为未来的大模型产品是否是端到端分离的?公司是不是一定要自己有模型、训模型?
Hidecloud:这个问题我最近有一些相对成型的想法了。
我不认为现在所有做应用的团队,一定要从零开始pre-train一个模型,但我认为团队一定要具备操纵模型的能力。
操纵模型是指,你能根据业务需求,用不同的数据重新引导这个模型,不管是通过fine-tuning还是LoRA,还是做模型的裁剪、蒸馏,你要具备这些能力。
曲凯:对,回到刚才的问题,如果是模型能力很重要的话,那就是模型能力强的人有更好的产品表现。像现在那几个大模型公司拿了这么多钱,它们可以随便招几个人做个产品矩阵。
另外一种情况是,如果是模型占比不高的话,那就是传统的大企业+AI是更有效的。
所以这两条线是大家比较buyin的,要么是传统大公司+AI,要么是赌模型,在模型公司里面做应用,但在中间,创业公司做产品到底能做成什么样子,以及最后是否会像移动互联网一样,能把所有东西都重做一遍,这可能是大家还不那么确定的。
从你的角度看,你相信未来所有东西都能被重做一遍吗?
Hidecloud:你看移动互联网的时候,大家一开始想到的都是,我去做一个移动的Google、移动的淘宝,但最后发现,移动的Google、移动的淘宝,都是它们自己做出来的,并没有被另外一个公司取代。
真正起来的东西是抖音、是小红书,这些都是PC时代没有的。
所以我觉得这一波AI,不一定什么东西都要重新做一遍。会有很多场景,随着AI本身渗透率提高,能慢慢涌现出一些之前从没出现过的需求。
曲凯:你们内部在试的过程中,有发现什么类似的新需求吗?
Hidecloud:很难说,但让我去bet的话,在两三年左右的时间里,我非常看好类似C.AI的情感陪伴类的场景。
原因是我做了一些相关的实验,然后我突然意识到了一件事情,人类的情感太容易被hack了!
我当时用GPT-4V模型做了一个很简单的demo:它会读取你手机中最近的几张照片,并输出为图片描述,然后将图片描述发送给另外一些我用GPT做的agents,这些agents是各种人设,比如我的朋友、我的粉丝,这些agents看到我的图片描述之后,会像评论朋友圈那样给我留言。
后来我觉得光夸我也没意思,就又做了几个黑我的,以及几个进一步帮我辩护,帮我回怼的。
你想,整个过程,想法是我的想法,agents的人设是我写的,整体pipeline是我搭的,我是一个全知全能的上帝视角,理论上我对于它们输出的内容是有心理预期的,我不应该会被它们所影响。但当我第一次运行这整个workflow的时候,我看到这些agents在下面有的夸我、有的黑我、有的维护我的时候,我的内心真的被扯动了。
我之前也会看一些经典的心理学实验,看的时候觉得不可思议:怎么人类的情绪就那么容易被操控了呢,但当我自己亲身经历完,当时那一下我就觉得,人类的情感太容易被hack了。
你想,如果是一个普通用户,他无法知道这背后的原理,他甚至会觉得这是真的。
所以我相信基于AI的情感陪伴一定是一个非常大的机会,人太容易对一个东西产生情感依赖了。
曲凯:你们这几个月在摸索的过程中,感觉现在AI产品核心遇到的几个问题是什么?
Hidecloud:成本是蛮大的问题。以前做互联网创业,尤其是近几年,工程层面的开销,几乎在整体成本当中可以忽略不计了,但AI产品不一样。
曲凯:这是不是最大的一个区别啊?因为我们也在聊一些团队,大家总在好奇为什么看不到产品,但很多时候是,他们也做出demo了,但不敢放,因为放出来可能马上就烧光了。
Hidecloud:对对对,所以做AI产品,dayone就得收费。
曲凯:今天的成本和半年前或者一年前相比,大概下降了多少?
Hidecloud:图像领域相比半年前,大概降了10倍。
但仍然不够。因为虽然成本在下降,但需求在增加,生成的要求也变高了。可能在半年前,聊10句出一张图就满足了,但现在是希望用户能一边聊天,旁边还有个图像同时在动。
曲凯:回到刚才谈到的成本问题是主要问题,还有其它的吗?
Hidecloud:其它的我觉得就是实际的模型能力进展,再给半年时间应该差不多了。
像语言模型,按现在的需求来看已经是完全够用了。只不过在用语言模型的方式上,大家可能需要开阔下思路,比如不一定是单语言模型,可能是不同任务拆到一些不同等级的模型上,或者有时候同一个query可以是多个模型配合参与。
现在,语言模型和视觉语言模型我觉得都ready了,多模态模型可能还需要3~6个月的时间成熟,到时候可能也会再涌现出一些新的产品。
曲凯:所以按你的预期,今年我们是能看到一些新产品的?
Hidecloud:对,我还比较有信心。不管是toB还是toC,今年应该都会有一些现象级的产品出来了。
曲凯:因为你也会跟很多同行交流嘛,你自己是偏乐观还是偏悲观的?
Hidecloud:我是短期偏谨慎吧,中长期乐观。
曲凯:你这谨慎派也已经很乐观了,那我们今年可以好好期待一下。
产品经理该如何学AI?
曲凯:你之前做的那个产品经理的分享中,还有没有哪些核心的点是可以给大家总结下的?
Hidecloud:我大概讲了3个方面。
第一个方面是关于StableDiffusion的底层原理。而且我发现,在你理解了原理之后,对于产品形态也会产生很多不一样的认知和想法。
比如我有提到一个点,当你把StableDiffusion的底层原理理解透之后,其实你会发现,它是一个从完全没有信息意义、完全随机的噪点中,通过不断地降噪,从而提取出有信息意义的图像的过程。
也就是说,假设有一个xy轴的平面空间代表了全世界所有的概念,StableDiffusion从中随机取一个点就能还原出一个图像。
这让我想起我以前做推荐算法的那个时候,其实我们在刻画用户画像上已经能做得很精准了,都不用是大厂,一个普通公司,只要有足够的数据,就能把用户刻画得足够好。
现在最棘手的是,当我圈出了用户所有的喜好,但我试图在内容库中去做匹配时,却没有足够多适合的内容推荐给他。
因为内容的供给目前是非常稀疏的。首先它不精准,其次它的供给有限,第一个是最靠近的,后面就越靠越远。
但当你理解透了StableDiffusion的底层原理,你再回过头来想这件事,你会发现未来充满想象——我无需在内容库中预先备好内容,我只要描绘出来你喜欢什么,之后在你喜欢的那个空间里,我就能给他提供一个人一辈子所能消耗的无限的内容供给。因为空间是可以无限展开的,其中的每一个微小的点都能被StableDiffusion还原成一张图像、一段视频,或者是任何你喜欢的形式。
如果你不理解它的底层原理,那你是没有办法去重新思考搜索、推荐,以及上一代我们所做的东西的。所以理解技术原理非常重要。
第二和第三个方面都是关于产品经理应该怎么学AI的,核心就两个点:坚持读paper和自己多动手。
读paper还是非常重要的。AI还处在很早期的发展阶段,我当时总结过StableDiffusion的发展历史,整个时间线看下来也就只有3年的时间,所以基本上就是那八九篇经典的paper。全部读完然后串在一起,整个原理你就了解了。
可能再过5~10年,当很多事情变成常识了以后,懂不懂原理区别不大。但在当下来说,读paper是能带来极大的信息增量的。
曲凯:你读是精读吗?
Hidecloud:我会把paper分成两大类。
一类是范式型创新,另一类是雕花型创新。雕花型的我一般就快读,只看其中的亮点,看它在雕什么花,通过什么方法、提升了什么点,范式型创新我都是会细读的。
我现在一天基本上读两三篇左右。如果看到一篇论文有很多亮点,就很有那种精神上的爽感。
读paper还有一个好处,它真的能帮你在产品设计和技术改造上带来直接的收益。
比如上次我读到的一篇,它里面提到了六七个不同的优化点,我一看,靠,这个点我们可以直接拿来用,那个点我们也可以拿来用。其实paper并没有那么神秘,里面的很多优化点也并不都是算法上的,而就是传统互联网产品工程上的一些优化设计,怎么做扩展、怎么用空间换时间、内存换速度等。
第三个方面是一定要自己多动手。
就算你完全不会写代码,像HuggingFace上的demo、paper里的demo、GitHub里的小项目,很多也都是可以直接体验的,你就尽可能都去体验一遍。
体验分为很多种,最简单的就是在本机上跑demo。要么就是你Windows本机有个Nvidia显卡,要么你在Mac上面,比如你只要是M系列的芯片,然后有个32G的内存,绝大部分的模型都能跑得起来,7B、13B的版本是完全没问题的。
这种实际的动手体验其实是找感觉的一部分,因为当你只是去看别人的讲解、公众号的文章,你自己是没有那种很实际的体感的。
我记得我第一次在本地把大语言模型跑起来的时候,跑起来的那一下,就是你看到自己的这个电脑开始吐字的时候,那种感受非常不一样的。
曲凯:HelloWorld的那种感觉?
Hidecloud:对,非常震撼,会刺激你产生非常多对产品的想象。
另外如果你稍微具备一点点代码能力,你就可以多去做一些小实验,去满足一些自己的想法。整个过程你能get到其实模型的运营并没有想象中那么简单,但中间的很多环节,都是有潜在的产品机会的。
比如我在调配模型的时候,突然发现这个模型出来的结果很有趣,但普通用户不能直接用,因为这中间涉及到非常多的数据预处理环节。比如给用户做声音克隆,中间有七八步的声音预处理,那普通用户根本用不了。但这就是产品机会,你可以帮他把数据预处理环节压缩成一个训练过程,直接给用户deliver最终的结果。
如果你没有自己去实际体验,首先你感受不到最终结果出来的那奇妙的一刻,其次你也根本不知道要做的和最终的结果之间有哪些步骤、哪些障碍。
所以多体验demo、多build,培养的是你整体的认知,以及让你去思考在产品、工程上还有哪些机会。
AI行业还是太早期了,你做一点微小的工作,都能给你带来非常大的回报,ROI很高的。
AI时代,产品与技术的配合会发生哪些变化?
曲凯:AI时代的产品经理,跟技术侧到底该怎么合作?
Hidecloud:像我们在研究文生图的时候,就发现了一个新的产研配合范式。
在StableDiffusion生态里有两个非常出名的WebUI,一个是AUTOMATIC1111,另一个是ComfyUI。我主要在用ComfyUI工作。它可以简单理解为由大量的node节点组成的workflow。它的input可以是一段文字,也可以是一张图,output通常是一张图,所以只需要根据需求搭建出workflow,便可将其直接导出为API。
这就和之前的开发方式截然不同。
以前的开发方式是产品经理先大致梳理出业务流程和预期结果,再和负责模型、算法的工程师去沟通,但这在AI时代是非常不现实的。
首先因为技术本身更新太快,其次在生产过程中有很多参数和细节是需要去调整的。所以如果还是按以前的开发方式,产品经理和工程师之间backandforth的沟通就太长了。
但现在有了ComfyUI,我可以自己改config,比如这个效果不好,我可以立马改个参数重新跑,这个反馈基本上是实时的。
以前做偏后端的业务逻辑功能的产品经理,过度依赖于后端公司去实现,而现在可能就是通过搭建一个workflow,一个pipeline,就解决了。
曲凯:所以你觉得以后产研配合会变成什么样子?
Hidecloud:以前的产品经理之所以依赖工程师,是因为有很多业务逻辑必须通过代码语言去实现。而现在来看,至少可以通过某些工具,将自然语言直接转变为workflow的形式。
甚至,未来大模型可以直接把自然语言转变成业务逻辑的抽象表达,可能是一些可视化的pipeline,也可能是另外一种标记型的语言。
所以以后的业务逻辑部分,可能会完全由PM和运营自己搞定,工程团队会更关注如何做并发、做性能、做扩展等更后端的工作。
曲凯:现在有人说AI时代一定得是懂技术的产品经理,你怎么看?
Hidecloud:我觉得这是一个阶段性的机会。在这两年时间里,很多bestpractice还没有变成行业常识,你比别人先理解它,你就有优势。但也许两三年之后,所有这些都变成常识了,那到时候也许也不一定非要懂技术。
曲凯:招聘上呢,你们大概喜欢招什么样的人?
Hidecloud:很难说,因为样本太小了,所以现在是聊到合适的就ok。
但大体上首先要对AI有热情,跟你聊到一些常见的AI产品,你得用过,有一些对这些产品的观察和思考。
不过即便是这点要求,在面试过程中我们发现也很难达到。像我们用Perplexity,ChatGPT等,不管是在promptengineering还是在提问的形式上,都能总结出很多小技巧。但在面试中,我会发现大家的整个体验深度还是非常浅的。比如我就问一下你有没有创建过自己的GPTs,可能10个人我能刷掉9个,大家还是不太愿意动手,只喜欢看别人输出,但你自己一动手,那个信息量比你看10篇文章都大。
曲凯:最后,allinAI了大半年,现在感受怎么样?仍然觉得是塞班之后最大的机会吗?
Hidecloud:我现在其实信心更足,这个确实没有看错,真的就是移动互联网之后的第二次大机会。