在线咨询
0086-416-7873535
官方微信
官方微信
蚂蚁纪纲x峰瑞李丰:AI硬件创业若何穿越「数据
来源:william威廉中文官网
发布时间:2025-12-07 21:18
 

  11月下旬,OpenAI正在智能硬件赛道传来新动静:首席施行官萨姆·奥尔特曼正在艾默生集团发布的一段对话视频中提到,io公司已完成首批硬件原型机。io由苹果公司前首席设想师乔纳森·艾夫创立,大要半年前,OpenAI以65亿美元收购了这家努力于从头定义人取计较机交互体例的公司。“这个世界值得具有更好的工具。”奥尔特曼说。毫无疑问,奥尔特曼取艾夫联手打制超越iPhone的下一代智能终端,为愈演愈烈的AI硬件狂欢添了一把火。然而,放眼全球,智能硬件的下一个“iPhone时辰”似乎还相当遥远,为什么很多我们等候的将来还没有如期而至?不久前,正在蚂蚁集团投资部、峰瑞本钱取蚂上创业营结合举办的AI硬件专场勾当中,丰叔取蚂蚁集团副总裁纪纲进行了一场深度对话,氛围轻松,却也火花四溅(纪纲笑称“抬杠”)。AI硬件的“iPhone时辰”到底卡正在哪儿,缺算法仍是缺数据?若是说缺数据,之前支持互联网超等App、大模子、智能驾驶等行业成长的数据都是怎样来的?智能硬件要成为普及度高的消费品,该优先升级手艺仍是满脚用户需求,换句话说,先做“黑科技”仍是先做“好产物”?我们拾掇了对话的部门内容,但愿为关心AI硬件赛道的从业者带来一种思虑角度,供大师参考。也等候取更多的立异者同业,欢送你取我们联系()你感觉智能硬件要成为普及度高的消费品,是先做“黑科技”仍是先做“好产物”?欢送你正在评论区和我们聊聊你的见地。截止至2025年12月10日17!00,留言最走心的2位读者将获得《国度合作劣势》一书。纪纲:第一个问题想就教丰叔,我们若何定义AI时代的智能硬件?雷同智能马桶这种带点儿智能的硬件产物曾经存正在良多年了,AI时代的智能硬件有什么分歧?李丰:这是出格好的问题。我常用日本的例子来注释当下中国的财产阶段,二和后,20世纪七八十年代,日本赶上了从电子管到晶体管的手艺升级。日本做的工作是操纵其时控制的先辈晶体管和集成电手艺,把很多能改的机械产物都改成了电子化产物,好比机械表(上海牌)变成了电子表(卡西欧),保守的机械钢琴变成了电子琴(雅马哈)。但正在其时,因为芯片和传感器远没今天这么发财,日本企业只能做到“电子化”,还做不到“数字化”。打个例如,放正在今天就是能够把燃油车改成新能源车,却做不到加拆毫米波雷达、激光雷达,来实现从动泊车等智能驾驶功能。一是靠这类工具打开了全球市场,虽然一度被诟病为产能过剩。本来买得起钢琴的人就那么多,电子化之后,产量升高,就显得供过于求了。二是这句话的,他们看似输出了过多的产能,实则是把单价打下来之后,使得这个产物的普及率正在10年后大幅提拔。正在我父母成婚的年代,上海牌手表是嫁奁。到了我上初中后半期的时候,很多像我如许家里是教员的小伴侣,也能戴一块5块钱或10块钱的电子表了。回到你问的这个问题。我正在内部说尽量多投契器人,然后一年以前,我说多投智能硬件,缘由正在于中国和昔时日本的环境有点类似。第二,中国用了七八年时间,特别是2018年美国制裁华为、中兴这些事务之后的六七年时间,完美了芯片、传感器相关财产链。当然也包罗一部门计较芯片财产链。第三,虽然今天大师都说消费降级,但中国做为全球第二大的实体消费商品市场,畅通效率是全世界最高的。第四,我们这里被称做“内卷的市场”,办理学上给出的定义是如许的:通过合作快速达到饱和的市场。一旦有个立异,大师敏捷就普及开来。这四件事倒逼企业做很是多的标的目的不确定的立异。其实办理学也有提到,内卷是国度立异第一个阶段的必然成果。本来正在仿照立异的阶段,你晓得要去哪儿,晓得要学谁,要做成什么样,只是勤奋做得更廉价。现正在我们曾经到了下一步不晓得要做什么的阶段。所以,一个方式是把这几个你能用到的机遇从头连一遍,连出一条新线,可能有的是对的,有的是错的。内卷有坏处,好比影响研发成本投入,但也催生了极其多零星的立异。这些零星的立异操纵了本来的财产链横向和纵向的布局,就构成了我们今天会商的这个关于智能硬件的话题的焦点。回看80年代的日本,也有一个快速增加、企业内卷的国内市场,以及完整的财产链和制制链,并赶上了一次电子器件的升级,他们更快地控制了更好的手艺。这几件事的叠加促使他们能把机械的改成电子的。今天我们不只能够把电子的改成数字化和智能化的,还能够把本来不电子的,好比说吉他,也改成电子的。然后正在这个根本上,从正在国内“内卷”成长到出海“外卷”,最终做到世界领先。纪刚:我想继续诘问一下,国内市场的需求增加、财产链的完整,是过去二三十年的堆集渐变的过程,不是这一刻发生的。可是我们看到智能硬件的迸发其实正在这两年更凸起。为什么前几年财产链曾经相对完整的环境下,这个机遇没出来?我本人察看到的,第一类是AI-native带来数据增量体例的变化(如AI Pin),但数量不多。第二类是适合做AI载体的硬件,好比数字化的眼镜、AI陪同类的硬件。可是这类硬件又很容易被归到保守的玩具大类里。第三类就是出海的硬件。若是从投资的视角来看,这三类的估值系统是完全纷歧样的。对于AI驱动的硬件,你需要教育消费者去认知这个产物,虽然它现正在销量小,但将来无机会获得大幅的市场增加,可能拿到一个高估值;消费品这一端,特别出海的消费品可能拼的就是供应链和营销渠道。李丰:合适这些要素的,我们城市看。可是我感觉做投资比力疾苦的一点是,你能推导出来该当有什么特质,可是你推不出来有这些特质的工具最初长出来是什么样、是谁。所以合适50%或70%以上这些特质的,我们城市考虑投。李丰:我想反问下,为什么正在过去的半年,大师不像前两年那么关心和提及大模子本身的变化了?为什么一年半以前,所有人都提到的scaling law(缩放定律)——这个被大模子带火的词,也不太被提及了?纪刚:我不晓得本人是不是回覆这个问题的最佳人选,稍微多说两句。国内大模子兴起时,我们投了Kimi、智谱,后来也投了一些多模态公司,还一曲正在找使用类公司。其时是有一个认知,感觉大模子不必然是个使用,它可能更像一个升级的搜刮引擎。由于大师交互的习惯仍是输入框的形式。不久前,OpenAI开辟者大会披露的数据很成心思:它的产物周活用户虽然达到了8亿。但用户日均利用时长只要十几分钟,这意味着可能只比保守搜刮引擎略长一点。正在用户认知里,它仍然是一个“更好用的搜刮引擎”。此外,开辟者大会上OpenAI发布的三个产物,我感觉除了逃求AGI(通过用人工智能)的底层手艺,更展示了OpenAI的贸易大志。第一个是Apps SDK,给所有曾经做好的工具供给框架,闪开发者反馈消息;第二个是AgentKit,所有没有处理的问题,创业者和开辟者能够正在我的框架内来开辟和处理;第三是Codex,不只能写代码,还能现场处理长尾问题,处理不了的话,我就现场给你写一个,效率很高。他把所有的用户需求正在他的框架里处理之后呢?瞻望一下两年后,假如OpenAI能成长成一个日活用户达到8亿,用户日均利用时长达2小时的产物,那用户天然会从消费者的角度沉提大模子。用户提到的也许不是大模子本身,而是他们所用的这些产物。到那时OpenAI会具有什么?是所有的用户入口,以及用户对各类产物的同一回忆。回过甚来说,为什么投资人比来不谈大模子了?由于大模子的合作曾经进入了深水区。它的前进曾经不怎样正在消费者端。这个智能领先的程度其实曾经正在一个较高的程度线上,但不像晚期“伶俐100倍”那么显性,所以良多人可能曾经感触感染不到了。李丰:还有一个缘由,是没有更高级此外、公开可用的分歧类此外数据了,大模子很难再沿统一条前进。李丰:你我都投了很是多的分歧标的目的的具身智能机械人。从投资行业来看,两年半以前,大师热捧大模子;一年以前,国内起头热的是具身智能机械人,美国则偏热Agent,拿大模子来做各类各样的数字化使用。现正在,不管是Agent仍是机械人,热度都稍微降了一些。为什么这两个标的目的现正在都降温了?纪刚:听起来像个坑,我测验考试先跳一下。简直我们投了一些具身智能的项目,之前投了8个,比来可能再投2个,但也就是这个数量级了。我感觉这个泡沫比力严沉,有些公司估值一年涨了5倍,但没有太多本色性进展。那我再问两个问题,第一,现正在能拿出来演示、让人面前一亮的人形机械人,所展现的标的目的次要表现了什么能力?第二,大师本来认为他们该当有下一步的进展却没有如期实现。是什么障碍了这个进展?纪刚:我先回覆第二个问题,很难想象一个行业从根本的算法到数据采集,以至到本体的手艺线都没有的环境下,就间接走到财产成熟了。这是不成能的事。我感觉今天这些问题若是不逐渐处理,机械人这个财产是很难走到下一步的。可是反过来说,就像2015-2016年从动驾驶草创公司可能有200多家,今天跑出来了几家,可是遭到手艺、律例等要素的影响,仍逗留正在L2+,还没有实正占到财产的大盈利。你说最初会不会走到从动驾驶?必然会的。机械人也是一样,今天,太多问题没有处理,阶段性的泡沫是有的。可是,也许15年后,当然15年不必然精确,机械人财产会是比电动车加从动驾驶更大的财产,全球所有中产家庭每家估量城市有一两台,这件事简直定性是很强的。再回覆你的第一个问题,就是到底正在演示什么?我感觉次要是本体的活动能力,以至说仍是部门本体的活动能力。今天良多演示视频是加了倍速的,但手艺演进的方针是让机械人的活动速度接近于人。这一步可能不是几年内能处理的。可能我比力悲不雅。李丰:没有。是的,出名公司演示的都偏纯粹的活动能力。你想一想,不管是跳舞、翻跟头、踢腿仍是踢脚球,满是活动能力。什么能力没有被演示出来呢?就是人的其他能力,好比说操做能力。对于怎样处理操做能力的问题,给了分歧的谜底。有的人认为我把大模子挪过来做大脑就能够处理,有人说我用更多的视觉数据来泛化锻炼上肢就能处理。我相信这个必然有感化,可是最初的鲁棒性和精准度可能有挑和。人的大脑常复杂的,打个例如,假设你是个极其忠实的脚球迷,看了无数角逐,对所有的手艺动做、裁判法则都洞若不雅火,你上场踢球能不克不及达到半职业程度?我想必定没戏,否则我早就是羽毛球冠军选手了。回忆一下,我们之所以有狂言语模子,是由于互联网文本堆集了好几十年。这些数据加算力,再加算法前进,才有了今天的狂言语模子。机械人的活动能力是由于从工业机械人起头,就正在一个上拼命做活动节制,按什么角度来操做,双臂若何协同,加上电机的前进和节制,也堆集了三四十年,然后中国正在2013年就是全世界工业机械人第一大市场。回过甚来,今天我们要做操做的时候,你得要物理模子、数据、人取交互的度的数据,而这些数据目前是缺失的。这和从动驾驶已经面对的窘境雷同,2015年前后大师就说从动驾驶很快会普及。10年前,大师就认为该当是L4了,但10年过去了,国标也才答应宣传到L3。从动驾驶需要什么?需要数据,需要把整个车的形态数字化。它是什么样的驾驶情况?此刻是什么速度?正在哪条车道上?四周车辆的情况是什么?驾驶员的情况是什么?这些能做数字化的时间还不算太长,然后正在这个根本上迭代,才走到今天仍需人类接管的智能驾驶阶段。那么,我的问题是,支持狂言语模子成长和机械人活动能力的数据,以及催生了从动驾驶L2、L3的这些数据,到底是从哪儿来的呢?谜底是,靠普及化的新传感器到了消费者手里,有脚够多的人帮手把它变成了数据。简单来讲,正在文本上是由于有PC、键盘、鼠标,让你把思维里的文字变成了互联网上的文本。正在从动驾驶范畴,由于有特斯拉如许的企业,正在消费级的车上拆很是多的摄像头、毫米波雷达,然后中国制车新跟进,更多类型的传感器“上车“了,才堆集了这么多可用于从动驾驶的数据,大师正在这个根本上才做到了今天的L2。人形机械人能有今天的活动能力,跟我们正在工业机械人范畴持久堆集的场景经验取产线实践、节制算法和电机手艺相关,正在这个根本上,再引入今天的locomotion(机械人正在局部中的活动节制)加先辈算法。为什么会有抖音?一个不克不及轻忽的缘由是智妙手机把高清摄像头这个传感器普及了。为什么会有外卖和打车App?是由于GPS这个传感器普及了。为什么会有微信?由于他们把麦克风阵列这种能做高清语音识此外工具普及。消费者是不会为了买传感器来买传感器的,他买的是一个产物,只是这个产物凑巧拆了传感器之后,它就天然地把消费者的需求转成了数据。然后正在消费者级的传感器普及之后,你才有了这些可用的数据。正在这个根本上做算法和算力,才获得了最初的手艺前进。而现正在,机械人要取物理世界交互,Agent要处置各类问题,多模态大模子要生成更多类型的视频和图片,这些都需要海量数据——不是文本和图片类数据,而是人的情感、人的言语、人的体征、物理的情况、人和的互动变化等无限度的数据。我们需要海量带了传感器的新消费硬件,来收集大量的我们想要的数据。基于此,算法和模子才能迈出下一步,进化出将来的科技。纪刚:我这抬杠的心又起来了,这里的关系可能能够再会商一下。就像美国登月,并非等所有手艺成熟、空间坐建好才启动,而是先登月,再反向带动各类手艺成长。背后现含的话题是,若是我们把具身智能看做起点,智能硬件、传感器、数据采集确实会带动我们这个起点。我也部门同意要把两头的数据/硬件补上,但这未必是一个严酷按挨次发生的过程,并不障碍我们正在没完全补齐之前,就起头奔向具身智能。也许反过来说,是正在奔向这个方针的过程中,带动了财产脚够的成长,外溢了良多手艺,导致我们今天的智能硬件获得了更好的成长。李丰:下一个话题是“怎样定义新产物”。前面我们从国度和财产链的层面讲了,也从数据的层面讲了,其实还能够从投资的周期性上来看。手艺投资凡是是如许,第一波先投手艺变化本身(如大模子),第二波投手艺最有想象力的使用(如Agent、机械人),但它们往往落地难度极大,泡沫也大,第三波才轮到既能用上科技,又能证明需求,最好还能赔本的使用。好动静是即将起头轮到第三波了。那么,正在有科技进展的时候,怎样去找它正在消费端的使用?这里面最大的挑和也是投资人经常判断错误的问题:到底是按照手艺的进展找一个最适配手艺的产物,仍是从消费者需求端找一个比他今天用的更先辈的手艺产物?这是永久的争议。今天我们到底正在最AI的层面定义一个用户产物,仍是正在最切近用户需求的层面用AI来提拔产物能力和体验?大师都晓得丰叔是影石Insta360很晚期的投资人,它走的是偏后一条线,把一个本来用得不太好的场景/不太好的产物做得更好。反过来说,比它稍微早些年创业的大疆,则是开创了一个新的品类。假设我们回到10多年前,这两家,丰叔只能投一个,你会怎样选?李丰:其实它们两个的逻辑是分歧的。创始人都是有计较机、软件相关布景的人,都有算法基因。大疆次要靠飞控手艺,用中国制制业财产链把军用级的工具降半格,给到Professional(专业利用者)来用,再降维做成消费级无人机;影石Insta360靠图像拼接手艺,连系财产链做成了全景摄像机,先卖给有GoPro利用习惯的极客消费者,再普及给公共。它们做的工作和昔时日本公司把钢琴改成电子琴是很像的,就是用中国的财产链能力加上阿谁时候的软件能力,把一个本来的专业品降了半格,正在海外市场获得承认。正在这个根本上,它们成立了赔本的正轮回,然后跟着中国用户消费能力的提拔和消费市场的成长,它们又往下降了半格去了半专业级,后来又继续降格到公共消费级,变成公共消费品。纪刚:若是如许说,眼镜本来可不是一个Professional的工具,它是每小我都能够戴的刚需品,功能也比力单一——帮大师看得更清晰。今天有创业者正在野分歧的标的目的做智能眼镜产物,然而算力、续航等各方面的问题还没有可以或许处理。也有一类产物走了另一条,选择,好比不正在最好的第一视角上采集,变成一个挂正在胸前的。视角差一点,画质差一点,可是把续航的问题处理了,把最后的采集需求处理了。残剩8个小时,好比我们的对话场景,用保守方式采集数据的门槛还常高的。能不克不及有一种设备,雷同Plaud这种,能够很轻松地记实谈话过程。不只记实,大概它还能帮我阐发你的脸色和动做。我和同事切磋的时候,把这个工具定义为“人生”,好比面试的时候,透过设备我看到面试官的脸色,我正在想这类设备会不会成为下一代支流的采集和交互设备?最终的大boss是眼镜吗?李丰:起首我同意眼镜必定是最终的一类大设备,但适才有提到一句话是消费者不会为了买传感器来买一个产物,他买个产物必然是为领会决需求的。所以说,你不要从数据层面定义需求,你能够从需求层面定义产物,获得数据。这句话听起来很拗口,简单来说,你不克不及由于我们缺这些数据,就假定能够有一个采集设备,一旦普及了,就能够拿到最多的数据,然后靠卖数据挣钱。这听起来是个很夸姣的故事,但不是消费者的逻辑。就像良多人都说我要做下一个iPhone,像乔布斯一样去定义一个消费者级产物。可是苹果手机前面先有了iPod,正在iPod和iPhone之间还有黑莓和Palm,之后才有了iPhone。说起来,iPod之前还有MP3,大师先养成了用MP3听音乐的习惯,此外,苹果手机也是到了第三代,你才起头认为它是个好手机。这些可能很难跳步,即便是乔布斯。所以说眼镜最终是个成果,最终它会出“iPhone”,可是今天是不是曾经到了卖“iPhone”的时候呢?我估量分歧的人有分歧的谜底。李丰:简单来讲,要否则你能取到度的人体数据或度的数据,要否则你靠视觉取到多种场景、形态、情感的数据。一边是从传感器来的,一边是从镜头来的,这是两个维度。其次,最好能端上有芯片,如许的话端云能够连系起来做算力,当然也有挑和,尺寸、体积、成本等问题。由于要取的是新数据,所以没有设备能一上来就是AI-native,比力合理的是先操纵需求来做数字化。就像特斯拉一样,先拆传感器,之后把用户开车的习惯、形态、线、日常平凡走的况和四周的全数数字化。正在此根本上,用端云连系的体例做智能化。什么是智能化?就让这件事再往下变成个性化。想正在第一步就做AI个性化,能够说是做不到的。由于是新维度、新、新需求、新场景,你缺数据。一上来就AI化,可能是有些投资情面愿买单的故事,不是消费者能的故事。最初就是找交集,中国有财产链的能力,有大的消费市场,也有充实的市场所作,你能够正在里边找。找到了交集不消焦急迭代,先把消费者的需求满脚好。拿摄像头来举例,过去我们用的诺基亚和摩托罗拉手机是有后置摄像头的。只是正在阿谁时候,几乎没人用后置摄像头来拍工具。有了iPhone之后,即便只要二三百万像素,也先让大师把摄像头用起来,这就很牛。用户有了摄影的习惯之后,它再推云办事,让你把相片都传到云上,最终构成依赖。事理是一样的,你要说一上来我就要做一个极限摄像头,那可能有点挑和。纪刚:完全同意。举个例子,睡眠形态和质量本来常客不雅的,可是现正在通过设备被量化了。这个量化其实不精确。有时候,你感觉睡得不错,它给你打一个低分;有时候它给你打一个80分,但你感觉本人睡得乌烟瘴气,但这个表情上的抚慰是很好的。雷同的例子还有良多。我想表达的是,良多数据的价值正在它被采集到之前是难以预知的。我总感觉这块仿佛是个没有被开辟的矿,就像1958年挖白云鄂博矿,那时候大师都感觉它是个铁矿,后来才认识到白云鄂博是个庞大的稀土矿。此刻我正在想,人最终归正都embodied了,到底是不是AI,不妨的。适才丰叔讲的过程中发生的大量的数据,包罗当前每一秒我们所发生的数据,可能正在将来都是有价值的,这也就是我最初抬的一个杠。你感觉智能硬件要成为普及度高的消费品,是先做“黑科技”仍是先做“好产物”?欢送你正在评论区和我们聊聊你的见地。截止至2025年12月10日17!00,留言最走心的2位读者将获得《国度合作劣势》一书。