2024CTIS-文章详情页顶部

对话万兴科技董事长吴太兵:大模型2.0时代,持续淘金要两条腿走路|钛媒体独家

大模型正从图文时代1.0,加速进入到以音视频多媒体为载体的2.0时代。

2023年,ChatGPT的火爆,吹响了新一轮AI竞赛的号角,国内更是掀起了“百模大战”。从市场的表现来看,无论是创业者,还是巨头企业,给出的态度都非常一致,不拥抱AI的企业没有未来。

不过,一年的时间过后,对于大众用户,大模型仍旧是一个熟悉的“陌生词”,说得多感知得少。并且,大多数企业做出来的大模型还停留在比排名的阶段,背后的含金量也只有自己心里清楚。

就像360集团创始人周鸿祎在开年抛出的观点一样,“ChatGPT出来的时候,所有人都觉得造大模型就是造原子弹,就是曼哈顿计划。但有了开源之后,到2023年年底,可能造原子弹的都发现自己实际上是在造茶叶蛋。”

对于很多做大模型的企业来说,周鸿祎的那句话虽然听起来不舒服,但却是现实。作为最早一批迈入AI赛道的行业老兵,AIGC软件A股上市公司万兴科技(300624.SZ)董事长吴太兵也认同周鸿祎的部分观点,“在开源的基础上做出来的大模型,给很多人错觉,真就能和ChatGPT站在同一起跑线一样。大模型远远还没有到走入神坛这样一个阶段。把大模型做小,去做应用,去商业化,才是行业的未来。”

当下,市场上的大模型基本是以文本大模型为主,华创证券在之前的研报中曾指出,多模态AI技术高速发展,文生图、文生视频能力未来可期,AI+绘图、AI+视频值得关注。

1月30日,国内首个音视频大模型万兴“天幕”正式对外发布,这是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。

就在“天幕”多媒体大模型发布的前一晚,钛媒体App独家和吴太兵关于大模型未来的发展以及应用进行了深入的探讨。他表示,AI大模型的出现与发展是一个自然而然的过程,价值的释放也需要一定的时间。当下,大模型走下神坛也是有道理的,但只局限于在文本这个角度,大模型在音视频领域还存在很大的挑战。

万兴科技董事长吴太兵

万兴科技董事长吴太兵

“对于文本和视频大模型来说,二者的训练量级根本不在一个水平上,一些宣称多模态的产品也都是处于Demo的状态,并不成熟。大模型正在进入2.0时代,这个时代需要新的大模型,需要一个以音视频为主的而且本土化、垂类的大模型。万兴的‘天幕’是多媒体大模型,跟文本形成了区别,对算力要求更高,当然技术也更复杂。结合当下的技术以及应用场景来看,未来视频也会是主流。”

大模型“走下神坛”,进入2.0时代

据Gartner研究预测,到2030年,90%的数字内容都将是AI生成,预计2032年,全球AIGC市场规模将由2022年的108亿美元增加至1181亿美元。在AI的加持下,数字创意软件产品是爆发式增长,而AIGC的背后就是大模型,相当于电器时代的发电厂,起到至关重要的作用。

也正是因为这样,在过去的一年,大模型呈现井喷式增长,大家会觉得大模型的春天到了。根据《北京市人工智能行业大模型创新应用白皮书(2023年)》显示,截至2023年10月,我国10亿参数规模以上的大模型厂商及高校院所共计254家。上百家大模型厂商也进一步催生出数十亿的市场价值。可以预计的是,大模型在今年也将持续火热下去。只是,在火热的背后,也要认清行业的变化。

而在讨论变化之前,要先理解大模型的“大”到底指的是什么?大模型扮演的角色是什么?吴太兵认为,大模型的“大”肯定是参数多、结构容量大,但这个“大”永远是一个相对概念,比如文字和视频不是一个量级,不同行业的文本训练也不是一个量级。

至于大模型所扮演的角色,也要先对AI的发展有一个相对一致的理解。在吴太兵的理念中,这一轮的AI技术热潮并不是偶然的,而是IT行业演进的必然。“IT行业从1993到现在经历了30年的时间,这30年时间可以分为三个阶段,每一个阶段都有自己的特点。”

第一个阶段,是Windows所代表的PC时代,是一种人机交互,人为去向机器输入信息。第二个阶段是互联网时代,人与人交换信息,主要的目的在于交换。第三阶段则是AI时代,在读懂人类的需求后,机器给人输出信息。

“AI的发展是一个顺其自然到来的过程,试想一下,OpenAI就像是苦读N年的莘莘学子,终于可以开始挣钱养家了,在前30年接收各式各样的信息后,开始有了独立的思维,形成了自己的一套系统化的框架。”

在外界还在观望这一轮AI热潮时,万兴科技选择第一时间投入进去。值得一提的是,在此之前,万兴科技也已在AI算法以及算力方面有所积累。从大模型出现,到融合大模型去推动业务的发展,吴太兵对1.0时代大模型所扮演的角色也有了更深入的理解。

“后来我慢慢理解了,大模型本质上相当于一个炼钢厂,通过高温萃取之后,得到一些精华的产物。它的价值在于把海量’原材料’炼出’原材料’,但是这些’原材料’本身是不能直接使用的。”

吴太兵对钛媒体App说道,从来没见过哪个炼钢厂扔一块铁进去以后,最后就出来一辆汽车了。1.0时代的大模型其实只解决了上游的原材料的问题,下游的组装是解决不了的。基于大模型,还要有更多的垂直应用。

“大模型在音视频垂直领域还存在很大的挑战。基于这样一个想法,我坚定地认为,大模型正在从图文1.0时代进入到以音视频多媒体为载体的2.0时代。”

根据思科公司此前发布的报告内容指出,未来82%的消费互联网流量是视频流量。如果从文本的角度来看,大模型的发展的确已经很成熟,但是从视频的角度来看是远远不够的。目前,全世界有3.05亿视频创作者,43亿视频覆盖群体,每天200亿次以上的视频播放量,视频需求非常大。“视频为王”时代的到来,也催生出对多媒体垂直大模型和应用的需求。

1

吴太兵进一步指出,“1.0时代,通用大模型占主流,好比‘科学家’,主要研究前沿高端,解决基础理论性问题。2.0时代,垂直大模型增长趋势明显,好比‘工匠’,可更快速、更灵活解决细分领域专业性问题,可从模型到应用场景对用户一条龙赋能。”

聚焦数字创意垂类创作场景,“天幕”大模型已在海外商用

相比较文本生成,视频生成大模型以及应用由于数据、算力等多方面原因,导致产品数量较少,以及效果并没有大家期待的那么完美。

吴太兵认为,音频大模型情感理解存在偏差,视频生成大模型生产内容长度、一致性待提升,难形成完整的工作流。OpenAI在发布大模型之时就提出了多模态,但在视频生成的满意度上较低。即便是Pika labs这种火热的产品,也存在明显的拖影、模糊等问题,质量非常不理想。

总的来看,视频生成目前存在三大挑战。第一是数据集欠缺,视频内容存储和标注成本高昂,视频相关的训练数据集目前仍较欠缺。第二是算力成本高昂,视频训练所需的算力远高于图片、文字等其它内容。第三则是生成效果不佳目前仍缺乏效果可用性较好的模型作为标杆。

“之所以行业投入那么多研发,在视频维度还存在着么多问题,背后核心的原因就在于视频生成十分复杂。”

钛媒体App了解到,视频由很多能力和元素构成,包括动画、字幕、音乐、特效、美化、贴纸、转场、画中画,还有顶层资源、颗粒等,很复杂。整个视频制作的链路、技术门槛非常高,平均制作一个视频需要1.6小时。在构思阶段,可能需要用GPT或者文心一言,做内容源需要本地拍摄,需要获得资源方便去做加工,需要第三方工具,进行效果生成,还要算力、做编解码,总之一切没那么简单。

在大模型2.0时代,做出符合市场的大模型产品,首先要搞清楚2.0时代的特点是什么。吴太兵总结了三点,第一是从多模态到多媒体,系统性解决不同模态融合的问题。在他看来,多模态还是一个通用大模型,通过一套东西把文本、视频、音频、图片全部打通,也许有可能,文本大模型从供给和使用角度体验已经很好了,但是音视频的体验还远远不够,市场需要多媒体大模型。

第二是从通用到垂直解决方案,一条龙从模型到应用场景。“通用的大模型只适合生产原材料,生产一张图片、一段音频,但还是需要“组装车间”把它最后变成一款产品,多媒体大模型上面有一系列原子能力,通过组装件最后变成最终的产品”,吴太兵表示,“指望向一个工厂扔进一些铁矿石,出来一辆汽车是不现实的。扔进去的铁出来的是钢材,扔进去的石油出来的是化工产品,但这些东西离你真正做成一辆汽车还有很远的距离,这中间的距离就是垂类大模型需要去做的,而不是通用性的化工厂、炼钢厂能去解决的问题。”

2

第三则是从全球到本土化,算力、数据、应用的本土化。过去,大家指望通过一个大模型去解决全世界的问题,但是现在来看,基本是不可能的。在应用的层面,需要算力的本土化布局,需要本土化的数据,才能研发出更本土化的应用。

“今天,我们要重视大模型本身的应用商业化,而且要高度重视中国的应用场景。结合我们所用的数据和应用产品,参与全球竞争的时候才更能找到自己的位置。”

依托于大模型2.0时代的三个特点,万兴科技推出了“天幕”音视频多媒体大模型,聚焦数字创意垂类创作场景,基于15亿用户行为及100亿本土化音视频数据,以音视频生成式AI技术为基础,支持全球不同语言,相关能力已在海外规模化商用。

吴太兵向我们透露,万兴“天幕”大模型将打造基于大模型架构的AIGC应用基础底座,自投入研发以来,组建了百人算法团队,团队硕士和博士的比例超过70%,“天幕”大模型算法也已正式通过《互联网信息服务深度合成管理规定》备案。

另外,算力作为大模型的根基,万兴“天幕”还在持续加码NPU+GPU强力算力底座,训练则是在国内算力和服务器基础上进行,已构建千卡集群、自研推理框架局,并拥有一站式数据生产管理平台,单日可完成百万级数据处理加工。

做AI时代的美的,不需要每一款产品都做到NO.1

站在新的发展阶段,万兴科技给自己的定义是一家以技术为基础的产品创新驱动公司,相比较技术公司,更加强调市场。“我们以产品创新为主,并不代表不关注技术,我们到长沙来也是为了吸引以及留下更多的技术人才,‘拿深圳工资,住长沙房子,干全球事业’,这是我们提出的口号”,吴太兵说道。

而面对当下市场出现的多元化竞争格局,如何在AI时代持续地淘金,成为摆在很多公司面前的问题。在吴太兵看来,让自己不掉队需要做到两条腿走路,一条腿是后端的技术赋能,比如大模型、算法、算力等,另一条腿则是对前台市场机遇的把控。

“除了原有的运营中心以外,我们还在大力招募本地化的产品和市场团队,希望能加速感知到市场的变化。而站在产品的角度,万兴的逻辑则是矩阵化产品思维,不需要每一款产品都做到第一,前三就可以,‘中产品’的战略也能让我们做到更大的规模。”

用传统的思维去看待大模型,而不是把其放在一个高大上的位置去仰望。很多人对大模型这件事非常地兴奋,特别想去搏一把,因为他们认为这可能是最接近成为比尔盖茨、乔布斯的机会。但是,在吴太兵的设想中,大模型的确很重要,也是需要抓住的机遇,但万兴想做的是AI时代的美的,通过矩阵化的产品创新,将自身以及市面上优秀的大模型的能力整合起来。

3

他表示,“我们有大平台,在正确的方向上,可以做N款优秀的产品,这样才能真的去拥抱这个新时代。”

在交流的最后,吴太兵还谈及了“中国的Adobe”这个称号,他认为这是市场贴的,但自己对于这种对标并没有太排斥。用他的话说,对标是为了减少品牌与市场的沟通障碍,可以让市场更快地知道万兴是在做什么。

不过,世界上没有两家完全一模一样的公司,万兴要走的路也和Adobe不一样,“我们更期望做的是未来的Adobe,一是有AI驱动力,二是立足中国市场。还是那句话,布局AIGC,我们是认真的,也希望更多的生态伙伴参与到多媒体大模型的建设,让整个行业更繁荣。”(本文首发钛媒体App,作者/杜志强,编辑/钟毅)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2024-05-09 23:45

疑似璩静刚成立文化公司

2024-05-09 23:06

今年中国咖啡产业规模或超3100亿元

2024-05-09 23:01

20亿私募瑞丰达产品已无法赎回

2024-05-09 22:57

“五一”假期后机票价格狂跌部分低至一折,北京直飞三亚低至255元

2024-05-09 22:49

美国天然气期货涨幅扩大至5%

2024-05-09 22:40

珀莱雅与飞书达成合作

2024-05-09 22:33

美国至5月3日当周EIA天然气库存790亿立方英尺,预期850亿立方英尺

2024-05-09 22:32

COMEX期金日内涨幅达1.00%,现报2345.60美元/盎司

2024-05-09 22:18

国内首台新型智能重载电力机车在湖南株洲下线

2024-05-09 22:11

现货黄金向上触及2330美元/盎司,创3日新高,日内涨0.94%

2024-05-09 22:06

武铁推出两款高铁旅游计次票,方便旅客出游

2024-05-09 22:00

CBOT豆油日内走低2.00%,现报42.91美分/磅

2024-05-09 22:00

行业协会:硅片价格已经脱离供需基本面运行,并朝向非理性方向发展

2024-05-09 21:54

波罗的海干散货运价指数结束六连涨

2024-05-09 21:54

人工智能概念股美股盘初涨跌各异,AI、机器人、大数据类ETF跌幅扩大

2024-05-09 21:40

美股开盘:三大指数涨跌不一,Roblox跌超23%

2024-05-09 21:35

大连:符合住房公积金贷款条件的青年人首次使用住房公积金贷款在我市购买首套自住住房的,提供不低于30万元贷款额度支持

2024-05-09 21:32

泸州老窖:上市30年归母净利润增126倍,累计现金分红超353亿元

2024-05-09 21:32

格力电器成立家电经营部,卢陆群任销售总监

2024-05-09 21:25

2024年前4个月外贸数据重点速览:进出口总值同比增长5.7%,出口汽车增长24.9%

扫描下载App