对谈龙猫:AI合成数据是趋势,我们正在打造标注大模型

钛度号
随着AIGC时代的到来,很多人对数据标注员的工作产生了好奇,他们在做什么工作?现状如何?

图片来源@视觉中国

图片来源@视觉中国

文 | 娱乐资本论

人工通过采集现实世界的图像、视频、文字等信息,清洗标注后将数据转化为代码输送给机器,机器人最终能具备智能意识,像人一样理解语言背后的深意。

从事这份工作的人叫做数据标注员,他们在做的事情,也是在给人工智能算法增加“燃料。”

随着AIGC时代的到来,很多人对数据标注员的工作产生了好奇,他们在做什么工作?现状如何?行业存在哪些问题?未来有何发展前景?带着这些问题,娱乐资本论·视智未来专访了龙猫副总裁胡邱飞。

龙猫成立于2014年,是一家AI数据及平台服务商,累计服务了60余家主机厂和自动驾驶公司,为客户提供整体的数据解决方案。

以下为采访实录:

关于公司业务

视智未来:你们是什么时候开始转型做AI数据服务的?

龙猫副总裁胡邱飞(下同):

2016年,我们见证了国内AI从计算机视觉、人脸识别检测、手势检测到应用场景的自动驾驶、NLP相关的发展历程。

公司主要是自动驾驶和AIGC两条业务线。做AIGC是因为未来它是更大的赛道,市场预计到万亿级别,模型和产品都需要大量单模态到多模态的数据。

比如类3D的物体标注,以前是拿全景摄像机还原室内场景,现在是第一个人写指令,AI能看着场景找东西。

视智未来:以后是不是可以不用实拍了,直接AI标注AIGC内容了?

有可能。但Prompt生成的内容和三维世界相比缺少位置信息,摄像头没法测距。也有人在做这样的事情,比如谷歌李飞飞的具身智能模拟器。这个适用场景是机器人,创业公司好融资。

视智未来:AIGC对你们的业务产生了什么影响?

今年AIGC爆火后,龙猫接到了很多图文标注、及图视频标注需求的订单,会有很多多模态应用场景,比如车内座舱的文娱软件等。

视智未来:这种手势多模态和车机识别怎么做交互?你们在其中起到什么作用?

我们给他整体提供一套数据解决方案,了解他的应用场景,需要什么数据。有没有基础大模型,还是需要从零开始搭?多数应用层客户会先选一些基础大模型评测。

视智未来:他们评测还是委托你们?

有的会委托我们,比如他列一些API,我们给他研究竞品。

关于标注员

视智未来:你觉得数据行业未来会发展成像美团那样三到四个不同的阶梯,有些是交社保的,有些是交给服务站的,有些是众包的人力模式吗?

现在已经是这个模式了。我们线上众包是强管控,但最终交付结果是计件的。        

视智未来:你们线上选人有什么标准呢?

员工加入工会后,有做用户运营的同学管理。我们更喜欢用没有全职工作的群体,他们有生活压力,更稳定。

视智未来:你们自己研发了数据标注平台吗?

对,我们有自己整套的数据管理标注系统。

视智未来:加入AI技术后,你们和之前相比能节省多少人力?

自动驾驶上节省了40%,AIGC在考虑引入GPT等大语言模型校准标注结果。作为机器和人的交叉验证,保证输出的质量。因为人会有波动,机器更加稳定,偏差小。

视智未来:你们现在众包官方采集公会有多少人?

线上注册用户400多万,活跃全职的1万人左右。线上之外,我们在西南地区做了线下标注基地,那边高校多,学生素质更高,员工500人左右。

视智未来:现在有AIGC后,对标注员的素质要求更高了吗?

会。大模型会考察几乎所有领域的通识类知识,AIGC要求标注人员有对大模型的应用和理解,标注内容要和客户的模型价值尽量贴近,我们找的标注人员学历多数本科以上。

针对垂直领域,龙猫则会配备专业领域人员,比如为数学相关大模型招聘会高等数学的人,如果不是这专业的人,你根本看不出细节上的区别。

之前还接了互联网问诊的平台,要求三甲医生出数据,这数据标注的价格很贵了。

视智未来:你们在探索怎么用AI生成训练素材吗?

对,有很多公司会用大模型生成的内容直接标注,但是中文语料库的理解方面一定是需要人工的。我们用GPT和人生生成的内容进行对比,发现答案的重合度只有60%左右。

视智未来:我理解是这个40%如果越大的话,说明你们的工作做得越好吗?

可以,人工在标注这件事情上价值会更明显一些。

我们在尝试通过AI技术省去标注环节,直接进入到审核和质检环节。

视智未来:我能反向理解,如果客户在你们这要求越高,就说明这家公司的AI技术越先进。

可以这么说,但如果某家客户和别人的需求差异很大,也可能是算法弱。

关于业务发展

视智未来:你们的技术壁垒是什么?

第一,我们一直在主动沉淀,会形成所谓的垄断。公司有一个打法是做系统集成,之后客户再替换,隐性成本很高。第二是公司的氛围很好,以产品为驱动,不像其他公司靠管理和人力密集。我们做项目要么赚钱,要么沉淀知识。在努力实现自动标注,而不是通过压榨人力提升竞争力。

视智未来:你觉得数据公司以后竞争的点是什么?

数据公司要比客户更理解他们的算法要什么数据,会有不同垂类的巨头公司出现。

我们在做产品的数据集复售。数据集分公域和私域的数据集。公域数据集数量多,但私域更重要。

视智未来:不少人觉得数据标注门槛低,是乡村扶贫工作。

这是特例,不是行业现象。

视智未来:你们以后会做自己的大模型吗?

正在做,大模型一是做辅助标注,读懂题目后给答案让人选。第二是做全自动标注,AI直接出结果。这种情况我们会做双盲的实验,比如一个答案用三个标准做一遍,里面我们会拆一个一个人或者两个人用这种形式做,这样不需要再做抽检和质检,有些项目我们已经用GPT交付了,准确率方面达到了80%多,与人工接近。

关于数据采集

视智未来:数据采集上你们有新动作吗?

国外出现的一种趋势是用户主动售卖自己的数据,让数据公司得以绕开原始数据的厂商垄断的局面。我们也在想,怎么让那些有时间、素质又高的人做数据输出和标注,比如说通过做题的方式,让他们在小程序上答题赚钱。

产品设计上需要想想人性的问题,有人又想挣钱又想舒服,这样的人员画像和我们现在人员画像有一个冲突。我们现在的画像是宁可下沉,有全职时间,产品设计上需要想想人性的问题,有人又想挣钱又想舒服,这样的人员画像和我们现在人员画像有一个冲突。我们现在的画像是宁可下沉,有全职时间,要不然就是大学生,他们时间充沛,更好管理,也更稳定。宣传渠道上,龙猫基本靠口口相传,吸引的人群类似,很少做公域推广,否则群体不搭。产品要考虑怎么既保证质量,又有爽感。到宣传渠道,龙猫基本靠口口相传,吸引的人群类似,很少做公域推广,否则群体不搭。产品要考虑怎么既保证质量,又有爽感。

视智未来:于数据公司而言,以后用AI做数据合成是不是很重要?

对,这种高质量的数据集已经不太够了,怎么获取?一是直接找用户信息,但很少有用户愿意共享数据。但现在可以做数据的拟合,类似抄写数据,一样能达到可用的标准。AI 合成、改写部分可以洗掉它类似的标和专有信息,生成通用内容。

成本方面,最好是现有甲方需求给到我们,再去做原始数据的融合,第一次卖出就可以赚回成本钱。也有很多有数据的甲方在自己做数据集,比如百度、京东。

视智未来:自动化做标注和数据集,你们担不担心那种混合拟合的问题,质检会很难。

强化学习上,你要给他做奖励模型,重新纠偏。其次也要看整体比例,GPT整体数据集几十个TB,合成数据的指标才不到10%。

做数据公司持续的壁垒,一个是的数据集合成能力,第二是给大模型做人的强化学习。我们也在想怎么通过小程序沉淀用户数据。

视智未来:版权能确定吗?

生成式AI上最新的管理意思是,你的5张照片是你的,但我拿来合成照片之后版权就是我的了。

本文系作者 娱乐资本论 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • AI合成数据是趋势

    回复 2023.09.10 · via pc
  • 利用AI技术生成数据,可以大大提高数据的质量和数量,同时降低数据采集和标注的成本,有助于推动人工智能技术的快速发展和应用

    回复 2023.09.09 · via pc
  • 随着人工智能技术的广泛应用,需要大量的数据进行模型训练和优化

    回复 2023.09.09 · via android
  • 除了自动驾驶和AIGC领域,AI合成数据还可以应用于医疗、金融、零售等众多领域

    回复 2023.09.09 · via pc
  • AI技术已经可以生成高质量的图像和视频等数据,但是这些数据的真实性和可靠性还需要进一步验证

    回复 2023.09.08 · via pc

快报

更多

2026-04-03 22:48

特朗普预算案预计在2027财年将征收4640亿美元的关税收入

2026-04-03 22:48

特朗普预算案预测2027财年实际GDP增长3.1%

2026-04-03 22:32

中国将加快培育太空算力产业 稳居全球“第一梯队”

2026-04-03 22:19

美元指数目前涨0.07%,持稳于100.100点下方

2026-04-03 22:08

美国服务业活动自2023年以来首次萎缩

2026-04-03 21:53

小米法务部:已帮助66位车主向法院成功立案,民事诉讼案取得首个胜诉判决

2026-04-03 21:47

美国3月标普全球服务业PMI终值49.8,预期51.1,前值51.1

2026-04-03 21:44

航锦科技:因涉嫌信披违规被证监会立案

2026-04-03 21:22

准油股份:股票交易可能被实施退市风险警示

2026-04-03 21:18

2026年度电影总票房突破120亿

2026-04-03 21:14

并行科技:拟采购不超过1.02亿元交换机等网络设备和不超过4624万元GPU算力服务器

2026-04-03 21:14

三艘阿曼籍船只通过霍尔木兹海峡

2026-04-03 21:13

高乐股份:拟定向募资不超8.54亿元,用于补充流动资金

2026-04-03 21:09

泰达股份:拟向泰达供应链转让其持有的泰达能源51%股权,交易价格1.87亿元

2026-04-03 21:03

深交所:本周共对151起证券异常交易行为采取自律监管措施

2026-04-03 21:03

ST朗源:2025年亏损1497.1万元

2026-04-03 21:00

千里科技:2025年净利润8441万元,同比增长111%

2026-04-03 20:39

特朗普再提打开霍尔木兹海峡"抢石油"

2026-04-03 20:34

山东高速:2025年度净利润32.06亿元 同比增长0.30%

2026-04-03 20:34

美国2月非农就业人数修正至减13.3万,1月修正至增16万人

5

扫描下载App