日拦截3000条评论,知乎正用AI识别「答非所问」和「不友善」

在问答爆炸的状态下,知乎的算法机器人「瓦力」获得了落地场景,在这里,瓦力的作用是帮助优化和执行社区规范。


「电影中那种很逼真的杀人镜头是如何拍摄的?」如果你在知乎抛出这个问题,收到的回答中可能会有这样的一条「其实吧,那些人都是死刑犯,反正都要执行死刑的,所以就拉来拍电影或电视剧了。」问「数学分析应该买哪套教材?」,会有人答「数学老师不喜欢我。」

抖机灵、讲故事,在知乎这个最大的中文问答社区很常见,但这引发的一个问题是,这样的回答是符合事实的吗?它会不会惹人烦?

在最近的一次产品内测中,知乎把对一条回答中「有理由反对」的理由细化成了「事实错误」、「答非所问」、「煽动情绪」和「不解释」四种,所谓无用的、低质的回答到底都是哪些内容?知乎希望在算法层面更好地回答这个问题。

据知乎的反馈,内测期有50000名用户参与其中,通过用户选择判断和瓦力(知乎在2016年上线的算法机器人)智能学习的结合,一共处理了超过20000条答非所问的回答。换句话说,用户的每次选择都是「瓦力」这个机器人学习的机会和过程。

知乎把AI的作用聚焦在了社区规范上,这既包括一条回答是否涉及「答非所问」,还有社区中是否出现了让用户感到不适的言语「不友善」。

在2018GMIC的演讲中,知乎合伙人李大海用了两个具体的案例展示AI是如何在知乎被应用的,他将知乎视为一个中文语料库,「用户在知乎上累计提出了2300万个问题,并收获了接近1亿的回答。」李大海表示,在问答爆炸的状态下,知乎的算法机器人「瓦力」获得了落地场景,在这里,瓦力的作用是帮助优化和执行社区规范。

「用户对一个回答的赞同或者反对,他们对任何内容的举报,他们对一个问题发起一个话题,或者对问题或者话题进行公共编辑,在某种程度上我们都可以把它认为是对相应文本语料进行标注。有了这样标注数据以后,我们就能够去利用有监督的机器学习算法去得到一个更好的语义表示,从而能让我们对语言的理解能够达到一个更高的层次。」李大海称7年的运营经验对于AI落地是非常有帮助的,因为它能够把社区氛围这个很虚无的大问题分解为很多小的目标明确的,可以解决的问题,降低这个问题的难度。

在李大海的举例中,「答非所问」和「不友善的评论」是伤害社区氛围的两个主要问题,对于前者,解决方法除了在更短的时间里处理知友举报的不良回答,知乎还通过建立随机森林模型对回答进行识别、分类。

在一开始,知乎会建立一个模型,比如问题是「知乎的宠物是狗还是狐」,让每个树自己投票。准确率能够达到97%,但问题是它的召回率不高,这意味着一些答非所问的回答会被放过。知乎开发了新的模型,任何一个回答只要发出来,很快就能够被分类。将反对理由细化,也正是提升AI识别能力的有效方法。

对于「不友善」的评论,李大海在演讲中表示,阴阳怪气,也就是反讽的识别是非常难的,反讽是一种完全正面的词语去表达负面的意思,是一个很高级的修辞手法,机器人很难明白的。像谢尔顿作为物理学家,他的智商在全人类排名前10,他也常常听不懂别人对他的讽刺。

在训练中知乎会把内容本身的特征尽可能的feed到模型中去,包括像文本特征,一些数值特征,还有像反讽词表,以及一些表现符特征等等。举例来说,如果一个评论有很多好的用户,他们都进行了反对,这就是一个负向的。如果另外一个评论有很多用户点了赞同,它可能就是正向的。基于此知乎可以构建大量的一个标注数据,但这样一个方案还在开发过程中。

目前,对于「不友善的评论」,瓦力每天可以实时拦截处理3000条内容,覆盖内容从大众版本的不友善,到五花八门的歧视、恶意贴标签,对各种亲朋的「问候」以及花样繁多的变体等。

然而,把识别「不友善的评论」的全部工作交给人工智能仍是不切实际的,知乎在产品专栏中写道:「由于数据不均衡、数据排查标注成本较高和上述数据的分布特点,全量内容模型要做到准确率 98% 以上非常困难,因此我们根据人工审核量,选择一个适宜的阈值,在保证每天召回量的基础上,维持召回内容的处理准确率到 80% 以上,并将召回的内容进行人工审核。」

「我们相信知乎通过这种庞大的高质量用户行为的学习和分析,一定在语义和用户关系这两个层面上一个更深的建模和理解。能够像在反讽前沿领域的突破,任何一个突破对中文互联网,甚至全球互联网讨论环境中都应该有非常正面的作用。」李大海表示。(本文作者/宫赫婧,根据知乎授权内容进行整理。编辑/苏建勋)

本文系作者 赫婧 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • 这才是ai的正确用途。

    回复 2018.05.17 · via android
  • 所谓拦截评论不就是删除的另一种说辞吗?

    回复 2019.04.05 · via pc

快报

更多

20:08

深交所公布一季报预约披露情况,航锦科技拔得头筹

20:04

黑龙江省总工会原党组书记、主席王悦华接受纪律审查和监察调查

20:01

3月29日新闻联播速览28条

19:53

上交所向复旦微电下发监管工作函

19:49

京东召开2024 AIPC先人一步启动会

19:47

雷诺将在法国北部桑都维尔工厂投资3亿欧元

19:46

四川黄金:2023年净利同比增6.16%,拟10派2.5元

19:46

先正达:2023年全年营业收入322亿美元,同比下降4%

19:43

地铁设计:2023年净利同比增8.01%,拟10派4.9元

19:36

国家金融监督管理总局发布《行政处罚裁量权实施办法》,5月1日起施行

19:31

哈尔滨市出台“新政”:非哈市户籍购新房可享购房款2%~3%补贴

19:30

《深圳市前海深港现代服务业合作区管理局办法》将于5月1日正式施行

19:22

罗永浩谈小米SU7:在大众消费车市场上或重新上演良币驱逐劣币

19:21

华体科技:公司智慧路灯产品可搭载5G微基站,但目前搭载服务收入占比不足1%

19:19

上汽:归属上市公司股东净利润141亿元,分红拟合计派发42.3亿元

19:16

胡润研究院:高净值人群未来一年投资热情下降7%,黄金超越股票成为首选

19:04

重庆啤酒:2023年净利同比增长5.78%,拟每股分配现金红利2.8元

19:04

数字智能体研发工具包AgentStudio宣布开源

19:03

中共中央政治局3月29日召开会议,审议《关于二十届中央第二轮巡视情况的综合报告》

19:00

浙商证券:拟受让国都证券合计19.14%股份

2

扫描下载App