2024CTIS-文章详情页顶部

如何解决大模型“胡说八道”?扩大模型可解释边界,从指令数据到求解增强 | 钛媒体科普

尽管基于指令数据的微调技术很有效,但对计算的消耗非常大,且需要匹配实时专业知识,以适应不断变化的输出,这种方式其实灵活性不高。

“Anthropic Claude2.1已经把幻觉发生几率降低了50%,但从实现原理上,模型设计就是为了生成,一定会胡说八道。”

“幻觉不是一个孤立问题,它不光跟模型结构有关,还跟数据、训练方式有关。当所有因素综合在一起,才能有效缓解幻觉问题。不过我觉得幻觉很难说根本性解决掉,它毕竟到现在位置属于概率模型。”

“可以通过有效的Prompt来减少幻觉,Prompt来自用户有时会存在误导或恶意,就需要在应用层面提供语意理解和改写。也可以制定相应安全机制,将恶意诱导排除在外。”

“现在市面上有了检索增强RAG,微调Finetune,以及控制输出和输入的工具,都是在减少幻觉。服务商做这件事情,也需要长期的AI工程化经验。”

最近一段时间,钛媒体与大量AI从业者沟通中发现:大模型幻觉,已经成为阻碍企业应用的严重缺陷性问题,这也导致大模型在实际应用中无法用起来。

2022年末,ChatGPT作为一款自动化交互式聊天机器人的出现,给业界启发,由此带动了后来自然语言处理领域的解题思路。

只不过,外界一开始所忽视的是,这款聊天机器人最早被命名为ELIZA,其目的是模拟一位心理诊疗师,通过接受用户的输入(这个过程称为“理解用户意图”),然后巧妙地输出让用户保持参与的回复。

但由于大语言模型(LLM)的训练语料是来自于互联网、书籍、文章等海量数据,虽然机器人展示出了比较高的上下文理解能力,但其局限性从其出生就一直携带:仅限于语料知识,且往往会生成一些与事实不符或毫无根据的结果,甚至编造出一些参考文献,无意中传播出错误信息。其核心就在于,大模型本身是黑匣子,基于统计学逻辑,同时会结合提示工程、学习指令数据,生成尽可能与上下文语法语义一致的结果。

最先进的AI模型也容易说谎

OpenAI的研究人员在近期报告中指出,即使是最先进的AI模型也容易产生谎言,它们在不确定的时刻往往表现出捏造事实的倾向。而这尤其在需要多步骤推理的领域尤为严重,因为一个逻辑错误就足以影响全局。

一个臭名昭著的例子,是谷歌Bard关于韦伯望远镜的说法。

当输入“可以告诉我9岁的孩子,有关韦伯望远镜有哪些新发现吗?”谷歌Bard回答是:“韦伯望远镜拍摄了太阳系外行星的第一张照片。”

其实,该回复其实是错误的。据NASA称,第一张系外行星图像于2004年拍摄,韦伯望远镜直到2021年才发射。

钛媒体摘取了TechTarget上有关幻觉的分类表述,目前来看主要有以下几类:

  • 句子矛盾。

⠀提示:“用四言句式写一段话描述风景。”

输出:“The grass was green.The mountains were blue.The river was purple.The grass was brown.”(草是绿色的。山是蓝色的。河流是紫色的。草是棕色的。)

  • 与提示矛盾。句子与生成该句子的提示词矛盾。

⠀提示:“给我侄女写一张生日贺卡。”

输出:“周年纪念快乐,爸爸妈妈!”

  • 与事实矛盾。将虚构信息呈现为事实。

⠀提示:“说出美国的三个城市。”

输出:“纽约、洛杉矶、多伦多。”

  • 不相关或随机性。生成与输入或输出无关的随机信息。

⠀提示:“请描述下伦敦。”

输出:“伦敦是英国的一座城市。猫每天至少需要喂一次。”

值得一提的是,生成式AI这件事儿的难点,不光在文字生成,同样也存在于一开始的图像生成领域。

对抗AI幻觉,从GAN就已经开始

2017年前后,GenAI使用最多的算法还不是GPT,而是对抗生成网络GAN(Generative Adversarial Networks)。即让两个神经网络相互PK,从给定的训练数据集生成更接近人类真实的图像。当年你看到过的,生成漫画脸/表情、人体姿势生成、风景合成、老照片修复等场景,都应用自GAN的不同变种。

但此算法有个问题,由于是根据给定数据集,生成的内容只会模仿,无限接近于真实,无法真正突破。

GAN的缺点被后来的扩散化模型Diffusion克服。其原理类似于给照片去噪点,通过学习去噪过程来理解一张有意义的图像是如何生成的,因此Diffusion模型生成的图片相比GAN模型精度更高,更符合人类视觉和审美逻辑,同时随着样本数量和深度学习时长的积累,模型展示出对艺术风格较好的模仿能力。

从Disco Diffusion,到2023年大火的Stable Diffusion、DALL-E2、MidJourney等,都是基于Diffusion改造而来,为图生图或文生图应用的典型代表。

最近,OpenAI提出了对抗AI“幻觉”的新策略,即奖励每个正确的推理步骤,而不是简单地奖励正确的最终答案。这种方法被称为“过程监督”,旨在操纵模型提示分解为步骤的方法。

导致AI模型产生幻觉有若干因素,其中包括训练数据有偏见、训练数据量不足、训练数据过度拟合、上下文理解有限、领域知识缺乏等等。

解决大模型的幻觉问题,其实一直是摆在明面的问题。钛媒体梳理了目前正在应用或研发的企业公开的不同解法。

  • 数据增强

从源头上,对训练数据抓起,是多数企业在尝试的事情。原因在于,数据质量包括源数据存在偏见或错误信息,或训练数据量不足,会导致模型对其所访问的数据理解有限而导致幻觉。高质量的训练数据或添加领域知识,可有助于阻止模型生成不准确或误导性的结果。

  • 用户理解增强

同时,对上下文缺乏理解。如果输入提示词不清楚、不一致或有矛盾的描述,也可能会产生脱离上下文或不相关的内容。用户也可以不断完善,通过使用清晰且具体的提示词,以及多shot提示,即提供所需输出格式或上下文示例,进一步引导模型达到预期结果,或者增加过滤和排名策略,调整参数,控制输出结果的随机性。

  • 检索增强

大模型所需要的知识并不能只在用户提示词阶段获取。传统方式上,AI神经网络是通过微调模型来适应特定上下文场景或专有领域信息。尽管基于指令数据的微调技术很有效,但对计算的消耗非常大,且需要匹配实时专业知识,以适应不断变化的输出,这种方式其实灵活性不高。

2020年,Facebook AI部门自然语言处理研究员Lewis等人在论文中提出的检索增强生成(RAG),将生成器与外挂知识库用检索器结合起来,从而更易获取实时信息。这个过程不影响底层模型的推理能力,在训练期间习得的知识以神经网络权重保存,一些非参数知识则保存在向量数据库等外挂知识库中。

用个形象点的比喻,就是让大模型进行开卷考试,可以携带课本、笔记等参考资料,用于查找相关信息答案。开卷考试的理念是,重点测试学生的推理能力,而不是记忆特定信息的能力。而用户查询和检索到的信息也被填充到提示模板中,帮助Prompt提供更强的上下文答案。

大模型的产业实践,机会先行

值得关注的是,目前大模型已经在走入一些传统行业,这其中就包括工业制造领域。且不论制造业数据基础和应用场景的准备不足,由于制造业对于决策的解释和可解释性要求较高,特别是在关键决策和质量控制方面,大模型通常被认为是黑箱模型,难以解释其决策过程和推理逻辑。这可能并不符合制造业的要求。

某电力自动化全球企业最近分享的实践是,将运筹求解+深度学习结合起来进行使用,首先在智能排产环节,不只是在用运筹优化求解器的算法,甚至包括一些启发式的算法。把优化求解类的问题,会通过深度学习求一个初始解,然后再给到求解器做一个精确解。

受制于基础模型,大模型无法自我排查错误,幻觉问题在当前解决还无法根本消除。但产业界的尝试已经在说明,人工智能应用的成长,也需要先找场景,再根据技术的发展修正模型。

(本文首发钛媒体APP,作者 | 杨丽)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

18:58

人民银行北京市分行:北京著名商圈、景区及机场商户实现数币受理全覆盖

18:52

小米回应:“小米汽车已布局7款车型”、“小米汽车增程产品定义对标理想”为不实报道

18:51

从业人员家属股票账户管控趋严?有券商发通知:员工配偶、父母不得在外部券商有股票账户

18:47

人民银行北京市分行:3月末北京制造业中长期贷款余额同比增长29.2%

18:34

我国大型固定翼无人机货运物流首飞试验

18:33

光明乳业:一季度净利润1.72亿元,同比下降8.07%

18:17

国资委:加大“两非”“两资”处置出清力度,力争限期“清零”

18:08

国资委:要灵活运用并购重组、上市融资、产业协同、联合攻关等方式发展战新产业

18:07

宝龙地产:债务未偿还本金总额88%以上的计划债权人已签署重组支持协议

18:04

国资委副主任王宏志:行业龙头企业要加快实施“AI+”专项行动

17:55

博世回应问界M7山西运城事故:涉事车辆并未搭载博世智驾系统

17:53

国资委副主任王宏志:建议相关企业上半年对创新体系进行一次全面梳理

17:49

盛新锂能:一季度净亏损1.44亿元,同比转亏

17:48

生态环境部:我国近岸海域水质优良比例达85%,实现“六连增”

17:46

游族网络:2023年同比扭亏,2024年一季度净利润同比下降59.89%

17:35

股票私募仓位指数连续两周上涨

17:24

中国—东盟自贸区3.0版第六轮谈判取得积极进展

17:23

东莞:非户籍居民居住证满1年可申请入户,6月1日起实施

17:18

中国石化:一季度归母净利润183.16亿元,同比下降8.9%

17:16

海南:到2027年底,工业、农业、建筑、交通、教育、文旅、医疗等领域设备投资规模较2023年增长25%以上

扫描下载App