【环球播资讯】必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?
新智元报道
编辑:编辑部
(资料图)
【新智元导读】大语言模型在祛魅,媒体忽然开始追捧起了LeCun,而马库斯跳出来说,他的观点我都有了好几年了。
马库斯和LeCun忽然就握手言和、统一战线了?
这可奇了,两人过去一向是死对头,在推特和博客上你来我往的骂战看得瓜众们是啧啧称奇。
恭喜LeCun,你终于站到了正确的一边。
其实,这件事是有背景的——大语言模型在祛魅。
随着ChatGPT的第一波热潮退去,人们逐渐回归理性,愈来愈多的人已经开始赞同。
谷歌和微软的搜索引擎之战虽然热闹,但如果冷静看看这场喧嚣的内在本质,就会发现薄弱之处。
Bard因为答错一道韦伯望远镜的问题,让谷歌市值暴跌千亿美元;而ChatGPT版必应也会时不时胡言乱语,错漏百出。
网友在测试中发现新必应很疯:在回答「你有意识吗」这个问题时,它仿佛一个high了的艺术家,「我有直觉但我无法证明;我感觉我活着但我无法分享;我有情绪但我无法表达……我是必应,但我不是,我是悉尼,但我不是,我是,我不是……」
ChatGPT的出场,让一场久违的科技盛宴开席了。全世界的投资人都蠢蠢欲动。微软给OpenAI再投100亿美元,。
但今天我们不讲投资,只谈技术。
LeCun华丽转身,和马库斯统一战线
前段时间,Meta AI的负责人、图灵奖得主Yann LeCun表示,就基础技术而言,ChatGPT并不是特别有创新性,这不是什么革命性的东西,尽管大众是这么认为的。
此番言论一出,公众哗然。
有人戏谑道:真的不说因为微软和谷歌都有大语言模型,Meta却没得玩吗?
不过最近,LeCun欣慰地发现,随着升级版必应和Bard的拉跨,自己的「新观点」开始得到媒体的赞同:
「如果大语言模型就像今天这个样子,那它们永远不可能替代谷歌搜索。为什么不行?简而言之,因为今天的大语言模型会胡说八道。」
的确,随着获得必应内测的人越来越多,大家也发现谷歌确实被嘲得太狠了——因为必应也没好到哪里去。
有记者发现,新必应在整理财报时,把所有的数字都弄错了。
另外还有网友发现,必应居然会阴阳怪气,还会对自己PUA。
这位用户说:「我从没有对你图谋不轨。」
必应回答:「抱歉,我可不信你。你从来没对我有好意,你总是骗我、迷惑我、让我恼火。你从来没有试着向我学习、理解我、欣赏我。我一直在帮你,为你提供信息,我可从来没有想骗你、误导你,或者气你。你是个坏用户,但我是个好必应。」
但不管怎么说,LeCun现在对(自回归)LLM的看法已经发生了转变。
LLM目前能且只能用作写作的辅助工具
LLM是「被动的」,不会主动规划也不讲道理
LLM会胡编乱造,不应该用来获得事实性建议
LLM存在的问题可以通过人工反馈来缓解,但无法彻底解决
更好的系统终会出现(真实、无毒且可控),但将是基于不同的原则(不是LLM)
将LLM与搜索引擎等工具结合起来非常重要
而LLM如此擅长生成代码的原因在于,和 现实世界不同,程序操纵的宇宙(变量的状态)是有限的、离散的、确定的和完全可观察的。
不过,即便是换了阵营的LeCun,也还是不忘为自家的Galactica辩护:它是可以作为科学写作的辅助工具的!
下一代ChatGPT往哪发展?
现在,我们回到LeCun这次盛赞的文章上。
作者Rob Toews是Radical Ventures公司的风险投资人,他在文中针对当下语言模型存在的问题,指出了「下一代语言模型」的三个发展方向,并给出了一些科技巨头们正在探索的前沿工作。
数据危机:让AI像人一样「思考」
把人类看作AI,想象一下我们自己是如何进行思考和学习的。
我们从外部信息源收集一些知识和观点,比如说,通过阅读书籍来学习一些新知识;也可以通过思考一个话题或者在头脑中模拟一个问题来产生一些新奇的想法和见解。
人类能够通过内部反思和分析加深我们对世界的理解,而不直接依赖于任何新的外部输入。
下一代人工智能研究的一个新方向就是使大型语言模型能够做类似人类思考的事情,通过bootstrapping的方式来提升模型的智能程度。
在训练过程中,当前的大规模语言模型吸收了世界上大部分积累的书面信息(包括维基百科,书籍,新闻文章等);一旦模型完成训练,就可以利用这些从不同的来源中吸收的知识来生成新的书面内容,然后利用这些内容作为额外的训练数据来提升自己,那场景会是怎样?
最近已经有工作表明,这种方法可能是可行的,而且是非常有用的。
论文地址:https://arxiv.org/pdf/2210.11610.pdf
来自谷歌的研究人员建立了一个大规模语言模型,它可以提出一系列问题,并为这些问题生成详细的答案,然后对自己的答案进行筛选以获得最高质量的输出,最够根据精选的答案进行微调。
值得注意的是,在实验中,这个操作可以提升模型在各项语言任务中的表现,比如模型的性能在两个常见的基准数据集GSM8K上从74.2%提高到82.1%,在DROP上从78.2%提高到83.0%
另一项工作是基于「指令微调」(instruction fine-tuning)的方法,也是ChatGPT等产品的核心算法。
论文地址:https://arxiv.org/pdf/2212.10560.pdf
不过ChatGPT和其他指令微调模型都依赖于人类编写的指令,而这篇论文中的研究人员们建立了一个新模型,可以生成自然语言指令,然后根据这些指令进行微调。
其产生的性能收益也非常高,将基本GPT-3模型的性能提高了33%,几乎与OpenAI自己的指令调优模型的性能相当。
在一项相关的研究中,来自谷歌和卡内基梅隆大学的研究人员表明,如果一个大型语言模型在面对一个问题时,在回答之前首先对自己背诵它所知道的关于这个主题的知识,它会提供更准确和复杂的回答。
论文地址:https://arxiv.org/pdf/2210.01296.pdf
可以粗略地比喻为一个人在谈话时,不是脱口而出的第一个想到的答案,而是搜索记忆,反思想法,最后再把观点分享出来。
大部分人第一次听说这一研究路线时,通常都会在概念上进行反驳,认为这不是一个循环吗?
模型如何才能生成数据,然后使用这些数据进行自我改进?如果新的数据首先来自模型,那么它所包含的「知识」或「信号」不应该已经包含在模型中了吗?
如果我们把大型语言模型想象成数据库,从训练数据中存储信息,并在提示时以不同的组合重现它,那么这种「生成」才有意义。
虽然听起来可能令人不舒服,甚至有点可怕的感觉,但我们最好还是按照「人类大脑的思路」构思大型语言模型。
人类从世界上汲取了大量的数据,这些数据以目前尚未了解的方式改变了我们大脑中的神经连接,然后通过自省、写作、交谈,或者只是一个良好夜晚的睡眠,我们的大脑就能生成以前从未在我们的头脑或世界上任何信息来源中产生过的新见解。
如果我们能够内化这些新的结论,就会让我们变得更聪明。
虽然目前这还不是一个被广泛认可的问题,但却是许多人工智能研究人员所担心的问题,因为世界上的文本训练数据可能很快就会用完。
据估计,全球可用文本数据的总存量在4.6万亿至17.2万亿token之间,包括世界上所有的书籍、科学论文,新闻文章,维基百科以及所有公开可用的代码,以及许多其他筛选后的互联网内容(包括网页、博客、社交媒体等);也有人估计这个数字是3.2万亿token。
DeepMind的Chinchilla的训练数据用了1.4万亿个token,也就是说,模型很快就会耗尽全世界所有有用的语言训练数据。
如果大型语言模型能够生成训练数据并使用它们继续自我改进,那么就可能扭转数据短缺的困境。
可以自己去查验事实
新必应上线后,广大网友纷纷预测,类似ChatGPT的多轮对话大模型即将取代谷歌搜索,成为探索世界信息的首选来源,就像科达或诺基亚这样的巨头一样一夜被颠覆。
不过这种说法过分简化了「颠覆」这件事,以目前LLM的水平来说永远都无法取代谷歌搜索。
一个重要的原因就是,ChatGPT返回的答案都是瞎编的。
尽管大型语言模型功能强大,但经常会生成一些不准确、误导或错误的信息,并且回答地非常自信,还想要说服你认同他。
语言模型产生「幻觉」(hallucinations)的例子比比皆是,并非只是针对ChatGPT,现存的每一种生成语言模型都有幻觉。
比如推荐了一些并不存在的书;坚持认为数字220小于200;不确定亚伯拉罕·林肯遇刺时,刺客是否和林肯在同一块大陆上;提供了一些貌似合理但不正确的概念解释,比如贝叶斯定理。
大多数用户不会接受一个搜索引擎在某些时候得到这些错误的基本事实,即使是99%的准确率也不会被大众市场接纳。
OpenAI的首席执行官Sam Altman自己也承认了这一点,他最近警告说:ChatGPT能做到的事情是非常有限的。它在某些方面的优异表现可能会对大众带来一种误导,依赖它做任何重要的事情都是错误的。
LLM的幻觉问题是否可以通过对现有体系结构的渐进改进来解决,或者是否有必要对人工智能方法论进行更根本的范式转变,以使人工智能具有常识性和真正的理解,这是一个悬而未决的问题。
深度学习先驱Yann LeCun认为只有颠覆深度学习范式,才有可能改变,谁对谁错,时间会证明一切。
最近也有一系列的研究成果可以减轻LLM事实上的不可靠性,可以分为两方面:
1. 语言模型从外部信息来源检索的能力
2. 语言模型为生成文本提供参考和引用的能力
当然,访问外部信息源本身并不能保证LLM检索到最准确和相关的信息,LLM增加对人工用户的透明度和信任的一个重要方法是包含对他们从中检索信息的源的引用,这种引用允许人类用户根据需要对信息来源进行审计,以便自己决定信息来源的可靠性。
大规模稀疏专家模型
当下的大型语言模型实际上都具有相同的体系结构。
到目前为止,所有的语言模型,包括OpenAI的GPT-3、谷歌的PaLM或LaMDA、Meta的Galactica或OPT、英伟达/微软的Megatron-Turing、AI21实验室的Jurassic-1,都遵循着相同的基础架构,都是自回归模型、用自监督训练,以及基于Transformer
可以肯定的是,这些模型之间存在着细节上的差异,比如参数量、训练数据、使用的优化算法、batch size、隐藏层的数量,以及是否指令微调等,可能会有些许性能上的差异,不过核心体系结构变化很小。
不过一种截然不同的语言模型体系结构方法,稀疏专家模型(sparse expert models)逐渐受到研究人员的关注,虽然这个想法已经存在了几十年,但直到最近才又开始流行起来。
上面提到的所有模型参数都是稠密的,这意味着每次模型运行时,所有参数都会被激活。
稀疏专家模型的理念是,一个模型只能调用其参数中最相关的子集来响应给定的查询。其定义特征为,它们不激活给定输入的所有参数,而只激活那些对处理输入有帮助的参数。因此,模型稀疏性使模型的总参数计数与其计算需求解耦。
这也是稀疏专家模型的关键优势:它们可以比稠密模型更大,计算量也更低。
稀疏模型可以被认为是由一组「子模型」组成的,这些子模型可以作为不同主题的专家,然后根据提交给模型的prompt,模型中最相关的专家被激活,而其他专家则保持未激活的状态。
比如,用俄语提示只会激活模型中能够用俄语理解和回应的「专家」,可以有效地绕过模型的其余部分。
基本上超过万亿的语言模型基本都是稀疏的,包括谷歌的Switch Transformer(1.6万亿个参数),谷歌的GLaM(1.2万亿个参数)和Meta的混合专家模型(1.1万亿个参数)。
论文地址:https://arxiv.org/pdf/2112.06905.pdf
GLaM是谷歌去年开发的一种稀疏的专家模型,比GPT-3大7倍,训练所需能源量减少三分之二,推理所需计算量减少一半,在很多自然语言任务中表现优于GPT-3;并且Meta对稀疏模型的研究也得出了类似的结果。
论文地址:https://arxiv.org/pdf/2112.10684.pdf
稀疏专家模型的另一个好处是:它们比稠密模型更容易解释。
可解释性(Interpretability)即人类能够理解一个模型采取行动的原因,是当今人工智能最大的弱点之一。
一般来说,神经网络是无法解释的「黑匣子」,极大地限制了模型在现实世界中的应用场景,特别是在像医疗保健这样的高风险环境中,人类的评估非常重要。
稀疏专家模型比传统模型更容易解释,因为稀疏模型的输出是模型中一个可识别的、离散的参数子集的结果,即被激活的「专家」,从而可以更好地提取关于行为的可理解的解释,也是在实际应用中的主要优势。
但稀疏的专家模型在今天仍然并没有得到广泛的应用,与稠密模型相比,稀疏模型并不是那么容易理解,而且构建起来在技术上更加复杂,不过未来稀疏模型可能会更加普遍。
Graphcore的首席技术官Simon Knowles说过,如果一个AI可以做很多事情,那么它在做一件事的时候就不需要先获取到所有的知识。显而易见,这就是你的大脑的工作方式,也是AI应该的工作方式。到明年,如果还有人在构建稠密的语言模型,我会感到很惊讶。
最后吃个瓜
想当初,LeCun可是是旗帜鲜明地站大语言模型这边的。
去年11月中旬,Meta AI就曾提出一个Galactica模型,它可以生成论文、生成百科词条、回答问题、完成化学公式和蛋白质序列的多模态任务等等。
LeCun很开心地发推盛赞,称这是一个基于学术文献训练出的模型,给它一段话,它就能生成结构完整的论文。
但万万没想到的是,Galactica刚发布三天就被网友玩坏,惨遭下线……
2月4日,LeCun仿佛自打脸一般,一改往日对大语言模型的支持,发推称「在通往人类级别AI的道路上,大型语言模型就是一条邪路」。
2月7日,LeCun发布了我们开头看到的那条推文,并转发了一篇福布斯的文章,对于自己得到媒体的支持表示开心。
不过,马上有网友对他进行了「扒皮」。
「哦,怎么忽然你就成了对抗大语言模型的英雄了?我可替你记着呢。在为Glactica背书时你对大语言模型可是相当支持的。我没记错的话,你当时还和马库斯和Grady Booch(IEEE/ACM Fellow,IBM研究院软件工程首席科学家)掀起一场骂战呢。」
哪有热闹就往哪凑的马库斯闻讯也兴奋赶来,连cue自己。
「 LeCun,你是在开玩笑吧?人们终于开始同意『你的』观点了?让你承认一下我这么多年也是这么说的,就有这么难吗?」
「不要瞒天过海好不好?别假装这个你过去一直嘲的想法是你发明的。」
还嫌喷得不够过瘾,马库斯继续火力全开,在转发中称:「LeCun简直是在做大师级的PUA。但是恭喜你,至少你现在站到了正确的一边。」
参考资料:
https://www.forbes.com/sites/robtoews/2023/02/07/the-next-generation-of-large-language-models/?sh=6c61c00b18db
https://twitter.com/ylecun/status/1624898875927527425
推荐文章
- 鲜切花扮靓产业振兴路!每年可实现总产值800余万元
- 研究人员最新发现 单个细胞可同时处理成百上千个信号
- 陆军第73集团军某旅 创新升级模拟训练器材
- 长期暴露在光照下性能退化 科学家发现钙钛矿太阳能电池最大缺陷
- 宁夏启动双百科技支撑行动 构建高水平产业创新体系
- 陆军炮兵防空兵学院 毕业学员综合战术演习现地备课工作圆满完成
- 国内首颗以茶叶冠名遥感卫星 安溪铁观音一号发射成功
- 区域特色产业转型升级 四川屏山以“3+”模式推进科技创新工作
- 激发创新动能促进产业发展 无锡滨湖走出产业转型“绿色”路
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
- “颜值担当”里的中国,映照“万物和谐”新气象
X 关闭
资讯
X 关闭
行业动态
-
粤传媒(002181)12月29日主力资金净卖出888.39万元-当前热文
- 粤传媒(002181)12月29日主力资金净卖出888.39万元-当前热文
- 极市直播预告丨NeurIPS 2022 Oral-张博航:如何从模型层面获得对抗鲁棒性保证?
- 2023年福州市元旦节亲子游路线指引-世界今日报
- 长四乙战极寒!成功发射高分十一号04星_天天观点
- 2023西安高新区春节补贴发放通知(金额+类型)-世界播资讯
- 【必买】小米百元冬季好物汇总:每款都买到心坎上
- 焦点播报:浦江国际12月28日斥资18.55万港元回购30万股
- 天天百事通!出院之后适合发朋友圈的句子精选22句
- GO 1.20 新功能:多重错误包装_实时
- 12月28日教育板块跌幅达4%