Datawhale干货
(资料图片仅供参考)
作者:平凡@知乎,诺桑比亚大学,在读博士
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf
2.https://arxiv.org/pdf/2301.05217.pdf
关键词:
全球快消息!大语言模型中的涌现现象是不是伪科学?
小米移动电源3 强势来袭,50W快充+10000mAh电量,超给力~
快资讯:小期贷网贷逾期17年多久上征信
天天观天下!TyC:阿根廷6月来华将对阵澳大利亚和印尼,2场比赛梅西都会出战
全球热文:王天发5.13黄金原油下周多空行情走势预测附伦敦金美原油下周投资操作计划
当前头条:轮胎使用年限多久 轮胎使用寿命几年
全球热点!四川2023年7月健康管理师报名时间与考试时间
观察:18岁成人礼专用歌曲 18岁成人礼
美女姜保红:和40多名官员有染,疯狂敛财1400万,下场大快人心
工业节水概念股有哪些?相关概念股票名单一览_聚看点
快讯:坪山区2023年新增公办义务教育学校招生范围意见采纳情况
环球今头条!证监会指导证券交易所发布指引,完善REITs大类资产审核要点及信息披露要求
花钱办证都2个多月了人联系不上
环球百事通!馥郁是什么意思简单点_馥郁是什么意思
公司购买车辆怎么抵税_世界要闻
当前快播:电魂网络(603258.SH):减持数量已过半 监事林清源以集中竞价减持217.7万股
微动态丨恐怖黎明流浪中的战士_恐怖黎明流浪者营地在
这几种鸡蛋尽量少吃或不吃
被曝裁员超1300人 补偿N+3!福特中国回应 热门看点
加拿大经济学家:地缘政治紧张局势加速“去美元化”趋势 每日报道
【Pixiv】#404 公共场所不宜观看
央行:4月人民币贷款增加7188亿元,同比多增649亿元_焦点热文
密封科技(301020.SZ):由于目前氢能源整体处于发展的初级阶段,只有高速气浮轴承实现了少量供货_关注
【中国那些事儿】荷兰学者:“对华脱钩”将严重损害荷兰科技发展 环球热讯
【全球快播报】刷新4月销量历史纪录!广汽丰田4月销量77009台,同比劲增20.2%
视点!昨晚上海有小孩掉入黄浦江,父母施救三人溺亡?真相来了
“浓眉”未遭遇脑震荡,湖人主帅:我不知道现在什么才算犯规_即时焦点
芯片低谷!还要再下跌20%,中国芯发展的最好机会到了?
郑州:支持提取公积金支付购房首付款 速看
《奇迹时代4》多少回合一局? 通关回合数参考-当前快讯