*开源这一强大算法，我们向Meta致敬

2022-06-04 3:16:57 投稿 yurongpawn

已被浏览139次

【备用QQ：1654413727 微：chuhei1888】
作者| 宇多田
出品| 虎嗅科技组
封面来自the Verge
Facebook改名Meta后，“财务厄运”并未因此终止，但技术作风却一如既往的大胆。
虽然自年2月以来，公司股价已下跌30% ，市值损失超过亿美元。但是，这并没有影响开发者们的精神世界与工作动力。
本周，来自Meta一小撮程序员的疯狂举动，在全球AI开发者群体中引发了巨大骚动——
Meta AI 实验室高调宣布，将开放自己的语言大模型 OPT（Open Pretrained Transformer，预训练变换模型），毫无保留地贡献出所有代码。
不夸张地说，在人工智能圈，这算得上是一个里程碑事件。
这个被称为OPT的大规模语言模型，自建立以来，各项参数与能力便*对标OpenAI 的GPT3，甚至连缺点都是。后者在全球学术界建立的赫赫声望和随处可见的网络小说续写作品，想必已不必再过多赘述。
简而言之，这是一种利用巨量网络文本与书籍进行训练，可以将单词和短语串在一起组成精彩文本的深度学习算法模型。
它能生成复杂句子，有时候甚至读起来与人类撰写毫无无异（想粗浅了解GPT，可以看这篇《让00后疯狂的超级算法》）。某种程度上，它所具备的神奇人工文本模仿能力，被视为人类通往真正机器智能道路上的一个巨大突破口。
然而，“培育”大模型的代价，是昂贵的人力成本与成千上万块显卡。因此，许多学者都认为，把这种大模型开放出来，几乎不可能发生在“游走在垄断边缘”的大型科技公司身上。
譬如，OpenAI 的GPT3曾被专家粗略估算过，至少投入了万美元。他们后来为了摆脱入不敷出的现状，将GPT3作为一项付费服务来推广——只提供API，但不会开放模型本身和底层代码。
然而，Meta表示，会把不同参数规模的训练模型以及“OPT如何建造和训练”的详细信息分发给研究人员。
其中，也包括一份超过100页的算法训练日志——实验室记录下的每一个错误与崩溃现象，训练和添加数据的过程，以及有效与无效策略。
“考虑到计算成本，如果没有大量资金，这些模型很难复制。对于少数通过api可调用的模型（这里暗指GPT3），如果不能获得完整的模型权重，就难以进行研究。”他们在OPT的论文摘要里鲜明表达了态度，
“因此，我们推出了OPT（这是一个只有解码器的预训练变换模型），参数范围从125M到175B，目标是全面且负责任地分享给感兴趣的研究人员。”
“是真的开放。”
一位“正准备去看看他们实现情况”的中国开发者查阅了Meta AI网站后，告诉虎嗅，这的确是一个好消息。“从现有数据来看，整个训练代码都被贴出来了。Meta很了不起。”
擅用集体力量
这一次开源，毫无意外受到了学术界的高度认可，甚至有科学家称其是一个伟大的举动。
究其原因，一方面，一项强大技术，如何在一个封闭的企业精英团队中诞生，一直是包括学界在内大众好奇的焦点；
另一方面，“开源”的优势在于利用集体力量来解决问题，因此长期被硅谷的有识之士所倡导——更多人参与进来，技术突破便来得越快，漏洞便填得越快。
尽管大部分人几乎只记住了GPT3（因为它是迄今为止*的“通才”），实际上，除了Meta，谷歌、微软都曾在年都推出过相似的大模型，但由于都是“关起家门”做私密研究，因此在“透明度”方面饱受诟病。
譬如，年的“谷歌人工智能伦理学科学家辞退事件”便引发了长达一年的“批判海啸”，而这一切都是因一篇探讨“语言大模型暗藏重大隐患”的论文而起。
被谷歌无理辞退的人工智能伦理科学家Timnit Gebru
没错，GPT3们不仅缺陷多多，而且非常致命。尽管多数责任应归咎背后的人类文本。
创业公司 Latitude 曾在年推出过*基于GPT3开发的半开放冒险游戏 AI Dungeon。但没想到，随着用户增多，OpenAI监测到，有玩家竟然利用这项高阶技术，自发生成儿童性爱场景。
虽然用户利用GPT3生成的污言秽语也曾遭遇过广泛抨击，但这件事仍然让大众哗然。这也是外界第一次意识到，GPT3这类大模型更为深刻的阴暗面。因此，Latitude增加了审核系统，但却引发了与用户体验相关的一系列麻烦。
然而，“越是危险，越不能回避危险”。这也是Facebook自称选择开放的关键原因之一。
Meta AI 负责人Joelle Pineau承认，团队解决不了所有问题，包括文本生成过程中的伦理偏见和恶毒词句。因此，他们诚邀天下豪杰，共同学习；而实际上，这也是一种彼此监督。
“我认为，建立信任的*途径是极端透明。”
我们查看了Meta提供的下载通道，发现实验室根据每个模型的参数规模设立了不同的下载条件：300亿参数以下可随意；而亿参数值模型，也就是与GPT3大小相同的OPT，则需要填写申请表证明用于非商业用途，获得批准后方可下载。
翻过大山，仍然是山
当然，理论上这个做法是可圈可点的，但一个更大的问题出现了：如果你要使用这个亿参数值的大模型，就意味着你的计算机要带得动它。
换句话说，你需要拥有足够的算力，这里可以直接换算成“财力”。
“一个参数如果是FP32，也就是4个字节大小。而亿参数值则相当于亿字节，大约700G显存空间。而现在一张普通显卡是20GB。” 一个开发者向虎嗅称赞了Meta的做法，但他认为，对于普通开发者群体，该模型仍然是不可承受之重。
“虽然可以把不同参数放在不同显卡里的框架里，但据个人体验，目前仍然欠缺开源成熟的框架。”
因此，截至目前，这个开源大模型，仍然是属于大型科技公司、拥有充足资金的大型实验室与学术机构的“内部游戏”。
曾有家尝试做中国版GPT3的创业公司叹息说，他们也在想方设法实现GPT3可以实现的文字能力，但的确掣肘于有限算力。
事实上，除了巨头，GPT3一直难以解决的商业化难题，是让绝大部分企业呈观望之势的根本原因。尽管大型语言模型已成为过去几年来人工智能领域最热门的趋势之一。但至少目前来看，除了品牌营销优势，OpenAI 的投入产出比，很不尽如人意。
此外，在西方社会普遍认知中，比起技术突破，它们带来的巨量能源消耗更是一种原罪。
科学家Emma Strubell与合作者在年发表的论文，就揭露了大型语言模型在碳排放上超乎想象的环境破坏力（上图）。
他们发现，用一种神经结构搜索方法（NAS）训练出的特定语言模型，可产生284吨（磅），上图）二氧化碳，这大约是5辆小轿车长达5年的排放总量；
而谷歌搜索引擎的基础——BERT语言模型训练，则产生了0.65吨二氧化碳，Strubell提醒，这相当于一个乘客从纽约到旧金山往返航班的碳排放量。
更需要注意的是，这些数字都应被视为“最保守数值”：只是在一次性训练中的模型成本。
因此，考虑到能源效率与环境成本，西方不少科学家与开发者认为，某种程度上，大模型的训练开发也是在允许大型企业掠夺着环境资源，而这些成本，将会平摊在所有人身上。因此，他们并不希望企业加入到大模型队列中。
“尽管是无意识的，但这只会加大对边缘人群的打击。”
开源商业回报，巨大且无形
很多时候，人们会对开源模式发出这样的质疑：
有什么能比“两个来自竞争对手公司的员工，可以为同一个目标协作，还免费送出自己成果”更不可思议的事情？
譬如，可能连小学生都清楚的安卓系统，就是基于开源的Linux操作系统。这意味着，任何人都可以查看绝大多数安卓手机的核心代码，修改并分享它。
事实上，“开源”正是为不同利益群体，提供一种“利远大于弊”的长期技术合作方式——你增加的独特元素我能使用，那么我迭代的版本你也不会错过。
这种“互利”态度，让看似不可思议的“协作”成为可能，经过100多年来的反复修正，早已成为一种常态。如今，Linux 就是由全世界超过名程序员共同开发和维护。
而在人工智能领域内，最有名的案例则是谷歌的深度学习开源框架Tensorflow。它已是开发人工智能应用程序的标准框架之一。非常有趣，当Tensorflow在年开源时，外界也是发出了跟这次Meta开源大模型同样的疑问：
作为开放者，谷歌为什么要放弃对自己搜索业务如此重要的东西？
一部分原因上面讲过——外部开发人员把软件做的更好，该软件就能适应谷歌未来商业化的很多需要。就像当下，大模型商业化还尚不明朗，那么前期工作的开放性与主导性，就变得至关重要。
根据谷歌自己公布的数据，已有超过名外部人员在TensorFlow上帮助升级迭代。而完善后的Tensorflow，则为谷歌云上的相关付费服务输送了强力支持。
另外，我们永远不要小看开源软件为企业带来的巨大营销价值。
它最*的“带货效果”，便是吸引和留住一众*人才，不知道为大厂省下多少高昂的人力资本。这也与当下Meta开始收缩招聘规模的现状，做了完美呼应。
当然，*开源软件打的时间差和聚拢效应，将会使后来者很难在短时间内形成气候，Tensorflow与一众国产深度学习开源框架的往事就是*的例子。
因此，Meta这一决定，将会让OpenAI陷入一个尴尬的境地——虽然名声很大，但它毕竟是一家创业公司。从另一个角度看，在寻找商业落地的过程中，大厂通过开放、免费等手段遏制对手，取得胜利，这种事情似乎永远都在发生。
但好处在于，这会让一家公司意识到，在商业世界，没有一分钟时间可用来顿足，绝不能停下创新的狂奔步伐——近期他们发布的达利系统第二代，也许是以GPT3为跳板，向文字与视觉融合方向跃升的*标志。

【备用QQ：1654413727 微：chuhei1888】
免责声明本站所有信息均来自互联网搜集 1.与产品相关信息的真实性准确性均由发布单位及个人负责， 2.拒绝任何人以任何形式在本站发表与中华人民共和国法律相抵触的言论 3.请大家仔细辨认！并不代表本站观点,本站对此不承担任何相关法律责任！ 4.如果发现本网站有任何文章侵犯你的权益,请立刻联系本站站长[QQ:775191930]，通知给予删除

139次浏览

分享到微博分享到朋友圈

手机打开微信，点击底部的“发现”，使用“扫一扫”即可将网页分享至朋友圈。

更多

网上羸钱被黑出款被拒(平台真的会赔钱吗)

网上出款通道维护出不了款(到底能不能出款)

网上羸钱利用反水套利教程(你真的了解其中的风险吗)

股票
MORE>

11-16

东方精选股票净值,东方精选混合,400003基金净值是多少?

11-16

大智慧虚拟成交量选股公式请高手编写大智慧虚拟成交量技术公式如下图

11-16

医保卡年终结算有什么影响,医保结算是什么意思

11-16

工程验收完成后什么时候结算(工程进度款竣工后结算款)

11-16

中维科技龙头股票新冠疫苗股票有哪些龙头股

11-16

东方财富美股开户条件有什么 (开户港美股对资金有要求吗)

热门推荐网友点评

专业处理拒绝提现说数据延时这种情况怎么出款-阿莫

在网上平台嬴钱风控部门审核提现失败，网上被黑的情况，可以找...

刘金行长出事了 (现任中国银行行长刘金)

刘金行长出事了?1、刘金因工作调整辞去行长职务。行长刘金...

中国人民银行原行长(原中国银行行长周小川判刑的简单介绍)

中国人民银行原行长中国人民银行原行长是周小川。周小川，男...

仙居新三板上市公司,小杨哥三只羊市值多少亿看这里就清楚了

新三板算不算上市公司?1、新三板不算上市公司，新三板交易...

601600股吧（中国铝业601600股吧）

中国铝业(601600)怎么样大盘蓝筹，板块龙头，产业链...

陈文辉评论文章：

微信提款维护中是什么原因；办法几个-阿莫

谁能解决被黑不给取怎么办，面对这种个人解决的不了解，可以选择专业的事情，专业...

尹建森评论文章：

专业处理拒绝提现说数据延时这种情况怎么出款-阿莫

惘投客服说系统维护风控暂时出不了款找出黑团队新人惘投必看当你在惘投平台提款出...

薛正强评论文章：

专业处理拒绝提现说数据延时这种情况怎么出款-阿莫

确定自己是被咋谝了，那么完全可以报警处理的，这个也是我们能挽回的办法，所以大...

王骁峰评论文章：

专业处理拒绝提现说数据延时这种情况怎么出款-阿莫

黑网提款失败提示财务清算，取款通道维护，注单未回传审核不通过这些统统都是平台...

鲁平评论文章：

专业处理拒绝提现说数据延时这种情况怎么出款-阿莫

在*出款通道维护风控审核提款不该怎么办。网上被黑一般都是黑平台把你的钱限...

网站分类

基金

股票

证券

生活指南

投稿

标签列表

网上预警 (203)

维权知识 (66)

平台 (183)

办法 (70)

通道 (30)

账号 (85)

专业 (30)

网上游戏 (7)

情况 (48)

账户 (15)

网站 (16)

封号 (7)

投资 (69)

股票 (46)

债券 (15)

股价 (12)

证券 (8)

股东 (7)

基金 (24)

大陆股市行情 (10)

大和恒 (8)

工商银行活期存款利率 (7)

广发聚丰基金查询 (7)

担保基金 (8)

东海证券同花顺 (7)

*留言

谁能解决被黑不给取怎么办，面对这种个人解决的不了解，可以选择专业的事情，专业人士处理，对自己非常无助，非常需要人帮助的朋友，那么看到这篇文章，那么就有救了，因为这边有*的出黑团队，可以快速帮助您解决在网上黑平台出现注单未回传，流水不足，审核不通过等等情况，是您在网上*的出黑团队，*的技术团队。专业的出黑团队，专业技术大师，轻松把您解决这种问题，不成功不收费，只要平台是综合平台，能正常登入，额度可以专业，那么就有办法帮您的，不要放弃，找我们给你信心。

惘投客服说系统维护风控暂时出不了款找出黑团队新人惘投必看当你在惘投平台提款出现财务系统升级，不能出款的时候，这时候必须要注意了，很多这种情况是虚假平台不让你提款，你要做的就是争取时间，也就是第一时间了解平台真实情况，是不是正规平台，然后找到专业出黑人员，他们能帮你解决这类很多问题，相信大家也有所了解。

确定自己是被咋谝了，那么完全可以报警处理的，这个也是我们能挽回的办法，所以大家可以完全考虑这个办法告诉你怎么解决这种问题，只要你提供账号信息，那么我们就可以结合你碰到的情况，通过我们的技术来快速帮助你，保障不成功不收费。

黑网提款失败提示财务清算，取款通道维护，注单未回传审核不通过这些统统都是平台借口，碰到了就要小心，不要想找平台解决了，如果超过24小时，那么就可以确定是被黑了，好好的怎么可能会出现这些问题，都是平台的借口，所以网络上碰到这种情况，就要认真去解决，不要觉得平台过几天就可以给你出款，其实完全是平台的问。

在*出款通道维护风控审核提款不该怎么办。网上被黑一般都是黑平台把你的钱限制，你之进去的分数都是不能出来了，碰到了很多冷静不下了，到账了账号被黑了，被冻结的了情况非常多，所以才那么多人在网上找被黑不能出款的解决办法，这方面的解决办法是非常多的，专业人士可以帮助你的，下面重点来告诉在*你这个方面的解决办和真实性。

想一想以前坐着公司办公室的我是多么的的悠闲，夏季不容易被日晒，冬季不容易被淋雨，但那类高端日常生活，早已变成了过去时了。

娱乐平台提现通道一直维护升级，上面就是关于这方面的情况，希望对于想了解这个方面有帮助，如果你有需要了解的，或者咨询的，可以免费咨询我们就可以，我们可以提供*，最快的服务，为您分忧。

在平台出款通道维护升级中，注单延迟不给提款怎么办,这种也是黑平台不给出款一个借口，我们可以通过找专业人士来帮忙，他们通过藏分技术是非常靠谱的，也是真实的，所以网上被黑可以时间找客服反馈情况，看看平台情况是怎么样的，如果是真的维护或者暂时情况，那么还是可以解决的，一直到款不了，那么就要通过专业人士来解决。

在网上被黑不能出款解决第三步骤解决办法有很多包括报警等法律途径来维权，还有通过专业人士的出黑团队来帮助自己解决，现在总结来看通过出黑大师来解决是最快的，也是最直接的，效果就明显的。

黑网提现失败数据一直未更新，这篇文章就是关于这个问题的详细解决，为什么说这个可以解决，其实已经有这方面的处理经验的，所以碰到了不用害怕，我们是有办法，有团队可以帮助你，在我们平常时候一定要选择靠谱的理财平台和理财项目，不要相信一些导shi能带你挣钱的，这些会让你不能成功出款的。

钰融财经网 © Copyright Your WebSite.Some Rights Reserved.商务：QQ <775191930>

Powered by Themes by 琼ICP备2022011116号

联系我们| 留言建议| 网站管理

Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 96633160 bytes) in /www/wwwroot/yurongpawn.com/zb_users/plugin/dyspider/include.php on line 39