本文目录一览:
整理 | 维克多
目前,大规模预训练模型已经在自然语言处理领域取得了巨大的成功。BERT、GPT-3等大规模预训练模型被看做是“*美学”的一次胜利,验证了“模型越大,性能越好”的逻辑,业界也普遍形成了“炼大模型”的竞赛趋势,国内研究机构和企业也相继发布了大规模预训练模型,呈现百花齐放、百家争鸣的发展格局。
这些模型的实际应用情况如何?它们能解决哪些实际问题?还有哪些不足?
2021年12月,平安科技前沿技术部门负责人王磊在 CNCC 2021“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《大规模预训练模型金融领域应用中面临的主要问题与应对技术探讨》的报告。在报告中,他指出了当前大规模预训练模型在垂直领域的“致命”问题,针对这些问题提出了平安科技的解决方案。
例如,他认为大规模预训练模型在垂直领域性能达不到要求的原因可能是:“大规模预训练模型的训练语料库规模很大,既包含了该领域的关键信息也包含了其他无关信息,使得模型缺少对关键信息的关注”,“当前大规模预训练模型的机制改进也也很少涉及对关键信息的提取”。
基于此,王磊认为,大规模预训练模型本质上都是在处理信号,但只要是信号,就可能进行分解,将背景信息和垂直领域的信息分离开来,从而有效贴合下游场景。
另外,金融客户对上线模型的精度要求很高,不少场景直接使用预加载模型往往很难满足需求。王磊提出置信度评估方法,利用强化学习和Bagging思想评估模型靠谱程度。
以下是演讲全文,AI科技评论做了不改变原意的整理。
本次分享的主题是《大规模预训练模型金融领域应用中面临的主要问题与应对技术探讨》,主要以中国平安为案例,从问题背景、语义空间分解技术、置信度评估方法以及应用等几个方面介绍。
1
问题背景
在平安公司场景下,大规模预训练模型在金融业务上的应用主要集中在贷款风控与股市投资。同时,这两个领域近些年的建模在因子层面会比较依赖大数据,例如文本信息,使用预训练模型进行处理能够形成一些特征因子,从而方便分析理解。
大规模预训练模型已经在几十个任务上刷榜,在医疗领域的表现更是令人瞠目结舌。但是深入到金融领域,其性能仍然无法满足要求。以选股为例,传统方法在信息获取阶段会人工从研报、雪球、知乎等论坛找寻一家公司的信息以及风评,然后结合基金经理或投资人自己的判断获得对这家公司的洞察,从而决定是否买进。
由于金融领域的容错性特别低,而且要求模型对专业知识有很深的理解。如果达不到一定的理解水平,从业者宁可不用AI模型。
一般而言,对于单任务,一个模型的性能能达到90%,但如果需要理解一段话或者一段专业评语,则需要三层模型才能形成一定的特征,这时模型性能就会下降为70%左右的水平。因此,在投资等要求严格的场景下,预训练模型很难应用。
为什么会出现这种问题?个人认为,大规模预训练模型的语料库是大型文本,它注重广度和背景,对于深度和细节较少关注。
以国内企业研发的一些预训练模型为例,其早期改进的方式都集中在Mask层面,而Msak机制更倾向于集中学习信息的广度。而当模型应用到法律、医学等领域时,更需要的是“深度”理解。
如何解决?目前有很多思路,例如加入专家知识,知识增强、混合训练等等。目前,中国平安在探索语义空间分解技术和置信度评估方法。
2
语义空间分解技术
大规模预训练模型涵盖了很多背景信息,那么能否进行再一次的分解,将背景信息和垂直领域的知识体系分离开来?分解不能没有标准和依据,而大规模语言模型实际上是在处理信号,当模型理解信号的时候,虽然信息和语义仍然在,但却在中间发生了各种形式的变换。因此,无论是哪种大模型,其本质都是将信息或语义重新转述为信号。
那么,既然是信号,就能够进行分解。我们已经尝试了多种方式,其中一种做法是:基于国内机构提出的大规模预训练模型,加入高中低滤波器,然后用自适应频谱机制进行处理,可以理解为一个Attention机制,最后进入下游任务训练。
经过实验表明,我们提出的频谱分解网络结构(Filter-Loss和Filter-layer ) ,结合经典语言模型训练神经网络,在各类型任务中均可显著提升语言模型能力。
更为具体,不仅是在垂直领域,改进后的语言模型在11个国际公开数据集上测试结果较BERT模型提升3-20%。这也证明,将语义空间进行分离,然后和下游任务结合的做法具有通用性。
3
置信度评估方法
在金融领域,无论模型达到什么样的水准,其上限永远是客户需求。例如客户的标准是95%的性能,而模型只能达到92%,仅仅差3个百分点,就会让模型很难上线。这类问题在金融企业非常容易遇到。
为了解决上述问题,平安科技提出了基于置信度评估的方法,通过这种方法,模型可以评估其“靠谱程度”。如果靠谱程度高,就通过,如果低,那么就需要人类接手,或者直接放弃。因为很多场景并不是信息越多越好,信息冗余已经成为了不可忽视的现象。
而且,还需要解决围绕各类复杂经济主体的多源异构大数据难以统一表述、信息难以整体耦合和关联的问题。平安通过对数据标签化提取的置信度技术研究,提升金融数据标签化提取精度,提升流程自动化水平;通过对多尺度多维度融合语义关联的经济主体表达技术的研究,构建金融领域知识图谱。
信度评估方法采用的是强化学习构建置信度框架。主要分为三个部分:
1.用BERT等语言模型等抽取语义向量
2.利用双向长短期记忆方式组合全局向量
3. 强化学习模块根据人工打分拟合相关标准,输出置信度分数。
此外,还可以尝试通过Bagging思想构建置信度框架。模型pipeline有4个阶段:
1.利用Bagging思想,从数据中抽样5份,训练出5套模型参数;
2. 在少量测试集上测试各套参数性能,根据性能例如F1值,分配各模型置信度权重;
3. 各套参数选择某个标签后,在结果统计中累加对应参数权重;
4. 最终输出累加置信度*标签。
4
技术应用
经过实验证明,改进后的语言模型在语义相似度、多分类、语义蕴含等多类型国际公开数据集上测试精度较BERT模型的提升大多在10%-20%,但召回率下降20%-50%;在实际项目中从舆情中提取公司标签的模型精度提升11个百分点,达到93%。
这在商业上非常有价值,例如虽然召回率降低了50个百分点,但意味着只有一半的模型需要人工干预,另一半的模型完全可以交给自动化,这远比模型无法上线要好的多。
在金融领域,例如选股,模型的*度是首先需要考虑的,其他指标可以稍差。例如从1000只备选股票中模型只选出了50只良好股票,可能会错过50只良好股票。但这种错过也是允许的,毕竟模型会“保证”选出来的50只股票大概率能够赚钱或有超额收益。
雷峰网雷峰网
透过数据可以看到非常诡异的一幕:
全国房价下跌城市数量在增加,但全国房价均价却在持续上涨,再次冲破了1万元/平方米,达到了10374元/平方米。
诡异就诡异在,一方面全国商品房成交量继续探底,房地产投资继续探底,房价下跌面在继续扩大,购房贷款也在探底。
在这种背景下,全国房价居然一路上扬。
第一,房价下跌面继续扩大。
根据国家统计局的数据显示,7月份新房下跌城市40个,较之前增加了2个;二手房环比下跌城市51个,较之前增加了3个。
什么意思?意思是,当下一大半城市房价在下跌,且下跌面积继续扩大。
第二,房地产投资继续探底。
1至7月份,全国房地产开发投资79462亿元,同比下降6.4%;其中,住宅投资60238亿元,下降5.8%。
国家统计局
房地产开发投资,反映的是开发商拿地情况。持续探底,意味着开发商的拿地意愿继续减弱。
这一点,反映在财政数据上,便是卖地收入持续减少。
财政部披露的数据显示,上半年全国卖地收入23622亿元,比上年同期下降31.4%。
具体到各省市来看,内地31个省市中,除了陕西保持10%的正增长外,其余上半年卖地收入同比均是下跌。
其中天津、重庆、吉林、黑龙江、辽宁、甘肃、贵州、江苏、广东、湖北、河南、湖南、广西、云南、青海等省市卖地收入同比去年均腰斩。
这还是国资房企全力兜底,不然,跌幅就更大了。
第三,商品房成交量与成交金额继续探底。
1至7月份,商品房销售面积78178万平方米,同比下降23.1%,其中住宅销售面积下降27.1%。商品房销售额75763亿元,下降28.8%,其中住宅销售额下降31.4%。
国家统计局
从上图的走势可以看到,进入到2022年商品房销售面积与销售额均进入负增长,此后跌幅一路扩大。
第四,全国房价再次突破万元。
这一点,国家统计局并没有直接披露,但可以通过统计局披露的前7个月与前6个月的商品房销售面积与销售额计算得出。
全国前7个月商品房销售额为75673亿元,前6个月的销售额为66072亿元,由此可以计算7月份单月销售额为9601亿元。
全国前7个月商品房销售面积为78178万平方米,前6个月的销售面积为68923万平方米,由此可以计算出7月份单月销售面积为9255万平方米。
由此便可以计算出7月份全国房价均价=7月份单月销售额/7月份单月销售面积=10374元/平方米。
10374元/平方米,相较于6月份上涨了6.37%。
这一数据是继2021年6月全国房价突破万元之后,再次突破万元。
数据:根据国家统计局披露数据计算而得
何以如此?何以出现如此诡异一幕?何以在房地产各项数据继续探底的大背景下,全国房价均价反而不断上窜,再次冲破了万元?
根本原因在于,豪宅迎来了大卖。
简单理解就是,在大环境改变的当下,普通楼盘销量下跌,但高价豪宅楼盘销量却走出了独立行情,豪宅占比分量越来越大,由此拉高了均价。
我们都知道,上半年包括北上广深在内的几乎所有城市,商品房销量都在下滑。
然而,大多数城市的豪宅,都呈现出另一种风景。
以7月份楼市强势反弹的上海来说。
上海7月份二手房成交量重回2万套,据上海链家研究院的监控数据显示,7月份成交套数环比增长28%,成交金额659亿元。
尽管成交量相比于去年同期仍是下跌,但却创下了年内成交量新高。
诸葛找房数据显示,2022年6月上海新房豪宅(总价1000万元以上)成交2515套,较去年同期上涨180.4%;且豪宅项目成交占6月整体成交量的33.6%,占比较去年同期同样呈上涨态势,涨幅为24.8%。
7月份,上海的新房豪宅成交量2591套,较6月上涨3.72%,较去年同期上涨185.35%;且豪宅项目成交占7月整体成交量的22.61%。
广州方面,豪宅成交了1265套,创下历史新纪录,仅6个月的时间,就能卖出以往一整年的量。
上半年,深圳豪宅成交3094套、面积约42万平方米,成交量处于近几年高位。
2022年上半年北京豪宅成交量逆势增长!北京单价10万以上的豪宅成交量高达1326套,同比上升49%,成交套数占比攀升至7%。
不光成交量在上涨,价格也在上涨。
根据克而瑞披露的数据显示,今年上半年,千万豪宅的网签均价已经达到78492元/㎡,比去年上涨11%,与2020年对比一平涨了1万。
豪宅市场一片火热,成交量占总成交量的比例不断上升,价格不断上调,才有了整个房地产基本面不断探底,全国房价均价却诡异上涨的局面。
普通住宅市场销量不断下滑,原因在于大环境改变的当下,中产和普通工薪阶层收入和工作受到冲击,无力购房。
豪宅市场火爆在于,在不确定性加剧的背景下,富裕人群通过购买豪宅抵抗冲击,抵抗不确定性,抵抗通胀的意图越来越强烈。
普通住宅与豪宅成交量上的差别,最终会推动贫富差距进一步扩大。
在近期举办的第二届中国普惠金融创新发展峰会上,平安普惠副总经理倪荣庆表达了用模式创新和科技助力探路普惠信贷深水区的观点。如果说金融是实体经济的血脉,那么普惠金融则是深入细枝末节的毛细血管,但获客难、服务难、风控难、成本控制难等难题,是所有开展普惠金融业务的金融机构面临的重大挑战。面对上述挑战,平安普惠积极探索科技与普惠金融的深度融合。
平安普惠的无抵押信贷产品,具有“中小额”、“中高频”的特点,平安普惠借助人工智能技术,实现了线上全流程服务。在AI科技助力下,普惠金融弥补了传统模式的技术短板,提升了业务运营效率。依托金融科技,平安普惠搭建了开放平台,联合在获客、数据、风控、增信、资金等各业务节点中各有所长的机构,以规模经济效应为普惠金融人群提供多元化、价格可承担、体验便捷的信贷解决方案。
平安普惠的方法是创造一个平台,创造一个连接的模式,让金融资源、场景、获客方、技术方,都能很好地联结在一起,从而为深水区的客户提供供给,提供一种可能。在平安“金融+科技”、“金融+生态”战略规划下,平安普惠通过技术研发和业务场景紧密结合的方式,积极挖掘普惠金融服务新价值。
平安科技AI中台
据普惠金融公开数据显示,平安普惠已经服务超过1100万小微为主的普惠金融人群,无抵押贷款占比74%,借助科技运营成本降低了58%。截至2019年上半年,超过60%的用户通过平安普惠借款时,未从银行获得消费类或经营类贷款,充分说明聚合模式对普惠金融产生的效益。
在2019 世界人工智能大会上,科技部公布了第三批国家新一代人工智能开放创新平台名单,宣布依托平安集团开发建设普惠金融国家新一代人工智能开放平台。作为*一家入选的综合金融企业,再次对平安在人工智能等新科技领域的实力,和普惠金融模式表示认可。
金融为本、科技为术、生态为道。平安科技正不断加强技术实力和能力中台的打造,联合金融、医疗、汽车、房产、智慧城市五大生态圈中的业务公司,共同打造生态圈。
例如通过智能认知中台赋能平安城科,助力其在智慧城市领域更好地赋能智慧楼宇、智慧园区等业务和生态;为金融壹账通的海内外分公司提供综合身份核验能力,助力其完善对海内外金融机构客户的整体金融科技解决方案;智慧医疗领域,平安科技基于强大的云服务能力提供的综合身份核验平台,为全国统一电子社保卡的申领使用保驾护航……
脚步不会停止,未来,平安科技还将与各专业公司形成更紧密的结合,共同建设扩大五大生态圈!
保险股近期表现低迷,行业龙头如何破局?保险代理人告别“大进大出”的人海战术后,接下来如何展业?个人养老金政策落地,险企面临怎样的机遇和挑战?
中国平安股东大会现场
4月29日下午,中国平安举行2021年年度股东大会。面对投资者关心的行业和公司热点问题,中国平安相关高管一一予以回应。
对估值修复充满信心
去年以来,A股保险板块持续走低,估值水平在板块垫底。作为保险板块龙头,中国平安的股价也备受市场关注。
对此,中国平安联席CEO姚波称,最近一段时间,中国平安股价持续下行已经脱离公司价值增长曲线。“接下来,对股价回归真实价值区间,公司充满信心。”
姚波解释,从公司内部来看,中国平安战略清晰,业绩稳健。同时,公司在积极进行市值管理,主要举措包括维持常年稳定的分红政策,以及积极兑现股份回购计划。
姚波表示,近期来看,今年公司将完成寿险深度改革目标;长远来看,公司“综合金融”和“医疗健康”模式值得期待。
4月29日晚,中国平安披露的2022年一季报显示,报告期内,归属于母公司股东的营运利润同比增长10.0%至430.47亿元;归属于母公司股东的净利润206.58亿元,同比下降24.1%,主要受资本市场波动影响;基本每股营运收益2.46元,同比增长11.3%。
有信心在今年完成寿险深度改革
针对参会股东提出的平安寿险改革的相关问题,中国平安联席CEO陈心颖回应称,中国平安在持续推动寿险改革,保险代理人数量缩减明显。随着寿险改革进入第三年,当前改革成效令人满意。中国平安有信心在今年完成第一个三年的“深度改革”目标。
她介绍,目前中国平安的寿险改革主要涉及渠道端和产品端。其中,渠道端包括代理人、银保、社区网格、兼职代理人四方面的改革。这四个渠道让更多保险从业人员更好地提升获客能力、销售能力,使他们的收入更加稳健持续增长。产品端则打造了“健康+”“居家养老+”“康养+”等三大“产品+”体系。
“通过这三年的深度改革,相信寿险业务可以在五到十年里,迎来更好的发展。”陈心颖表示。
紧抓养老政策改革机遇
日前,国务院办公厅发布《关于推动个人养老金发展的意见》,引发市场广泛关注。对此,中国平安总经理、联席CEO谢永林表示,中国平安在参与个人养老改革中,具备账户优势、产品优势、渠道优势等三个层面的核心能力,会积极、深度参与其中。
“中国平安做这件事有得天独厚条件,我们一定会抓住这个机会。”谢永林解释,在账户优势方面,平安银行3年前就在账户平台体系搭建上开展了相关工作;在产品优势方面,此次个人养老制度鼓励公募基金、银行理财子、养老保险公司、寿险公司乃至银行的储蓄产品都参与体系建设里来,而中国平安具备全牌照的综合金融服务能力,公司会在内部协同开发不同产品去满足多类客户需要;在渠道优势方面,中国平安的互联网用户数量已经超过6亿,金融客户超过2亿,且公司拥有庞大的线下队伍。
聚焦“综合金融”和“医疗生态”双轮驱动
在股东大会上,有投资者提问,近年来中国平安在金融、科技、医疗、养老领域都有涉及,能否保证主业做精做强?
“中国平安向来在战略方面比较超前,一直以来我们觉得平安长期发展战略是非常清晰的,而且我们一直都提醒自己有所为、有所不为。”中国平安董事长马明哲回应称,虽然中国平安旗下涉及业务众多,但都是在聚焦“综合金融”和“医疗生态”两大方向,并持续通过科技能力来加强双轮驱动。事实上,在发展壮大过程中,中国平安更擅长做“减法”。如果把中国平安比作一棵大树,中国平安在成长过程中一直在修剪,确保长得直、长得好。
马明哲表示,在综合金融生态里面,中国平安实现“一个客户、一个账户、多个产品、一站式服务”,这种模式*的好处是能够增加客户黏度、客户的频率、客户的忠诚度,这个模式*的挑战就是一荣俱荣、一损俱损。所以中国平安在服务要求、质量、客户体验方面会更高、更严格。未来,中国平安的综合金融模式会显现它的独特差异化竞争优势。
马明哲还表示,在“医疗+健康+养老”生态下,随着新的保险行业演变,未来一二十年会逐渐形成新的趋势,“冷冰冰”的金融服务模式将不再适用,只有把金融和医疗、健康、养老结合起来,才会有更好的发展前景。
今天的内容先分享到这里了,读完本文《平安科技》之后,是否是您想找的答案呢?想要了解更多平安科技、全国新房平均价进万元时代相关的财经新闻请继续关注本站,是给小编*的鼓励。