本科毕业于清华姚班、博士毕业于普林斯顿大学,师从 Sanjeev Arora 教授,马腾宇作为 AI 学界一颗冉冉升起的新星,如今已在国际顶级会议和期刊上发表了 20 篇高质量的论文,曾拿下 2018 ACM 博士论文奖等诸多重量级的学术荣誉。

日前,在北京智源人工智能研究院主办的海外学者报告会上,马腾宇带来了一场干货味十足的报告,不仅基于近期聚焦的研究工作“设计显式的正则化器”分享了理解深度学习的方法,还基于自己的研究经验分享了不少研究方法论和观点。

他指出,最近机器学习领域的一个很火的话题是「双重下降」(Double Descent)现象,就是说测试误差并不是单一下降的,而是双重下降。而最近他们在一项工作中,尝试展示的则是在将算法正则化之后,可能就不会再出现双重下降现象。

目前,一些乡村学校采取和城市学校一样的办学模式,然而乡村学校以升学率为指向组织教学,只会导致学校因竞争不过城市学校而衰落。为学生提供包括乡土教育在内的完整教育,才是乡村学校的正确选择。

同时,他强调,计算机科学跟物理、生物等传统科学的不同之处在于:可以不断地设计新的算法。“虽然我们无法理解现有的深度学习算法,但我们可以设计我们既能理解又能保证有效的新算法。”

从教育发展角度看,乡村学校拥有城镇大规模办学学校所没有的优势,所谓的乡村学校必将衰败的论调是站不住脚的。关键在于,乡村学校要用好其优势,为孩子提供真正的优质教育。

三、无法理解现有的深度学习算法?那就设计一个能理解的!

有媒体报道称,孙某之所以犯下如此恶行,是因为他对杨某医术的不满意,认为他的亲属在杨某的诊治下没有达到预期的效果。而在行凶之前,他已多次向院方进行反映和投诉。事情的真相究竟如何,尚待警方的调查,但是无论什么原因,诉诸如此血腥暴力的手段,都失去了其正当性,任何理由都无法为孙某的暴行开脱,等待孙某的必然是法律的严惩。

2019 年 Nagarajan 等人的一篇 NeurIPS 最佳论文奖展示了一致收敛无法说明深度学习中发生的现象。他们举出了一个反例来说明这一点,虽然这个反例非常令人信服,但是仅仅是针对现有算法成立的一个反例。即算法加入正则化之后,这些反例很有可能就不再成立了。

那如何检验是否做到了将优化和统计数据分离呢?

这是因为现在的深度学习模型与之前的模型相比,一个核心区别就在于:此前的传统观点认为,当数据数量远超过参数数量时,模型才能泛化;而在深度学习时代,观点则相反,认为成功的模型应该有更多的参数、更少的数据量。所以现在深度学习模型要实现泛化,需要的参数多于数据量。

在这种经典的机器学习范式下,重点关注的则是研究怎样的复杂度可以让模型实现更好的泛化性能。而对于「算法倾向于得出低复杂度的解」这一研究瓶颈,则「全看运气」。

中金公司表示,2020年开年后A股市场延续强势表现,尤其是深证成指和创业板指已经突破2019年4月的高点。当前位置来看,虽然受短期国际地缘风险加大、1月正值解禁高峰期、部分公司商誉减值风险再现、个别去年强势龙头公司股价回调等因素影响,不排除指数短期波动略有加大的可能性,但综合内外部因素考虑,短期外部干扰可能无碍市场中期走向积极,看好未来3-6个月市场表现。(中新经纬APP)

常见的方法是隐式的正则化方法,分析该方法可以聚焦于两个方面:第一,算法更偏好低复杂度的方案;第二,低复杂度的模型泛化得很好。分析好这两个方面,就可以理解现有的算法,同时探索新的度量复杂度的方法——因为算法偏好的复杂度基本就是正确的复杂度度量方法。

不过这种「低复杂度」其实是很难定义的,因此更核心的问题是如何正确定义模型复杂度,以及我们可以通过什么方法能衡量并找到正确定义的复杂度。这是他们希望通过一些理论研究来解决的问题。

所谓解铃还须系铃人,防范暴力伤医事件还需要从消解医患矛盾入手。需要看到,大部分医患矛盾是基于双方信息不对称引起的,鉴于此,化解医患矛盾的关键就要建立和完善医患双方的信任基础,对于医疗纠纷的当事人,给予一个更多医疗信息获取的渠道,让这些患者有更多机会了解病情的实际情况。同时,需要给医患双方一个心理疏导的渠道,让双方可以平心静气地进行交流。

他呼吁道:「虽然我们无法理解现有的深度学习算法,但我们可以设计我们既能理解又能保证有效的新算法。我认为计算机科学领域的研究者可以把研究做得更主动一些。」

他指出,现在用来理解深度学习的常用方法是隐式的正则化方法,然而他们在研究中发现,显式的正则化方法可能是更好的选择。

暴力伤医、杀医事件频频发生的结果是,媒体和公众对这类事件越来越麻木。有人甚至表示“高兴”“杀得好”,这种现象无疑是不正常的,伤及了许多把“救死扶伤”作为职业理想的医疗工作者和学生的心。杨某去世后,有不少人在社交平台表示考虑要“改行”、“重新考虑自己的选择”、“不会让自己孩子学医”。长此以往,势必会影响到医疗质量和医疗安全。

从沪深港通南北资金流向看,截至发稿,北向资金净流入41.14亿元,其中沪股通净流入13.1亿元,当日资金余额为506.9亿元,深股通净流入28.04亿元,当日资金余额为491.96亿元;南向资金净流入19.6亿元,其中沪港通净流入11.17亿元,当日资金余额为408.83亿元,深港通净流入8.43亿元,当日资金余额为411.57亿元。

除了学业压力之外,很多城镇学校采取“圈养”方式管教学生,还有现实的安全管理压力。对于学生规模较小的乡村小学来说,学生在户外开展教学活动,安全压力并不大。“小”可以成为乡村学校的办学优势,户外活动、小班化教学、个性化教育、人本教育,让大家看到教育本来应该有的样子。

在公告中并未说明《怪物猎人》开发团队缺席活动的原因,但很有可能是受到最近新冠疫情的影响。

如果把学生近视率视为评价学校教育理念的指标,范家小学无疑走在前列。而这先进的教育理念,不过是坚持了教育的常识,即不对学生进行“圈养”教育,多开展户外教学活动。

他指出,从方法论的层面来看,深度学习当前存在的一个非常核心的挑战就在于需要很大规模的数据才能实现泛化,并且数据量的规模需要大到非常夸张的地步,以至于他认为学术界很难完全收集这么多数据,往往只有工业界能做到。

资金流向方面,行业板块主力流入前五名的是计算机应用、化学制品、汽车零部件、电子制造、互联网传媒,流出前五名的是计算机应用、化学制品、黄金、汽车零部件、营销传播。位居主力流入前五位的个股是科大讯飞、赣锋锂业、中国石油、山东黄金、蓝色光标,流出前五位的个股是山东黄金、三花智控、科大讯飞、紫金矿业、蓝色光标。排在主力流入前五位的概念题材是融资融券、转融券标的、MSCI概念、深股通、沪股通,流出前五位的概念题材是融资融券、转融券标的、MSCI概念、深股通、沪股通。

一、为什么过参数化的深度学习模型能实现泛化?

隐式/算法的正则化方法,为了达到要求,需要对算法进行正则化,算法会倾向于得出低复杂度的解。然而从很多算法正则化相关的论文中,他们发现在说明「算法倾向于得出低复杂度的解」方面遭遇瓶颈,而在说明「低复杂度的解泛化得更好」方面则比较简单。

雷锋网 AI 科技评论报道。

科学研究的内容更多的是世界上已经发生或存在的客观现象(比如黑洞),而在计算机科学中,研究者可以不研究发什么什么,而是去研究任何想要研究的事情。

那为什么现在过参数化(Overparametrized)的深度学习模型能够泛化呢?

在笔者看来,乡村学校要发挥其“小”以及立足乡村办学的优势,办出城市学校不具有的特色。这不但可以避免乡村学校衰败,而且可因“小而美”“小而特”吸引学生回流。范家小学2019年秋季开学时,就迎来了从外地转来的11名学生,有的父母甚至在学校附近的村子里租下房子陪读。

第一,在模型训练和收敛方面,学习率至关重要。例如在他们最近的一篇 NeurIPS 论文中证明了,一个使用了大学习率的两层神经网络,只能表示线性的函数,因而即使使用了很复杂的模型,在有噪声的情况下也只能表示一些非常简单的解,从而使得模型要比想象中更简单些,这实际上是噪声在深度学习中起到了正则化的作用。 第二,初始化方法对模型的复杂度,也有同样的效果。例如 Chizat Bach 在 2019 年发表了一篇论文,证明了大的初始化状态更容易得到最小的神经切线核范数解。而他们自己的一些工作,则证明了小的初始化更偏向于得到更加「丰富」的状态,会比核状态更有意思,比如说最小的 L1 解或者原子核范数解。Woodworth 等人有一项工作基本上就说明:一个较小的初始化的模型,会收敛到一个最小的 L1 解而不是 L2 解上。

暴力伤医、杀医事件不应成为社会的顽疾。在杨某被袭后,一些知名医疗自媒体人提出医院应当在公共医疗场所实行安检。诚然,实施安检将会大大降低暴力伤害的等级,但对缓解医患之间的矛盾并没有太多用处。毕竟,安检只能查出刀具,但是不能阻碍拳头。此外,这种“严阵以待”的戒备与防范,还有可能刺激到患者,并引发对立情绪。

因此,显式的正则化方法可能是理解深度学习更好的选择。

截至上一交易日,上交所融资余额报5627.11亿元,较前一交易日增加64.02亿元,融券余额报109.19亿元,较前一交易日减少0.68亿元;深交所融资余额报4495.11亿元,较前一交易日增加89.4亿元,融券余额报30.25亿元,较前一交易日增加1.98亿元。两市融资融券余额合计10261.66亿元,较前一交易日增加154.71亿元。

如果想要理解深度学习,是不是只有理解隐式/算法的正则化这一种方法呢?

总之,医患之间的关系不应该是对立的。患者罹患疾病,医生帮助患者,双方应当是同一条战壕的战友,而不是互相仇视的敌人。(本报评论员朱文龙)

报告中,马腾宇还基于自己近期的研究工作,事无巨细地分享了显式正则化的具体研究示例,雷锋网 AI 科技评论在这里附上马博士 PPT 的相关内容:雷锋网(公众号:雷锋网)雷锋网

“即使是上课,也有三分之一的课是在室外,包括体育课、自然观察、乡土课程。”这可以说是范家小学最典型的教育经验。这看上去虽简单,但很多学校根本做不到。城市家长想方设法给学生增负,给孩子报培训班、找习题,学生的大部分时间被作业和考试包围,都是导致中小学生近视高发的重要原因。相对而言,乡村小学的学生应试压力比城市学校要小很多。

杨某的不幸离世,使得医患关系再次成为了舆论场议论的焦点。近年来,因医患矛盾引发暴力伤医、杀医事件接连不断,就在两个月前,犯罪嫌疑人杨某某在甘肃省人民医院肛肠科持刀对医生冯某某行凶,致冯某某不幸身亡。

(文中观点仅供参考,不构成投资建议,投资有风险,入市需谨慎。)

马腾宇以其团队开展的一些工作为例阐述了一些发现:

因此,如果希望深度学习模型减少对数据的依赖,就需要理解如何能用更少的数据来实现深度学习模型的泛化。

二、隐式/算法的正则化是理解深度学习的唯一方法吗?

对此,马腾宇认为应该要重新回顾一下经典的方法——理解显式的正则化方法。他表示,显式的正则化方法确实也值得被大家关注,而且从短期来讲,它可能是一个更有成效的方法。

兴业证券认为,展望1月,市场仍将继续处于战略进攻期。降准后市场整体流动性处于宽松区间,稳增长政策措施加上2020年首批专项债发放800余亿元,使得投资者经济基本面预期在数据空窗期可持续发酵。行情有基本面预期的催化以及流动性和市场情绪的积极推动,积极作为是投资者当前的不二选择。

深度学习是马腾宇研究组的重要研究方向,他们的主要研究思路是从方法论层面,通过一些数学或理论的分析从技术的角度提高深度学习模型的性能。

雷锋网原创文章,。详情见转载须知。

方法则是,模型在正则化目标函数后,不管使用什么算法都能实现同样的泛化能力,这就能说明优化和统计数据分离了。

盘面上,种植业、采掘服务、石油开采、稀有金属、其他电子等板块领涨;航空运输、机场、医疗服务、房地产开发、水泥制造等板块跌幅居前。概念股方面,农业种植、昨日涨停、Facebook概念、人造肉、特斯拉等涨幅居前,啤酒、医疗美容、房屋租赁、房地产开发、电力改革等跌幅居前。

更多相关资讯请关注:怪物猎人:世界专区

然而在深度学习的时代,模型的泛化都非常难以解释,原因就是很多传统的观点并不再适用了。其中有一些传统的观点还是有效的,比如说奥卡姆剃刀定律(Occam’s Razor),指的是低复杂度的模型也可能泛化得很好。

马腾宇表示,他们现在也证明了能够使用显式的正则化方法来替代隐式的正则化方法,虽然还无法完全替代,但他相信正在朝着这个方向前进。

我们下面来看马腾宇的报告内容:

显式的正则化方法的不足点是需要改变算法,因为正则化复杂度势必就会改变算法。然而其优势在于,不仅仅能够理解现有的算法,还可以设计一些新的复杂度度量或正则器,设计一些新的算法,并将优化和统计数据分离开来。

这些工作的核心思想是,不同的算法有不同的偏好,而不同的偏好则会有不同的复杂度量,学习率会有偏好,初始化状态也有偏好。

个股方面,2635只个股上涨,其中福蓉科技,顺网科技,莱美药业等149只个股上涨幅度超过5%。916只个股下跌,其中四川成渝,御家汇,漫步者等18只个股下跌幅度超过5%。

在当下 AI 界的普遍认知中,深度学习的内在机理无法理解,本质上变成了一个科学问题。对此,马腾宇指出,计算机科学跟物理、生物等传统科学的不同之处在于:可以不断地设计新的算法。

换手率方面,共有14只个股换手率超过20%,其中天迈科技换手率最高,达45.76%。

当然,医疗安全是一个系统的工程,不能仅仅靠医院独立完成,相关部门也要对每一次暴力伤医杀医行为重视起来,不能“见多不怪”、麻木不仁。一方面,要尽快查清真相,对案件中的最新进展要及时公布,让关爱医护人员成为全社会的共识。另一方面,要认真分析这些年暴力伤医事件的原因,从中找到医患冲突的爆点,是医疗体制上的原因就改革体制,是医疗资源不均衡的问题就调控资源,从根源上排除对医护人员的潜在威胁。