2019年11月9日,新葡的京集团8814登录入口大数据与管理科学系列讲座“Machine Learning andAI: From Stochastic Modeling’s Perspective”在新葡的京集团8814登录入口318会议室顺利举行。本次讲座很荣幸邀请到美国西华盛顿大学经管学院决策科学系张喆教授作为主讲嘉宾。张喆教授同时也是加拿大西蒙弗雷泽大学碧迪商学院的兼职教授和不列颠哥伦比亚大学的客座教授。讲座由王金亭教授主持,与会嘉宾有香港城市大学谢旻教授、北京航空航天大学杨军教授、中财大管理科学系井帅副教授、陈俊霖副教授、孟凡老师以及来自北京航空航天大学、北京交通大学、北京科技大学、北京信息科技大学的青年教师,中财大金融学院、管工学院的部分研究生和本科生也参加了本次讲座。
讲座的内容主要分为两个部分,第一部分为机器学习的简单介绍,第二部分为以多臂匪徒问题(the multi-armed bandit problem)为例子,对数据模型的深度讨论。张喆教授首先将机器学习与传统的数据处理进行了比较,指出了机器学习更注重于程序的自我更新而非传统上数据处理效率的加强。张喆教授以幽默的语言,通过实例引出了学习的四大主要类别:1、无监督学习(unsupervised learning),2、有监督学习(supervised learning),3、半监督学习(semi-supervised learning),4、强化学习(reinforcement learning)。随后从试验数据的收集,目标方程(target function)的确定,再到选择合适的学习算法,简单阐述了如何设计一个机器学习系统。
接下来,张教授以多臂匪徒问题为例,开始了第二部分的详述。玩家在多臂匪徒问题中,将面对两种策略,其一为基于当前所知的所有信息做出最有利的行动(exploitation),其二为继续为试验收集信息(exploration)。张教授将简单的多臂匪徒问题实例,推广到k阶模型,引出了“the k-armed bandit problem”。当在游戏中的时间很长时,收集信息的必要性将愈发地凸显出来,所以无论玩家是否选择exploitation,都有必要去收集信息。随着讨论的逐渐深入,张教授再为模型引入了后悔值并经推导得出结论:最大的累计回报等于最小的累计后悔值。
在对公式与匪徒问题的回顾后,张教授分别给出三种不同的方法对模型的合理性进行阐述,分别为1、Action-Value methods,2、epsilon-greedy action,3、UCB(upperconfidence bound)action selection。张教授重点对UCB行动进行了解释,并通过该策略得出:对一个估值大的行动,越是不确定越是需要去进行选择,充分体现了“爱拼才会赢”的社会现象。在讲座的最后,张教授对本次课题做出总结道:虽然模型是简单的,但是我们面对的实际问题却仍是复杂问题,AI、大数据的底层框架仍是机器学习、强化学习,其理论基础是随机过程建模和优化,因此找到exploitation与exploration的平衡才是核心。
师生们围绕着本次讲座的主题,从机器学习的底层架构,到实际的应用问题,纵向化全方位地进行了讨论与提问,张教授也耐心地一一进行回答与提出自己的见解,学术氛围浓厚而热烈,最后留下珍贵的合影以作纪念。
此次张教授的学术报告,深入浅出地介绍了机器学习的随机过程建模与框架,不仅使得各位研究生们受益匪浅,也给各位出席讨论的老师们启发。
讲座得到了“龙马奋进-校庆70周年学术系列讲座”和2019年新葡的京集团8814登录入口专题学术讲座项目资助。