11月8日下午,应新葡的京集团8814登录入口邀请,清华大学工业工程系邓天虎副教授做客“智能管理交叉学科”系列讲座,报告了研究论文“Data-driven Policy in Long-run Average Assemble-to-order Systems”。本次讲座在学院4号楼106教室举行,陈俊霖副教授主持,新葡的京集团8814登录入口李玉龙教授、杨帆副教授、吴国滨助理教授出席,管理科学专业及建设经济与管理专业23级研究生认真聆听了本次讲座。
邓老师开篇介绍了论文的研究背景。结合华为手机库存管理现实例子,提出了ATO(Assemble to Order)系统面临的挑战。在现实中,企业通常无法确定产品的需求,另外零部件具有通用性,补货和装配决策需要同时进行。面临这种高纬度且需求分布未知的马尔科夫决策过程问题,传统的供应链研究方法很难找到最优的联合策略。文章构建了一种基于强化学习方法的数据驱动策略,使用神经网络方法解决多期多产品的高维供应链决策问题。在研究设计方面,文章使用马尔科夫决策过程建模,并使用SSA(Sample-Average-Approximation)方法求解。进一步提出了凸神经网络(CTD3)算法,发现将供应链问题的凸函数特征应用到神经网络中可以提高算法的收敛效果。文章还将该研究应用到烟草公司的实例当中,发现CTD3算法表现显著优于TD3算法。文章的研究对供应链管理和强化学习领域都有重要意义,为后续两个领域的交叉研究提供了启发。
报告结束后,邓老师与在场师生就讲座内容展开充分交流,并对师生提问进行了详细的解答。本次讲座内容丰富,研究新颖,引发了与会者对强化学习与供应链管理交叉领域研究的深入思考,进一步活跃了学院的学术氛围。最后讲座在热烈的掌声中圆满结束。
撰稿人:邓淳月 陈俊霖
审核人:刘志东