上海管理论坛第575期
题目:Integrating Simulation, Optimization and Reinforcement Learning for Sequential Decision Problems in Supply Chains(融合仿真、优化与强化学习求解供应链序贯决策问题)
演讲人:李海涛教授,密苏里大学圣路易斯分校
主持人:李洪波副教授,欧博app官方管理学院
时间:2026年6月22日(周一),下午15:00
地点:欧博app官方校本部东区1号楼管理学院420会议室
主办单位:欧博app官方管理学院、欧博app官方管理学院青年教师联谊会
演讲人简介:
李海涛教授现任美国密苏里大学圣路易斯分校(University of Missouri–St Louis, UMSL)供应链与数据分析系主任,先进供应链分析实验室创始主任。2005年获美国密西西比大学运营管理博士学位,2002年取得该校经济学硕士学位;2000年于北京航空航天大学工业外贸专业获工学学士学位,辅修航空工程。主要研究方向为优化建模、算法设计及其在供应链领域的应用,研究范畴包含供应链网络设计、供应链架构规划、资源配置、项目调度、车辆路径优化等。其主持科研项目先后获美国交通部、美国国家科学基金会、美国陆军研究办公室资助,同时承接惠普实验室、Express Scripts公司、Ameren集团、Cass信息系统、美国供应链管理协会(ASCM)等多家企业与行业机构横向课题。2015年荣获密苏里大学圣路易斯分校Douglas Durand杰出科研奖;拥有两项美国专利、多项技术发明备案,先后获评2015年度UMSL年度发明家、2025年度校级资深研究员。目前担任《Journal of the Operational Research Society》《Transportation Journal》副主编、《International Journal of Project Management》编委。论文发表于Transportation Science、European Journal of Operational Research、Decision Sciences、INFORMS Journal on Applied Analytics等知名期刊。
演讲内容简介:
信息技术的迅猛发展以及海量数据的广泛获取,为供应链中的新型商业模式和数据驱动的优化决策支持开辟了发展空间。本报告将首先介绍一类在不确定性条件下的序贯决策问题及其在供应链战略层、战术层和运营层面的应用。随后,将介绍马尔可夫决策过程(MDP)建模框架,以及两种通用的求解策略:开环策略和闭环策略。尽管从理论上讲,闭环策略优于开环策略,但计算最优闭环策略需要求解贝尔曼方程,而对于大规模问题,这会遭遇著名的“维度灾难”。为克服这一计算挑战,我们提出了一种通用的近似动态规划(ADP)框架,融合仿真、优化与强化学习方法,称为Sim-Opt-RL,为高维MDP提供高质量且计算上可行的闭环策略。报告还将展示Sim-Opt-RL在随机资源规划和随机资源受限项目调度问题(SRCPSP)中的应用。
欢迎广大师生参加!