我院赵阳阳老师和彭辉教授等在《Transportmetrica A: Transport Science》发表论文

发布者:常青发布时间:2024-10-19浏览次数:10

学术论文

近日我院赵阳阳老师与彭辉教授等在国际交通运输期刊Transportmetrica A: Transport Science》发表“Predicting metro incident duration using structured data and unstructured text logs”学术论文,其中赵阳阳老师为本文第一作者,其他合作者包括瑞典皇家理工马振良副教授和麦吉尔大学程展鸿博士。

 

研究背景

地铁系统呈现网络化的快速发展趋势,但同时各类运营事故造成的负面影响也愈发严重。精准预测地铁事故持续时长,对于乘客出行方式选择和应急措施优化意义重大。既有研究主要基于结构化数据(如事故类型和时空位置)进行预测建模,忽略了非结构化文本中包含的事故起因细节及事故应对措施等信息,预测可靠性有待进一步提升。

 

主要内容

考虑地铁事故非结构化数据的短文本属性,本文将一种针对短文本的词对主题模型应用于地铁事故时长预测模型中。在贝叶斯框架下,该模型假设语料库(事故文本集合)中的事故主题及各主题中的词对先验分布均服从狄利克雷分布,结合实际观测的事故主题多项分布及主题词对多项分布,利用狄利克雷与多项分布共轭得到语料库中事故主题与主题词对的后验分布,最终通过吉布斯采样完成各文本事故主题的分布推断并将其作为事故时长的预测变量。由于利用整个语料库进行事故主题建模并考虑了文档的上下文信息,该模型克服了传统LDALatent Dirichlet Allocation)模型在处理短文本时产生的主题过于均匀或集中的不足,挖掘的事故主题表征性更强。利用连续五年的港铁事故数据进行模型实证,结果表明:由于利用了非结构化数据中的事故起因细节信息及事故应对措施信息,融合该主题模型可进一步提升统计算法与机器学习算法的预测精度,同时该模型更加适用于事故样本少且事故严重度高的预测场景。

 

论文链接:https://doi.org/10.1080/23249935.2024.2396951