集时空聚类和指标筛选的公共交通通勤者识别

时间：分类：科学技术论文浏览次数：

摘要：通勤者作为公共交通乘客构成的核心部分，其识别提取是此类人群特征分析的前提。本文基于南京市常规公交、轨道交通和公共自行车的刷卡与设施数据，进行公共交通通勤者识别。首先，根据数据信息是否完整，分别采用两步聚类法和线路相似性整合法提取相似

　　摘要：通勤者作为公共交通乘客构成的核心部分，其识别提取是此类人群特征分析的前提。本文基于南京市常规公交、轨道交通和公共自行车的刷卡与设施数据，进行公共交通通勤者识别。首先，根据数据信息是否完整，分别采用两步聚类法和线路相似性整合法提取相似性出行;然后，识别职住地;最后，通过出行天数、单次出发时间差和工作往返出发时间差项指标完成筛选。经通勤调查验证和方法有效性比较，各类参数取值合理，方法有效并存在应用优势。本文提出的通勤识别方法将出行时空规律与指标筛选紧密结合，并考虑了数据完备与不完备条件下的不同数据处理思路，方法通用性和操作性强，识别结果能够为公共交通通勤乘客特征分析提供数据基础，有效指导后续城市公共交通设施布局和和服务优化。

　　关键词：公共交通;通勤识别;时空聚类算法;通勤者;多源数据;相似性出行

公共交通

　　引言

　　通勤出行在城市出行总量中仍占据绝对多数，同时存在明显的时空规律性，较为适合公共交通方式通过线路布设、班线运营等方面的高效组织，提升城市交通资源的使用效率。公共交通通勤者识别作为后续此类群体出行特征分析的基础工作，在公共交通规划与管理研究中至关重要。早期由于技术限制，国内外文献多通过传统通勤调查或居民出行调查研究公共交通通勤特征，直接从被调查的通勤乘客中分析使用公共交通工具出行的乘客特征;后期随着信息技术的发展，学者大多基于公共交通刷卡数据，辅以其他数据或者机器学习等新技术手段，来开展公共交通通勤人群的识别研究。

　　交通论文投稿刊物：《城市公共交通》(月刊)创刊于1989年，是中国土木工程学会、北京市公共交通总公司暨城市公共交通专业分会主办及编辑出版的、公开发行的综合指导性学术期刊。

　　目前较为常见的依托公共交通刷卡数据的通勤者识别方法大致分为三种：一是利用刷卡数据中的“卡类型”字段来识别，部分国家如日本会发行针对通勤(学)人群的“通勤票”;二是融合公共交通刷卡数据、空间数据、出行调查数据等数据来识别，如识别职住地后再提取公交通勤者出行信息;三是仅使用公共交通刷卡数据，从时间的重复性和稳定性角度设置识别规则，包括一周首次刷卡总次数和首次刷卡时间差、高频OD对的出行频次和出发时间标准差等指标，或是利用聚类、分类、神经网络10等机器学习算法进行判别。

　　目前研究较多直接对指标设定筛选规则来识别公共交通通勤者，选取指标时主观性较强，阈值设定单一，无法较完整和准确地表征通勤者出行规律;而仅使用机器学习算法识别时，仍存在指标计算复杂、对通勤者表征程度不足的问题;同时，识别方法较少考虑实际数据质量，实用性较弱。

　　因此，本文基于南京市公共交通系统刷卡和设施数据，提出一种集时空聚类和指标筛选的公共交通通勤者识别方法，以时空密度聚类算法(DensityBasedSpatialClusteringofApplicationswithNoise,STDBSCAN)为基础算法，根据数据情况提出两步聚类法和线路相似性整合法，为基于职住地与指标识别的筛选操作缩小了识别范围，可操作性和通用性强，能够为公共交通通勤乘客的相关分析提供数据基础，同时对公共交通设施与服务优化提供一定的参考依据。1研究数据

　　1.1数据描述

　　本文以南京为案例，研究的公共交通系统数据分为刷卡和设施数据两类，时间范围为2019年12月。(1)刷卡数据包括公交、轨道交通和公共自行车刷卡数据，包括乘客个人和乘车时空信息(其中公交刷卡数据受一票制计费和设备记录影响，下车均无位置信息，部分上车无位置信息)，匿名乘客编号项成为公共交通系统乘客的唯一标识。(2)设施数据为这三类公共交通方式的线路和站点信息，包括站点线路编号和空间信息。

　　1.2数据处理

　　通勤者的通勤出行具有时空和模式上的稳定性，可以作为通勤者识别的依据。乘客每次公共交通出行的信息提取是基础，需要对数据进行预处理、换乘识别和出行信息整合操作。Step1数据清洗。剔除错误和重复数据，统一字段格式，并将刷卡表整合为一份公共交通系统刷卡数据，共2,239,532条数据。Step2换乘识别。由于存在同一次出行对应多条数据的情况，故需要识别乘客的换乘行为，将不同出行阶段的记录整合为一条出行记录。本文采用经纬度空间距离计算与公交线路可换乘站点提取并行的方法，判别空间层面方式间换乘的可行性，阈值设为500m11。

　　将相邻出行阶段记录的时间差与95%分位时间阈值比较，得出最终的换乘行为识别记录。Step出行信息整合。将每位乘客每日每次出行的第一阶段出发地信息作为该次出行的出发地信息，最后一阶段的到达地信息作为该次出行的到达地信息，整理后得到1,562,668条公共交通出行数据。本文基于出行时空规律性来识别通勤者，故需要提取出部分关键的出行字段(如表所示)，包括乘客编号USERID、出发时间ONTIME、出发地经度ON_LNG、出发地纬度ON_LA、到达地经度OFF_LNG、到达地纬度OFF_LAT以及乘坐线路名称TRIPROUTE。

　　2通勤者识别方法

　　2.1识别思路

　　本文所提识别方法分为相似性出行整合和两步筛选两个步骤：首先，依据乘客在研究周期的出行集合中是否存在相似性出行，对乘客进行初步筛选，以获得具有规律性出行特征的候选通勤者;然后，通过识别候选通勤者的职住地并完成对应的通勤出行初步提取操作，再利用识别指标进行筛选，以得到最终的通勤者识别结果。

　　2.2相似性出行整合法

　　本文中的相似性出行是指具有相似起讫点位置和出发时间的出行集合，每位乘客在研究周期内的出行都将被分为不同的组别，同一组别的出行即为同一类出行。类似地，时空聚类指的是根据一定的相似性准则将时空实体划分成一系列较为均匀的子类(即时空簇)，其中相似性的判定依据为时空聚类中的聚类参数，时空实体在本研究中即为公共交通出行，聚类结果即为相似性出行，每次出行记录均被赋予对应的组别号。考虑到公交刷卡记录存在信息缺失问题，故将相似性出行整合法分为两类：数据完备时，采用基于STDBSCAN算法的两步聚类法;数据不完备时，对缺失数据采用线路相似性整合法，与完整数据的两步聚类结果进行整合。

　　2.2.1基于密度的时空聚类算法(STDBSCAN)

　　本文将STDBSCAN算法作为基础算法的原因在于：(1)该算法考虑时间和空间双重要素、可识别高密度的簇和低密度的噪声、无需确定初始核和簇数量等优势，常被用于出行模式划分领域。(2)本文所获取的出行数据位置为经纬度信息，相比其他算法研究使用的站点编号更为精确，适用于空间聚类算法。算法是将时空实体的时空邻近域的空间形状定义为一个圆柱体，底面半径为，高为△，该邻近域内的实体数目即为ST的密度，当密度大于等于设定的最小密度值MinPts时，该实体ST即为核心对象。若ST+1位于核心对象ST的时空邻近域，则ST+1从ST直接密度可达;密度可达是直接密度可达的传递闭包，密度相连是密度可达的传递，且为对称关系。

　　时空邻近域的划定和最小密度的取值为算法关键参数，即空间半径、时间窗口△和密度阈值MinPts。本文基于一整月的研究数据进行聚类操作，通过多参数组合比选，将轮廓系数和值作为聚类效果评价指标，并依据肘部法则，最终选定参数=1200m，△=30min，inPts=5。和△分别代表本研究中位置和出发时间相似的判定范围，即相似出发时间差距应≤60min(△)，相似位置差距应≤1200m();而MinPts=5则代表位于相似判定范围的出行记录数应≥个，即同类时空出行的次数不小于次月。

　　2.2.2数据完备条件下的两步聚类法

　　当每次出行的出发地经纬度、到达地经纬度和出发时间个要素齐全时，经以下步骤可完成对每位乘客多次出行的聚类操作。

　　Step1对每次出行的出发地经度、纬度和出发时间进行STDBSCAN算法聚类，得到Cluster1。以USERID=42的乘客出行为例，分为噪声点、Cluster1=1和Cluster1=2三类。噪声点(圆圈)的位置和出发时间较分散，而Cluster1=1(三角)和Cluster1=2(方块)的位置和出发时间相对集中。Step2对每次出行的到达地经度和纬度进行DBSCAN算法聚类，得到Cluster2。乘客在此步的聚类结果，分为噪声点、Cluster2=1和Cluster2=2三类。

　　Step3对每次出行，将对应的Cluster1和Cluster2直接组合为最终聚类结果Cluster3(如Cluster1=1且Cluster2=1时，Cluster3=1)。只有Cluster1和Cluster2取值均非噪声时，Cluster3按类别顺序取值。乘客的最终聚类结果如图(c所示，分为噪声点、Cluster3=1和Cluster3=2三类。噪声点(细实线)代表无规律的出行，Cluster3=1(粗实线)的出发地、到达地位置和出发时间均集中，代表一类具有时空相似性的出行集合，Cluste=2(粗虚线)代表另一类相似出行集合。

　　2.2.3数据不完备条件下的线路相似性整合法

　　当部分出行的起终点位置存在缺失时，无法按上述数据完备条件下的方法完成聚类，因此将出发时间和乘坐线路名称两个字段作为判别属性，即考虑出行时间和线路选择的稳定性，将符合要求的出行加入到数据完备条件下的聚类结果中，得到最终整合结果。

　　步骤如下：Step1对出行数据按乘坐线路名称字段分组为Class1，提取频次≥2的Class1，并对每个Class1分组进行出发时间的聚类，提取其中频次≥2的子类为Class2;Step2将每个Class2子类中出行数据的出发时间与数据完备条件下聚类结果的各分组Cluster3出发时间均值相比较，若低于30min则将此Class2子类的类别号更新为Cluster3分组的类别号，另外若Class2子类中超过60%的出行未加入Cluster3分组，该子类自成一类;Step3将处理后的Cluster3和自成一类的Class2进行整合，得到最终的聚类结果CLUSTER_FINAL。以USERID=9的乘客出行为例，该乘客一月共56次公共交通出行，其中信息完整和不完整的出行均为28次。对信息完整的28次出行进行两步聚类法。

　　得到噪声和Cluster3=1两组(图中未标注噪声数据)。然后，对信息不完整的28次出行进行操作，得到的13条非噪声数据结果。其中Class2=1分组的出发时间与Cluster3=1的出发时间相近，故将其加入Cluster3=1分组，而Class2=2分组自成一类。经过两步聚类法和线路相似性整合法操作后，得到最终聚类结果为噪声、CLUSTER_FINAL=1和CLUSTER_FINAL=2三组。

　　2.3基于职住地与指标识别的两步筛选法

　　2.3.1基于职住地识别的通勤出行标识

　　在提取通勤出行前，需要先对每位乘客的职住地进行判别。一般假设乘客每日首次出行的出发地是居住地7]，通过对乘客的长期出行数据进行空间密度聚类可较易得到，点数最多的簇的空间位置即为居住地所在区域。

　　而工作活动仅为日常活动中的一类，难以直接识别工作地。考虑到通勤出行的规律性特征，统计处理乘客的相似性出行可识别出工作地，步骤如下：Step基于上文得出的相似性出行数据，对从居住地出发出行的到达地和到达居住地出行的出发地进行空间密度聚类，空间阈值仍取1200m，密度阈值为个;Step2统计聚类结果中各簇的点数，点数最多的簇所在空间位置即为工作地所在区域。将从居住地出发和到达工作地频次最高的组别内出行标记为上班，反之为下班。对于公交出行记录位置缺失导致的部分出行起讫点所属类别无法识别问题，可根据同类别相似性出行的标识结果或根据出发时间来确定。

　　3参数验证和方法有效性比较

　　通勤者识别过程中的相似性出行整合和指标筛选操作需要确定多项阈值，其对识别效果具有重要影响。考虑到数据获取滞后性及匿名性，本文结合参数验证和方法有效性比较验证结果。通过问卷调查获取公共交通通勤者在通勤出行频次、时间等方面的真实特征，以验证本文所提方法中的指标取值合理性。

　　4结束语

　　本文融合时空聚类和指标筛选思路进行公共交通通勤者识别，以时空聚类算法中的STDBSCAN算法为基础算法，进行具有相似出行OD和出发时间的出行整合操作，并选取出行天数、单次出发时间差和工作往返出发时间差项指标作为通勤识别指标完成二次筛选。基于南京市数据，经时空聚类，发现样本中55.6的乘客不满足本文设定的出行时空规律;经指标筛选后得到的公共交通通勤者人均出行频次为55次月，工作日出行明显集中于6:009:00和16:0019:00时段，符合传统对通勤者特征的认知，但样本中66.7的通勤者不完全在传统早晚高峰时段进行通勤，本文识别结果较贴合实际通勤者更加多样化的通勤特征。

　　区别于传统研究的指标筛选思路，本文所提的通勤识别方法存在四点优势：(1)不局限于传统早晚高峰时段，注重出行的时空规律性;(2)基于出行起终点的经纬度位置进行聚类，相比站点聚类更为精准;(3)针对数据完备与不完备条件提出不同的处理方法，更符合实际数据状况;(4)基于相似性整合结果利用指标二次筛选，补充通勤者其他特征的判别条件。识别结果可为公共交通通勤者的特征分析以及相应设施布局和服务优化提供研究基础，如多层次通勤公共交通服务体系的构建。由于STDBSCAN算法在时空域上具有一定的延展性，以及参数设置对识别结果存在影响，后续研究可考虑增加簇中时空阈值的限制，同时结合实际数据拟合识别指标，分析取值不同时通勤者与非通勤者的特征差异性，以改进方法并进一步论证，使结果更为符合通勤者出行特征规律。

　　参考文献：

　　[1]KusakabeT,AsakuraY.Behaviouraldataminingoftransitsmartcarddata:Adatafusionapproach[J].TransportationResearchPartC:EmergingTechnologies,2014,46:179191.

　　[2]ZhouJ,MurphyE,LongY.CommutingefficiencyintheBeijingmetropolitanarea:anexplorationcombiningsmartcardandtravelsurveydata[J].JournalofTransportGeography,2014,41:175183.

　　[3]王振张志敏,高洪振.基于轨道交通客流的通勤特征分析[C]//创新驱动与智慧发展——2018年中国城市交通规划年会论文集.北京中国建筑工业出版社2018.

　　[4]李军,邓红平.基于公交IC卡数据的乘客出行分类研究[J].重庆交通大学学报(自然科学版),2016,35(6):109114.

　　作者：周航1，陈学武2,3,4

上一篇：邻近地铁隧道的钻孔灌注桩施工技术研究下一篇：基于视觉SLAM的实例地图构建方法