一种基于线路匹配和词聚类的公交站点数据清洗方法
申请人信息
- 申请人:深圳市城市交通规划设计研究中心股份有限公司
- 申请人地址:518131 广东省深圳市龙华区民治街道龙塘社区星河传奇花园三期商厦1栋C座1210
- 发明人: 深圳市城市交通规划设计研究中心股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于线路匹配和词聚类的公交站点数据清洗方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311703893.1 |
| 申请日 | 2023/12/13 |
| 公告号 | CN117407387B |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F16/215 |
| 权利人 | 深圳市城市交通规划设计研究中心股份有限公司 |
| 发明人 | 邵源; 郑之帼; 赵昱博; 丘建栋; 张协铭; 孙超 |
| 地址 | 广东省深圳市龙华区民治街道龙塘社区星河传奇花园三期商厦1栋C座1210 |
摘要文本
深圳市城市交通规划设计研究中心股份有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种基于线路匹配和词聚类的公交站点数据清洗方法,属于公交站点冗余数据清洗技术领域。解决了现有技术中传统的公交站点数据清洗方法难以对站点位置偏移和站点命名偏差的站点数据采集情况进行精确化数据清洗的问题;本发明基于采集得到的公交线路基础数据,结合城市路网基础数据,将公交线路基础数据与路网基础数据进行匹配,获取线路、站点与路网的关联关系,根据路网匹配结果结合词聚类识别重复采集的公交站点,根据分组后的公交站点名称合并公交站点位置并修正公交站点位置,数据更新后得到清洗后的公交站点数据。本发明实现了公交站点冗余数据的精准化清洗,有效提升了公交运行监控准确性,可以应用于大型城市公交系统数据处理。
专利主权项内容
1.一种基于线路匹配和词聚类的公交站点数据清洗方法,其特征在于,包括以下步骤:S1.获取公交线路基础数据和路网基础数据;具体的:整合地图服务商提供的城市路网信息,采用人工采集或提取公交车辆GPS及开关门信息的方式,获取公交线路的GPS轨迹和线路途径站点及采集得到的对应站点地理坐标,公交线路基础数据包括公交线路的GPS轨迹和途径站点,路网基础数据为公交线路的对应站点地理坐标;S2.进行公交站点路网匹配,得到最终的站点路网匹配结果;S21.采用隐马尔可夫状态转移方法将公交线路途径站点匹配至路网基础数据;S22.根据路段长度进行路段消除,整理路网得到基础路网;S23.根据基础路网更新公交站点路网匹配,得到最终的站点路网匹配结果;S3.基于最终的站点路网匹配结果进行站点筛选及分组,得到初步的公交站点分组;S4.基于词聚类优化公交站点分组,得到最终的公交站点分组及其对应的有效站点位置信息;S41.采用TF-IDF方法进行公交站点名称向量化,得到公交站点名称向量组;S42.基于公交站点名称向量组,采用聚类方法对初步的公交站点分组进行进一步下级分组处理,得到最终的公交站点分组;S43.采用DBSCAN算法对公交站点位置进行聚类,清洗异常数据,得到有效站点位置信息;S5.基于最终的公交站点分组,对公交站点位置进行合并和修正;S51.进行公交站点位置合并;S52.进行公交站点位置修正;S6.根据合并和修正后的公交站点位置,更新公交线路途径站点,得到数据清洗后的公交站点数据。 关注微信公众号马克数据网