简介
在实际数据分析、建模过程中,经常会遇到丰富的地理位置数据,如经纬度、户籍地址、收货地址、手机归属地、公司地址、LBS等。
但大多数情况下,这些数据既不能直接拿来用,也可能存在各种问题——地址标准和格式不统一,缺少省份或城市,手工填写的虚假、错误地址,地址信息不具体。
面对这么一堆占用存储资源的junk,怎样才能使其变废为宝,从中获得有效的信息?
这就需要地理位置信息数据的加工和处理。例如,地址补全和标准化、经纬度转换地址或地址转换经纬度,地址的完整度、可信度计算,地址之间的文本相似度、直线距离计算等。
有没有一种工具,可以一键解决以上所有问题呢?别做梦了,哪有这么好的可以让你偷懒的事情?
还真的有——这就是我造的新轮子LBSR语言程序包。
地理编码、逆编码,地址完整度、可信度、地址之间文本相似度、距离计算,用它,就够了。
支持并行计算,我四核八线程的Surfacepro7,使用7个线程,1分钟可以处理1万+地址补全、经纬度获取和转换、地址相似度、完整度和距离计算。
地理编码和逆编码同时支持调用百度地图和高德地图接口。
LBS包的地理信息词库收集了中国(包括港澳台)38万个地理名称关键词,可以精确处理地理文本信息。
安装和加载LBS包0.1.0版本即将发布在CRAN,由于CRAN审核周期较长,目前可在github下载安装。
install.packages("devtools")library(devtools)install_github("FanHansen/LBS")
library("LBS")地址标准化、补全、获取经纬度