(图片来源网络,侵删)
关注“测绘学术资讯”融合LJ1-01夜间灯光和微信定位数据的人口空间化——以北京市为例王熙,宁晓刚,张翰超,王浩,郝铭辉(中国测绘科学研究院,北京100036)摘 要:针对现有单独的夜间灯光数据在街道尺度的人口空间化存在精度有限的问题,该文选用微信定位数据基于不同带宽的核密度估计,结合珞珈一号夜间灯光数据(LJ1-01),经几何平均融合,再采用顾及空间自相关性和空间异质性的地理加权回归模型,最终形成北京中心城区人口空间化数据。实验结果表明:通过宏观遥感数据和微观定位数据的融合,与统计人口的相关系数由融合前的0.565(仅采用LJ1-01夜间灯光数据)和0.795(仅采用微信定位数据)大幅提升至融合后的0.839,平均相对误差(MRE)由35.86%、23.18%下降至19.14%(在城市核心区为13.1%),实践表明融合LJ1-01夜间灯光数据和微信定位数据的方法在城市核心区的人口空间化具有良好潜力。0 引言人口数据空间化是指人口统计数据按一定的规则,从行政单元向规则格网单元的离散化转变过程,在城乡划分[1]、城市规划[2]、自然资源环境与人口交互作用[3]、灾害风险评估[4]、资源配置[5]等定量化研究与应用中具有重大潜在价值。人口统计数据由政府组织实施,以人口普查小区为统计单元进行普查和抽查经逐级汇总而得。人口统计数据通常会涉及性别、年龄、民族、受教育程度等多个方面,理论严谨,具有权威性、系统性和规范性的优点[6],但因为时间分辨率低、未能有效体现人口空间分布差异[7]、与自然和经济社会数据的应用分析困难[8]等问题,造成统计数据难以反映现实情况和满足实际需求,经空间化的人口数据则不存在上述问题。 夜间灯光数据具有综合反映人类活动情况的特点,以较广的数据覆盖面快速表征人类夜间活动空间分布的强度和广度,因而广泛应用于人口空间化研究[9-13]。经典的夜间灯光影像数据DMSP/OLS(defense meteorological satellite program/operational linescan system)具有长时序累积数据,成为灯光数据中多时序研究的首选数据,但存在星上定标缺乏、空间分辨率过低、像元饱和等问题,使其较多地应用于大中尺度的人口空间化研究。新一代夜间灯光数据NPP/VIIRS(suomi national polar orbiting partnership/visible infrared imagingradiometer suite,NPP/VIIRS)在DMSP/OLS基础上已完成在轨辐射定标和像元饱和纠正,较高的空间分辨率使其在中低尺度的应用较为广泛。相比NPP/VIIRS,珞珈一号夜间灯光影像(LJ1-01)的空间分辨率、光谱分辨率、时间分辨率都有较大提升,但在提升细节探测能力的同时,也增大对城市亮化工程等与人口分布不密切设施的灯光探测能力,这给人口空间化带来干扰信息。尽管夜间灯光数据具备综合反映人类活动的优点,但受像元溢出、短暂灯光、经济发展水平、产业结构等因素的困扰,单纯的夜间灯光人口空间化结果精度有限[14]。 人口空间分布是微观个体运动集聚而导致的宏观现象,是典型的“自下而上”的问题。以“自下而上”方式记录个体的地理位置数据是获取人口空间分布最简单、最精确的方法,也是人口空间化今后研究的方向[15]。随着移动互联网和位置服务(locate-based service,LBS)的蓬勃发展,运营商定时收集海量的个体用户位置数据,这些位置大数据能较为准确地体现用户使用服务的时间、空间位置和定位次数等信息。吴中元[16]利用腾讯位置大数据和多项式模型完成南京秣陵街道的人口空间化;文献[11]基于出租车行程轨迹数据实现居民区和商业区的人口再修正。在众多地理位置数据中,微信定位数据来源于用户使用应用时发生的定位申请,微信后台按照一定算法将其转换为相对人口热力,其数据颗粒度达到30 m左右,相比于腾讯位置大数据的1~5km,具备更高的空间分辨率。据2018微信用户报告,微信月活跃用户达到10.82亿,55岁以上月活跃用户超过6300万,使得微信成为受众年龄段分布最广的社交媒体应用[17],尤其在北京、上海等一线城市,微信用户覆盖率超过93%,使得微信定位数据成为上述地区偏差最小的社交媒体数据[18]。在应用方面,文献[19]利用微信定位数据探索北京绿地空间利用效率的时空格局;文献[20]运用微信定位数据评估北京市海淀区各个社区的宜居性。海量的用户和高比例的大龄用户,使得微信定位数据相对于传统的社交媒体数据(微博签到、点评打卡等,此类数据更受年轻人青睐)在人口空间化方面更具有说服力。然而,微信位置数据因用户的年龄和喜好偏差,难免存在有偏估计的问题。因而单独使用微信位置数据的人口空间化存在精度有限的问题。 单一数据源无法充分反映人口分布的实际情况,多源数据融合成为人口空间化的研究趋势。文献[21]融合夜间灯光和POI生成几何平均指数,弥补夜间灯光边界模糊和POI内部空隙的缺点,实现较高精度的城市建成区的提取;文献[22]在此基础上融合LJ1-01和POI实现苏锡常地区县级尺度的人口空间化。现有人口空间化研究鲜有将LJ1-01和微信位置服务数据融合。鉴于以上研究,本文以北京市中心城区为研究区,综合利用街道级人口统计数据和行政界线,发挥珞珈一号夜间灯光数据(LJ1-01)体现宏观城市人类活动的优点和微信位置服务数据(WX)体现微观个体实时位置特征的优势,通过夜间灯光和微信位置数据的几何平均融合,并采用顾及空间自相关性和空间异质性的地理加权回归模型,模拟形成北京市中心城区100 m人口空间化数据,旨在挖掘LJ1-01和微信位置数据在人口空间化的应用潜力。 1 研究区介绍与数据处理1.1 研究区概况北京中心城区主要指首都功能核心区和城市功能拓展区,包括首都功能核心区(东城区和西城区)和城市功能拓展区(海淀区、朝阳区、丰台区和石景山区),共计130个街道、乡镇和地区,其中首都功能核心区(东城区和西城区)文化古迹聚集、低矮建筑集中、单位大院众多,城市功能拓展区(海淀区、朝阳区、丰台区和石景山区)分布着人口高度集中的高校和高层住宅区,同时也有人口稀疏的广大农村地区,既有广袤的平原地区,又有“三山五园”等地形起伏地区。北京中心城区整体经济发达、人口密集,但乡镇街道间发展不平衡、城乡差距大、人口密度差异极大,是人口空间化研究的热点关注区域。北京城市人口承载压力巨大,对人口精细空间分布提出迫切要求。1.2 数据源与数据预处理本文涉及的数据主要包括北京市街道级常住人口统计数据、北京市街道级行政边界数据、地理国情数据中的地表覆被和要素数据、珞珈一号夜间灯光数据、微信定位数据。具体数据类型、精度和来源见表1。 珞珈一号夜间灯光数据获取完整覆盖研究区且云量小于10%的数据,最终选取2018年9~11月共计3期数据。珞珈一号个别影像存在位置偏差问题,导致影像亮区和实际地物分布不一致[23]。珞珈一号影像城市道路清晰可辨,本文以地理国情数据中的城市主干路网作为基准进行地理配准,配准过程选择若干在影像上均匀分布的道路交叉点。图2表示的是夜间灯光影像配准前后相对于路网的位置,配准前,影像相对路网整体偏西南,配准后,两者范围基本一致。由于珞珈一号夜间灯光数据的辐射校正公式处于完善过程中[24],本文将六期数据的DN值按均值法合成进行实验分析。珞珈一号夜间灯光数据存在着机场、港口等明显偏高的亮区,如图1首都机场街道(右上角飞地)的灯光值明显偏高,不宜直接用于人口空间化研究。为避免水体对空间化结果产生影响,提取地理国情数据中的水体制作掩膜,去除LJ1-01影像的对应区域。 微信定位数据通过Python爬虫从宜出行官网获取,由于微信宜出行官网对数据爬取的IP配额和空间范围的限制,总共获取2018年11月第一周的研究区微信定位数据,经过数据解析、清洗、坐标转换、筛选等过程,得到22点到23点时间段数据,该时间段人口流动小,大部分居民位于家中,微信数据数量较为稳定且与统计人口相关性最强[18],此外,研究区珞珈一号夜间灯光影像的成像时间是UTC14:30(北京时间22:30)左右,微信定位数据时间段选择22点至23点,两者在时间匹配上最佳。以上所有矢量和栅格数据统一投影到CGCS2000 GK 3度带坐标系,中央经线为东经117°。 2 研究方法本文的技术流程图如图3所示,主要分为原始数据、数据处理、数据融合、数据建模和精度分析5个部分。具体方法实现涉及微信定位数据的核密度估计、LJ1-01与微信核密度估值的融合、街道尺度地理加权回归、格网尺度下推和精度验证方法。 2.1 微信定位数据的核密度估计城镇区域具有集聚效应和规模效应,在微信定位数据密度分布图上表现为城镇区域的微信定位数据密度明显高于周围郊区农村区域。微信定位数据采集结果为矢量点模式,参考POI和手机点位数据的分析方法,本文采用核密度估计方法。核密度估计将某一点附近一定距离的规则区域作为密度分析的计算范围,基于地理学第一定律,最终得到研究区域所有点的加权平均密度,实现离散点到连续栅格的转换,表征研究对象的空间分布状态[25-26]。研究表明核密度计算受带宽影响较大,带宽与空间点的离散程度呈正相关,对于稀疏型点分布应采用较大的带宽,而对于密集型点位则应考虑较小的带宽[27]。由于核密度分析对于带宽敏感,确定适合研究区的带宽具有十分重要的意义。结合相关性分析,本文以200m为步长,在ArcMap软件中就研究区微信定位数据进行核密度估计,探索最优带宽,用于后续分析。2.2 LJ1-01和微信核密度估值的几何平均值夜间灯光和微信定位数据对人口表征方面不同,考虑到变量共线性问题,不宜作为解释变量直接放进回归模型进行建模。本文利用城市建成区的微信定位数据密度明显高于郊区和农村地区的规律,结合夜间灯光数据,参照文献[21]在建成区提取方面的应用,提出指数以综合两类数据的优势,具体选用几何平均融合方法,主要基于以下考虑:(1)两类数据与人口数据都呈现强正相关;(2)几何平均值具有受极端值影响较小的特点,可以降低夜间灯光中通常存在的机场、港口等偏高值的负面影响[22];(3)短暂灯光像元周围往往不存在微信定位数据,此时该点的核密度值为0,该指数也为0,即消除该短暂灯光对结果的影响[21];(4)LJ1-01的DN值和微信核密度值之间数量级相差较大,几何平均值可以减少这种差异带来的影响。2.3 街道尺度地理加权回归经典线性回归全局模型会造成模拟值在整个研究区的“平均”,不能恰当地还原局部细节,导致模拟精度受限,而地理加权回归(GWR)的参数根据地理空间位置的不同而变化,进而直观地探测空间非平稳性[28]。此外,线性回归模型依赖于分区建模,存在分区主观、样本缩小的问题[29],而GWR不存在上述问题。2.4 格网尺度下推方法人口空间化是尺度依赖的,不同大小格网对于人口空间分布信息的刻画能力不同。本文按照最小居民地面积法[15]避免某一街道完全落入同一个格网内,且考虑到LJ1-01夜间灯光影像空间分辨率为100 m左右(投影后),最终将格网大小确定为100 m。 在街道尺度回归模型下推到格网尺度的过程中,回归常数项按加权平均的思想进行分配,即同一街道内的各个格网的贡献不一致,比重越大的格网分配到的常数项越多。 3 结果与分析3.1 核密度估计带宽优选和数据融合核密度估计对空间点的离散程度敏感,带宽选择与点的稀疏密集有关。本文将研究区微信点位密度按54个/km2为界分为密集区和稀疏区,以200 m为步长,200m~2 000 m为带宽范围,在ArcMap软件中就研究区微信定位数据进行核密度估计,再结合相关性分析探索最优带宽。 图4展示的是带宽分别为200 m,800 m,1 400 m和2 000 m的微信定位数据核密度图像。由该图可知:带宽为200m时图像细节信息丰富,但破碎程度较高;带宽为800 m时,图像细节逐渐减少,边缘逐渐平滑,图像尚能反映城区内部的微信定位高值和低值区;当带宽上升为2 000 m时,图像对细节的区分度几乎消失,地区间的差异逐渐减少。总体上随着带宽的增加,核密度图像由破碎变为光滑,细节信息逐渐模糊。图5表示的是基于不同带宽的微信定位数据核密度估值与街道统计人口的相关系数,从该图可得知:(1)将微信点位数据按密集和稀疏分开后,相关系数比不分区有较大提高;(2)密集区的相关系数在不同带宽处波动不大,带宽为600 m时达到最大值;(3)稀疏区的相关系数随带宽变化波动较大,呈现出先下降后上升再下降的趋势,在带宽为1 600 m时达到顶峰,表明稀疏区受带宽影响更大;(4)密集区的最优带宽比稀疏区的更小,密集区和稀疏区的最优带宽分别为600 m和1 600 m。 在确定微信定位数据核密度估计的最优带宽后,将其与LJ1-01夜间灯光数据按公式(1)进行几何平均融合,再依照公式(2)实施街道尺度GWR建模,并求解回归系数。图6表示的是统计人口分别与LJ1-01、WX和sqrt_LJ_WX的散点图,由该图可知,融合前,街道级统计人口与LJ1-01和微信定位数值的相关系数分别为0.565和0.795,表明微信定位数值对北京人口分布的揭示作用强于LJ1-01夜间灯光影像;融合后,sqrt_LJ_WX与统计人口的相关系数提升至0.839,较前两者有较大提升,说明sqrt_LJ_WX能融合夜间灯光影像在宏观刻画城市人类活动方面和微信位置服务数据在微观体现个体位置特征方面的优势,表明sqrt_LJ_WX对人口分布的揭示更为明显。 3.2 人口空间化结果分析本文首先在GWR4软件中完成街道尺度的回归模拟,求取对应回归系数,然后按照公式(3)在ArcGIS中实现格网尺度下推计算的初步结果。考虑到回归模型本身误差以及街道尺度向格网尺度转换过程中的不确定性,按照公式(4)对初步结果加以修正,确保街道对应格网的人口模拟值之和与统计值保持一致,最终得到调整后的北京市中心城区人口空间化结果。 图7表示的是基于LJ1-01、WX和sqrt_LJ_WX的人口空间化结果,由该图可知,空间化的人口数据相比于统计人口数据能有效减少行政界线两侧的突变情况,能清楚地反映街道内部的人口空间分布差异,对人口分布的刻画更加精细。由图7(a)可知,基于LJ1-01的人口分布沿城市交通路网现象严重,这与交通路网在LJ1-01夜间灯光影像中清晰可辨有关;在夜间灯光低值区人口估计偏低,这与夜间灯光影像在低矮建筑区灯光偏暗有关;此外,该图显示格网化人口连片现象严重,这可能是受灯光影像的像元溢出效应的影响;整体上,基于LJ1-01的人口分布与现实情况差距较大;图7(b)基本准确地表征人口空间分布,但人口分布的空间差异性体现不足;相比之下,图7(c)更能准确地反映人口分布的情况:北京中心城区的人口分布呈现出多核心和圈层结构的特点,人口主要分布在城市核心区域和近郊乡镇的居民点,远离核心区域的乡镇人口分布稀疏,此外,在核心区域也体现出不同的人口分布情况,例如,北太平庄、中关村、广安门、崇文门、潘家园等人口集中的“热点”和玉渊潭、故宫、中南海、天坛公园、朝阳公园等人口相对稀疏的“冷点”交错分布,大致呈现出低-高-低的圈层结构,从定性的角度,与现实情况相符。 对比图7(a)和图7(c),sqrt_LJ_WX的人口空间分布位置更准确,融合夜间灯光和微信定位数据至少在三个方面对空间化结果有明显提升:(1)LJ1-01夜间灯光影像存在像元溢出效应,导致只依赖灯光影像的人口空间化结果连片现象严重,而微信定位数据空间分辨率更高,经几何平均融合,有效限制灯光的溢出范围,从而减少其负面影响;(2)LJ1-01夜间灯光影像在北京历史建筑集中区域灯光值偏低,造成只依赖灯光影像的人口空间化结果在该区域估计偏低,而微信定位数据在该区域不存在缺失情况,两者融合能有效减缓该现象;(3)LJ1-01夜间灯光影像在城市道路灯光明显,导致人口空间化结果沿道路分布现象严重,而微信定位数据不存在沿道路分布的情况,两者融合能有效避免格网化结果依赖路网的情况。 对比图7(b)和图7(c),空间化结果显示人口分布空间差异性提升明显:微信定位数据由于用户喜好、年龄偏差不可避免存在数据有偏问题,无法完美地代表所有人群。然而,灯光数据是对研究区的综合表征,是全体居民的共同作用结果,不能认为不同年龄段居民对灯光的贡献存在明显差异,因此通过LJ1-01和微信定位数据的融合,有助于减少微信定位数据年龄有偏问题。LJ1-01灯光影像和微信定位数据各自存在缺点,经几何平均融合后得到弥补,从而该方法能有效提升对人口的表征能力。 3.3 模型精度对比与分析由于缺乏居委会/村委会的统计人口数据,本文的定量分析在乡镇街道尺度开展。表2是按照公式(5)公式(6)和公式(7)计算的精度评价指标,由该表可知,基于LJ1-01、WX和sqrt_LJ_WX的GWR模型的决定系数(R2)分别为0.62、0.80和0.85,平均绝对误差(MAE)分别为24 500、17 290和14 973,平均相对误差(MRE)分别为35.86%、23.18%和19.14%,表明基于sqrt_LJ_WX的GWR模型的解释力度最高,对人口分布的刻画更为精确,在人口空间化中表现更优。 表3是对不同误差范围的乡镇街道个数的统计,由该表可知,sqrt_LJ_WX相比LJ1-01和WX在正确估算(RE<=10%)的街道个数由28和41上升至46,在较正确估算(10%<RE<=20%)的街道个数由25和33上升至36,而在估算误差较大(RE>=40%)的街道个数由36和23迅速减少至14,说明单独使用LJ1-01或WX在人口空间方面具有较大偏差,而融合LJ1-01和WX的sqrt_LJ_WX能综合二者优势,既能弥补单一夜间灯光对人口分布刻画不足的缺陷,又能减少微信位置数据有偏的负面影响。研究结果表明本文方法引入微信定位数据可以大大提高人口空间化精度。 图8表示相对误差的空间分布情况,从该图可知:(1)sqrt_LJ_WX的相对误差整体低于LJ1-01和WX;(2)相对误差偏大(RE>=60%)的区域在基于LJ1-01模型中分布比较均匀,而在基于WX和sqrt_LJ_WX模型中主要分布在研究区边缘;(3)相对误差较小(RE<=20%)的街道主要集中在研究区中部区域。进一步分析,研究区西北部精度偏低(五里坨街道RE=73%、香山街道RE=45%)的原因可能是该区域地形起伏大,山地面积占比高,研究未考虑地形地貌等自然因素,因而造成人口空间化精度较低;西南部王佐镇(RE=63%)精度偏低的原因可能是该地属于丰台农村地区,微信位置服务的使用者可能存在较大的年龄偏差和喜好偏差;东北部首都机场街道(RE=63%)精度偏低的原因可能是夜间灯光过高、旅客占比过高导致的误差;位于城市核心区的前门街道(RE=78%)相对误差偏大的原因可能是该区域流动人口多、“人户分离”现象严重,造成统计人口未能真实反映实际居住人口。 为进一步探索相对误差RE在人口疏密方面的分布情况,本文参考人口集聚度(PopulationAgglomeration Index)[30]将研究区分为城市核心区、人口高度密集区、人口中度密集区等5个区域,人口集聚度反映的是某一次级行政区人口相对于上级行政区全部人口的集聚程度,数值越大,代表该地区人口越密集。经分区统计,从基于人口集聚度分区的相对误差统计表(表4)可知,随着人口集聚度的增高,LJ1-01、WX以及融合二者的sqrt_LJ_WX对应的相对误差平均值整体上呈现出降低的趋势;此外,在任一人口集聚度分区中,基于sqrt_LJ_WX的相对误差最小,变化最稳定,其中在人口集聚度≥15的城市核心区,相对误差均值为13.1%,标准差为0.092,两者均为最低值,相比LJ1-01和WX,相对误差均值分别减少12.3和2.5个百分点,说明综合LJ1-01和WX两类数据能有效提升模拟精度,融合LJ1-01和WX的sqrt_LJ_WX更适用于人口高度密集区域的人口空间化。 4 结束语本文针对现有人口空间化过程中单独使用夜间灯光整体精度不足、单独使用位置服务大数据面临用户年龄、喜好偏差等问题,将夜间灯光影像宏观反映人类活动和微信定位数据微观体现个体位置的特点相结合,通过几何平均融合二者优势,实现在较少变量条件下良好的人口空间化结果。 主要结论如下:(1)研究验证了核密度计算受带宽影响较大,带宽与空间点的离散程度呈正相关,结合相关性分析得到密集区和稀疏区的核密度估计最优带宽分别为600m和1600m;(2)基于sqrt_LJ_WX的整体效果优于单独使用LJ1-01夜间灯光影像或微信定位数据:结果显示,与统计人口的相关系数R由融合前的0.565(LJ1-01)和0.795(WX)大幅提升至融合后的0.839(sqrt_LJ_WX),相应地,GWR模拟结果的决定系数R2由0.62、0.80上升至0.85,平均绝对误差MAE由24500、17290下降至14973,平均相对误差MRE由35.86%、23.18%下降至19.14%;(3)融合LJ1-01和WX的sqrt_LJ_WX更适用于人口高度密集的城市区域的人口空间化:城市核心区的相对误差均值最低(13.1%),标准差最小(0.092),街道个数占比最高(37.69%),本研究方法对于城镇化超过80%的北京而言,在人口空间分布研究方面具有一定实际意义。 由于数据获取不够全面等客观原因,目前的研究存在以下不足:(1)大范围微信定位数据的获取具备一定难度,时间覆盖较短,这将导致一定模拟误差;(2)微信定位数据作为一种社交媒体数据,存在用户偏差问题,本文及现有研究缺乏该类有偏数据对结果影响的定量评估;(3)由于缺乏低于街道尺度(本文对应的是村委会、居委会)的人口统计数据或者类似尺度的替代数据,本文精度验证的尺度无法继续下沉,格网尺度的精度定量验证是未来人口空间化研究亟待解决的难点。 作者简介:王熙(1992—),男,四川眉山人,硕士研究生,主要研究方向为城市地理国情监测、国土空间规划。E-mail:wangxi184@mails.ucas.ac.cn基金项目:国家重点研发计划项目(2016YFE0205300);自然资源立体监测关键技术项目(AR2001);国土空间规划专项监测项目(A2010)通信作者:宁晓刚 研究员 E-mail:ningxg@casm.ac.cn
0 评论