一、 地域维度标准化:
地域属性在科技成果分析中作为一个重要维度,其标准取值非常必要,目前我国采用的标准行政区划代码由两部分组成,一部分为行政区划编码,六位数字组成,前两位表示省编码,中间两位代表市编码,后两位表示所属市的区或县编码。一部分为行政区划名称。两部分在数据分析中经常用到,行政区划编码的树形结构在实现数据统计时的上钻和下卷功能尤其方便。
行政区划是国家标准,中间有调整,需要根据年度确定该年度执行的国家标准。
要求在上次结果表的基础之上完成地域取值标准化。
(1) 增加行政区划编码列,具体取值与国家发布的行政区划标准相对应,例如130102表示河北省石家庄市长安区;
(2) 规范地域取值,统一命名规则为:河北省石家庄市长安区。没有地域属性要根据单位名称或单位地址确定地域数值,尽量规范到区县一级,如果不行至少到市一级。参考方法:可以通过百度地图或高德地图接口查询或者通过网络爬取方式补充完整地域属性信息。
本来应该可以把这地域维度标准化整完的,但是发生了一个难以解决的问题严重影响了进度。
下面这个是部分截图
原文:https://www.cnblogs.com/baimafeima/p/12483664.html