随便吧唧点什么
这篇文章是2014年首次放出数据的续篇,原文在此:http://blog.jjonline.cn/phptech/172.html
距离上次放出采集的数据刚刚好已有2年,最近把采集程序重写了,采集html文件采用cmd下curl模拟多个请求,加快了采集速度,修正了一些问题。数据是截止至2015年9月16的能找到的最新数据,修正了原文评论中提出的一些问题--譬如地级市东莞市、中山市没有县级市,取代以镇级单位,为了数据格式的统一性,插入的数据中模拟了县级单位。
截止至2015年09月30日的最新版数据
2016.8.20更新:由于插入程序中边界处理问题导致新疆维吾尔自治区的村镇数据未插入到MySQL中,感谢网友“月色溶夜”在扣扣中提醒。
这次更新,数据表结构未作任何变化,仅从最新的数据源采集了新数据予以数据重建。据我分析,数据源本身也是比较老旧的,有些数据到现在为止还没做更新,譬如:深圳市下辖区新增了大鹏、龙华等均未在数据源中体现。
数据源Url:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html
MySQL导出数据:
本次导出的数据使用的Navicat,附鄙人用的Navicat绿色版下载页:http://www.cr173.com/soft/38153.html
1、http://blog.jjonline.cn/soft/J_Position/20150930/position.7z
这个是完整的数据库,6个表。
大小: 11708204 字节
修改时间: 2016年8月20日, 10:41:41
MD5: F0DFFF425952FBC827D043C45EDE0478
SHA1: 2322DAC188AE9BD64062C47D4FFAAF9191218370
CRC32: 6448E663
2、http://blog.jjonline.cn/soft/J_Position/20150930/j_position.7z
这个是记录到村的一张表,被包含在上述完整数据库中。
大小: 6730396 字节
修改时间: 2016年8月20日, 10:41:19
MD5: 7264882FAC25FD89F5D5F72464C9985C
SHA1: 398D7AB3FE2F1CA90AE8BA436615FEB517DAA488
CRC32: CBEACE9E
本次采集依然采用上次的方法,先采集下所有html文件,然后读取成json格式文本,最后从json格式文本读取数据插入MySQL中,本次就不放出Json格式的文本了;若有需要原始html、json以及文件列表的朋友,可以扣扣。ps转于:晶晶的博客