以下是浙江大学GIS重点实验室副主任、副教授杜震洪在“自然资源主题论坛”以“自然资源大数据云平台的技术创新与实践”为主题的演讲报告,内容如下(未经本人审核)。

浙江大学GIS重点实验室副主任、副教授杜震洪
杜震洪:各位领导、专家,朋友们,大家下午好!
非常荣幸有这个机会能够来到这个论坛,参加自然资源确权登记相关工作的讨论和交流,我是来学习的。
今天我给大家报告一下“自然资源大数据云平台的技术创新与实践”。
其实我是自然资源相关工作的外行。刚才听了很多专家和领导的报告,特别是对一些工作的解读,我是感触颇深,受益匪浅。
我想从工作重要性来说,我就不再赘述了。应该说,部委相关领导和专家,已经给我们明确了顶层设计,也建议了工作的主要任务,清家底、立账户、建平台,这是当下所做的工作。
回到这个平台,这个平台有广义的也有狭义的。自然资源确权登记的本身工作,我认为有两个层面的事情可以理解:一是从确权登记要划清资源、划清所有的边界,统一的调查、登记类似。怎么登?登什么东西?刚才吴老师已经进行了解读。从另外一个层面,科学和战略意义,特别是我刚刚听到吴老师的讲解,我认为非常重要。这个东西真的很新,我们要去探索。我觉得应该有三个层次去理解:一是确实要非常全面地掌握自然资源的权属,特别是分布的问题。随着这个工作常态化以后,要从时间和空间两个尺度去看自然资源的变化过程,以及我们能不能去看它的演变规律。自然资源与经济、社会、人口到底有没有关系,怎么去工作,这会带来很多技术方面的挑战。我从构建这个平台的视角,来考虑目前我们面临的工作重点和难点。
第一,我们要和不动产登记进行对接和协调。横向上,有不动产登记。其他的包括土地利用资源,甚至是国情普查的对接。纵向上,国家、省、市、县多级进行联动更新,增量对焦。
第二,常态化工作中,今天谈大数据,贵阳也是大数据的基地,应该以“快”为指标。从早期看武侠小说、武侠电影都知道,天下武功唯快不破。这个“快”,从建设方案来说的“快”意味着生产成本的提高;从管理用途,大规模的去进行查询分析,“快”就意味着感觉就会好。这是高效处理,我们面临大规模数据的时候,这是一个瓶颈。
第三,我们要构建一个自然资源“一张图”,目的是为了用。怎么用?对自然资源数据的运用,它的精度、分析,以及外延的扩展和分析,这是当下面临的挑战。
从调查本身来说,目前遇到的困难是我们的数据源还是比较粗,特别是自然资源有的条件很恶劣,在偏远山区靠人工去跑肯定不行。我们遇到困难,可能要从影像和其他的知识库中去,通过新的比如人工智能去深度学习,去做这些工作,补足我们调查上的基础困难。
我们怎么破除这些技术的难点,今天这个时代叫云计算,它可以扎扎实实去助力自然资源大数据的应用。云计算有很多的S,IaaS、PaaS、SaaS,到今天这个时代还要谈一个“KaaS”,大数据简单应用要用知识的推理去支持我们的服务。在这个工作中,我们和新兴华安一起来探索在自然资源大数据云平台技术框架的整理和思考。面对着大规模数据的管理,高性能计算和数据的处理以及分析,我们有一个框架。这个框架包含了从管理、处理、分析一体化的工作。
一、自然资源大数据混合多态管理
不同来源、不同格式、不同目的的数据。现在自然资源的调查、登记过程中会遇到很多的数据,包括国土资源数据、不动产登记数据、基础数据、影像数据,类型来说非常复杂,分结构化半结构化、非结构化的信息。在管理大数据时,我们现有的技术和方法是不足的,我们提出一套混合技术框架。
在很长一段时间里,我们都在思考有没有统一的方式来管理这些大数据。我们根据目的、用途、需求来选取不同的存储模型。不同的数据划分为几类,根据用户需求、需求频度、出发点,可以以不同的方式来登记。小要素集、更新频率快的采取的方式;大要素集、计算频繁的数据采取的方式。
我们进行多级索引机制,解决数据查询和统计的基本功能。对三核、矢量、非结构化数据,通过多维多级的方式去构建索引机制。对于多态存储,对于云计算,有个非常重要的工作:任务划分。我们的任务划分考虑的是计算量评估的任务划分,能帮助我们更好地去平衡各种资源和计算的需求。
二、自然资源大数据高性能处理技术
分布式内存计算框架能融合到主流的大数据分析平台,有整套的机制能把资产要素集和登记单元的要素集,在这个框架上去体现。
并行框架来支撑的模型。由于时间关系,我稍微加快一点。现在我们在计算的速率方面,对三个矢量都有解决方案,特别是像影像处理,影像处理、影像拼接都是任务工作,我们怎么把这些任务解决好,在多结的环境下进行实现。我们通过大数据、云计算把运算速度提高了2000倍。我们通过对多结点的实现,实现了50倍的点云图。
三、大数据分析:自然资源应用的利器
为了提供充分挖掘,我们有一套时空挖掘分析引擎,整合目前常规和深度学习的各种支持发现的工具,包括统计、聚类、分类于回归、关联规则和结果显示,分析出到底能做什么样的工作,提高我们学习的效率。我们考虑不确定性的可拓时空关联规则挖掘,来分析挖掘的方法。对多时间窗口多密度聚类等挖掘算法,提升数据利用度。影像如何快速去服务到自然资源确权登记工作中,我们用人工智能的方法进行了初步的试验和深度分析。
现在我们有了这样的技术框架,在其他相关行业,我们支撑了千万级不同矢量的分析,应该说是目前处于国内国际上的领先水平。监测试点中,我们对这个框架进行了PB级的数据管理,在海洋领域中大规模去管理海洋数据和分析功能。
技术展望,还有什么可以帮助我们据做这些工作?无人机、智慧城市、人工智能,包括边缘计算,我们怎么去把云计算的点扩展为每一个终端,拿到我们的设备、传感器到野外去核查我们的数据。(图)这是边缘计算的试验,如何来实现可视化的功能。
时间关系,我讲的主要偏技术方面,具体的细节,我们会后讨论。
谢谢大家!

{{item.content}}