农业大数据—如何从海量农业智慧资源掘金

点击进入[智农361-农业大数据]">本期摘要:农业知识创新如火如荼,知识财富爆炸式增长,海量农业智慧资源数据挖掘成为重要的掘金场。哪儿是最具有农业创新活力的区域?谁是农业知识财富的主要创造者?什么是最有价值的农业发明创造?这些都将用农业大数据为您揭秘。
点击进入[智农361-农业大数据]
  2015年 第三期

时间:2015年5月23日 周六14:30-17:00

地址:北京市海淀区中关村南大街12号 中国农业科学院农科四路(国家种业科技成果产权交易大厅)

电话:010-82108690

形式:免费开放,大家讲堂,互动交流

分享到:

特约嘉宾

卢垚

农业知识产权研究中心 博士后
智农361高级数据分析师,主要研究方向为农业生物技术的知识产权数据分析。主持完成中国农业知识产权创造指数报告(2015)。

武筱华 博士

加拿大Quasion Inc. 总经理
同时任昆明安沃信科技有限公司、云南银河之星科技有限公司,总经理。主要技术领域为电子信息—软硬件结合类,负责智慧农业/智慧城市/智慧家庭传感器及其网络应用

杜孝平

北京航空航天大学 软件学院 教授
中国计算机学会高级会员,北京大学博士后,主要研究领域包括知识发现、数据挖掘、信息集成与Web服务与管理信息系统的研究与开发等。

黄鹏

北大千方研发中心 大数据产品总监
曾任柏睿数据技术合伙人,多年云计算、大数据一线研发经验,精通分布式、互联网技术架构、有很强的底层技术产品研发积累。擅长平台运营、研发和技术路线把控。

主要内容

1、中国农业知识产权创造指数报告(2015)发布

2、农业智慧资源数据挖掘

3、大数据特点

4、数据挖掘主流技术

5、大数据挖掘难点及发展动态

6、农业大数据发展方向预测



【主办单位】智农361  www.ipa361.com

【支持单位】国家种业科技成果产权交易中心



会议流程

时间内容
14:30~15:00签到/自我介绍
15:00~15:20中国农业知识产权创造指数报告(2015)发布:农业创新活力地图;农业创新力十强榜单;最具价值的农业发明创造……一一揭晓
15:20~16:00嘉宾演讲
16:00~16:15主题讨论1:农业大数据里有真金还是在炒作
16:15~16:30主题讨论2:大数据挖掘主要盲点?
16:30~16:45主题讨论3:应该如何利用大数据推动农业发展
16:45~17:00自由交流

沙龙实录

时间:2015年5月23日周六14:30—17:00
地点:国家种业科技成果产权交易大厅
主题:农业大数据—如何从海量农业智慧资金掘金
    
      主持人:各位朋友下午好,我们今天非常荣幸邀请到四位嘉宾过来跟我们分享,有农业大数据的,还有大数据研究的,还有大数据实战方面的专家,现在有特约嘉宾还正在路上,所以可能要稍微晚一点,我们先正式开始,按我们的顺序是这样的,等会会先由宋敏主任启动今天大数据的开幕,按照顺序来讲,一个卢垚博士跟我们分享,然后杜孝平教授跟我们分享,然后是黄鹏,武筱华,基本上是这样的顺序。

      因为农业知识产权这一块也是如火如荼,我们中心非常荣幸参与到农业大数据的发展过程中,在我们整个国家种业科技成果产权交易中心,以及知识产权交易里边共同联合,我们推出了自己大数据的平台,现在非常荣幸邀请到中心的主任宋敏博士上来跟我们讲一下整个大数据平台的情况。
      宋敏:大家下午好,上一周我们搞了一次沙龙,是讨论互联网+智慧农业,这一次朋友也有上次参加的朋友,这一次我们又见面了,实际上搞这个沙龙,主要想借这个机会,一起讨论一下问题,但是更主要是跟老朋友见面,在这个地方能够交流。所以今天也非常高兴,又见到一些老朋友和新朋友。

      今天下午我们日程有两大块,有一块叫农业知识产权创造指数报告的发布,刚才已经在外面领到这样一本创造指数的报告,这个报告实际上是我们中心在5年以前就承担农业部的一个项目,这个报告是每年都要出一期,报告里面它是系统的把我们国家在农业品种权,还有专利、地理标志等等这些农业智慧财富创造情况这些数据,进行系统分析,形成的这样一个报告,这个报告已经连续公布了,今年是第四年,尤其关注农业知识产权,关注农业科研的,包括研究人员、大学教授,还有一些研究生,他们都在写论文,研究当中都会用到我们的数据,所以今天我们也是想借这个机会,把这个数据今年的结果,给大家介绍一下。
      这些数据现在也在我们智农361这个平台上面直接公布了,整个大的频道叫农业大数据,现在这个频道里面的数据是在逐步的往上面公布,这块主要公布了农业智慧数据分析主要的阶段,将来还有物联网产生的一些数据,还有其他方面的数据,也会陆续在这个平台上进行公布,大家要想获取这些相关的数据,都可以关注我们这个平台,在这个地方都可以找到最新的相关的数据。
      现在上面公布的数据,大家看有这几个方面,这个地方我们把一些主要的农业知识财富在这有一个大致的图形方式来表示,大家看这是品种权,申请数量变化和授权的变化趋势,从1999年,就是我们国家有这样一个制度以来,一直到现在,如果你们将来做分析研究,都可以把这个数据下载用。同样专利也有这样一个发展的趋势图,下面是农业知识创造的一个区域的分布图,有各个省大致的排名,是通过计算出来的排名,另外还有创新指数的构造,这里最有意思是这样一个,叫农业创新活力地图,地图里面用这种颜色标出了我们国家现在农业创新最具有活力的一些区域,大家看这个颜色越深的地方,就说明创新的活力越高,像山东、江苏、浙江、北京,还有广东,这些地方是农业创新比较富有活力的一些地方,像西北地区,大家看颜色都比较淡,相对创新活力比较低。具体分指标,针对不同的指标,也可以看到它的地域分布情况,申请量,还有授权量的一些情况,还有维持年限的指数,从这个地图上都可以看出来,具体指数是怎么计算出来,如果你们感兴趣,可以看一下指数计算的指标。
      从各个省的排名,大家可以看到,表面上印象大家都认为,北京是科技资源最集中的一个地方,但是农业创新这块,事实上北京并不是最强的地方,排名第一个是山东,第二是江苏,跟农业的发展水平是相关的。

      另外就是这个里面,也把农业创造的科研单位和企业进行了排名,根据上面的创造指数,计算出了年度的创新明星单位,大家看看,排在第一个是中科院,第二是农业大学,第三是中国农科院,只限在农业领域,农科院其他领域也有发明,我们这主要是计算它的农业领域,中科院是第一,这个里面中国农业大学,去年指标它是排在第四,今年排名变化很大,一下从第四位跃居到第二。另外一个方面就是企业,在农业企业当中,排名最多现在是中国机械工业集团,因为它主要从农机的专利申请,这块量比较大,所以排在第一,第二是伊利,主要做牛奶的,乳业这块,专业申请量排在第二。第三是九江,主要做食品加工的,排在第三,这是整个综合排名。
      下面新品种的选育这块,到2014年底,培育的新品种最多的科研单位,第一是江苏省农科院,第二是黑龙江农科院,第三是中国农科院,从新品种来看,前两个单位超过中国农科院,从企业来看第一是金色农华种业,第二是袁隆平农业高科,第三是登海种业。下面是年度的育种中心,育种中心主要是个人,截止到2014年底,申请品种权的这些育种人,按照农作物来分类的,里面大概选择这几位,他们在这个作物里面培育品种最多的育种人。这个是农业发明明星单位,主要从发明专利的申请量的情况来看,同样这个发明专利排在第一的是中科院,第二是农科院,第三是浙江大学。企业里面,发明专利最多的企业是伊利,然后深圳诺普信农化,第三是陕西的美邦药业。年度发明之星,就是发明专利发明人,申请量比较多的有这样一些人士。这就是大致整个中国报告里面的情况,这个里面另外分不同的知识产权类型进行了一些分析,比如像品种权,整个申请量的变动,然后种类的构成,还有品种权的类型,比如这个里面科研单位、企业、个人的情况,还有品种权地域分布情况,这里面都有详细的数据分析。
      另外同样专利也是一样的,这个有它年度的趋势,从1985年,我们有专利制度以来,农业专利它的申请量、授权量的变动趋势。另外就是专利的类型,这个是种类,就是在不同行业里面的分类情况。另外就是专利人的类型,教研单位、企业,还有个人的分布情况。另外是区域分布,另外农产品地理标志的分布形成,按照不同的登记机构,登记产品的类型,在不同的部门进行登记的情况,前五位的农产品主要的类型,还有国内登记人的区域分布以及量的变化,在我们这个上面都有相应的一些数据变化,这是整个今年报告的一些主要的内容,当然实际上报告的内容非常丰富,很多,有厚厚的一本,里面有很多内容,大家下去以后,根据你们的需要,找到你们想要的数据。
      从这个报告我们今年分析跟去年对比,也有一些比较有特点的东西,一个就是在国内的发明专利申请当中,企业的申请比例达到34.69%,首次超过了科研单位的申请比例,原来在农业领域,科技创新主要是科研单位为主,但是在去年,农业领域,企业申请专业的比例首次超过了科研单位,是我们国家实施以企业作为创新主体的战略,在农业领域已经看到了成效。
      第二个方面,从我们2014年的分析普遍看出来,专利维持的寿命普遍提高。现在专利维持10年以上已经提高了54.16%,维持20年的达到89%,相对以前我们在专利申请当中,只注重数量,不注重质量,专利申请以后,很快就实现了这个情况,大力改变,从去年分析当中,我们发现了主要的一些特点。这是报告一些大致的情况,在上面给大家介绍了,整个农业知识的数据,在我们这个平台上是非常大量的,占了70万条,品种数据也是10万多条,还有其他的一些地标的数据,还有基因的数据,怎样从这些数据当中挖掘出一些有用的信息,这是我们下午讨论的一点,因为分析的这些都是仅仅从海量的数据当中挖掘的,还很少,下面就怎样从海量的数据当中,不断地淘出更多的真金,下面我们一起来讨论,也有一些专家来专门分享在数据当中的技术和做法,谢谢大家。
      主持人:非常感谢宋主任给我们的分享,我们今天也非常荣幸邀请到这份创造指数报告直接参与者,卢垚博士,来跟我们分享整个报告的产生过程,以及整个她在农业大数据挖掘方面的一些经验,非常感谢她,我们欢迎!

      卢垚:大家下午好,很高兴能和大家一起来交流,今天我和大家主要交流的议题是大数据在农业的应用中到底扮演什么样的角色,我们知道现在农业是中国一个重要的基础产业,但是现在农业面临一系列挑战,包括耕地面积减小,还有生态环境逐渐恶化,人们对农产品的需求主要增长,所以这一系列的挑战给我们农业带来了很多的困惑,而正好现在面临一个大数据的时代,可能这两个在一起会发生一些作用。
      农业大数据是一个大数据产业重要的一部分,而同时也是农业现在发展重要的依托,大家经常说大数据大数据,大数据到底指的是什么样的概念,可能都很模糊,我们可以认为它是大数据的理念在农业中的一种实践,而农业大数据可以认为它是,在带有农业自身的一些特点,比如说农业自身的特点,包括有周期性,或者有季节性,变动的特征,而产生的,来源广泛,结构复杂,并且以通常的方法,不方便运用一些数据的集合,农业大数据的特征其实跟大数据是相似的,我们常常说大数据五个V的特征,规模巨大、类型多样,价值密度低、处理速度快等,因为农业本身的特点,所以具有复杂度比较高的独特特征。
      农业大数据的内容覆盖是非常广泛的,我们从农业产业链划分角度来看,主要分为四个方面,首先是农业自然资源和环境的数据,包括水资源、土地,或者是气象一系列的数据。还包括农业生产数据,农业生产数据主要包括在种植业农业生产数据,还有养殖业,包括刚才宋老师讲品种权都是很好的良好信息,还有耕地的,这块地耕种的历史信息,或者播种信息、农药、化肥、灌溉的一些信息。养殖业主要指疫情的情况,或者是饲料结构,还有猪牛羊个体特征等一些数据。第三个是指农业市场数据,农业市场数据,我们市场中的一些供求关系数据,或者是价格数据,还有农产品进出口的数据等。其次就是农业管理数据,包括一些科技文献,或者是一些基层的农业经济基本信息。
      在农业大数据的运用,根据集中数据的类型也有不同的应用领域,首先是生产过程管理中的应用,举个最简单的例子,大家提到的精准农业,比如精准农业涉及到精准的灌溉,精准的施肥,都是在这个范畴,当然不光是职业,收集一些因素,进行对比,在技术上给出精准的措施,可以用遥感技术控制农作物的长势,进行农作物的监测,最后还可以利用一些GIS、遥感、对植物病虫害进行分析、预测和防治。这是一个水稻的生产,提取它的生产过程中一些数据,来进行品种分析的示意图。
      其次是针对农业资源管理的数据应用,一般是用一些GPS、GIS遥感技术建立农业用地电子地图,实时掌握这个区域的气象、土壤、大气环境等情况,进行参与分析,对区域进行划分管理,然后把这些资源进行统筹的安排、合理的开发。
      最后是社会上经济热议的话题,指农产品质量安全溯源的应用,农产品质量安全溯源这个体系也是综合了好多农业方面的数据,包括产品产地,以及农产品的检测数据,包括企业的资质、产品报告等,以及产业链中涉及的加工,市场流通领域,物流和供应链等等。
      刚才三个领域是比较主要的,还有其他的,比如农村政务服务管理应用,包括基层人口管理数据,还有公共咨询,经营管理。其次是农业装备与设施监控大数据,比如说一些水利系统的设备,可以实时远程的诊断,进行调度等。最后是科研活动产生的大数据,比如一些生物实验数据产生的农药基因组数据、基因图谱等等,可以为药物设计提供很好的依据。
      这是一些农业大数据应用的实例,这三个例子都来自于美国,第一个天气意外保险公司,通过气候数据来提供精确的小范围气象预测,依靠大数据分析,向农民出售保险服务。还有农场管理的信息服务,农民可以通过这个软件,记录跟踪自己农场的运营情况,但这个情况可能跟以前自己记录的,很支离破碎的记录,集中到一起,进行分析和报告,有针对性的监测分析农场的状况,有利于他们更好的设定生产计划。最后是土壤抽样分析系统,它可以实施精准的施肥,可以将土壤抽样分析的结果指导控制者在正确的时间点进行施肥,提高产能,降低成本。
      刚才说到是国外的一些应用,其实在我们国内也有很多企业已经开始瞄准这一块的应用了,但是国内情况大概是分两个部分,一个部分像一些科研机构他们在做农业大数据的研究,有一些是公益性质的,还有企业也开始做一些应用。比如说新疆建设兵团已经将微信导航数据,跟地面的自动驾驶机的技术结合在一起,进行棉花的播种。还有我们经常在超市里边买到蓝莓,已经建立了全程的追溯系统。
      应用这些农业大数据,还涉及到一些方法、手段和技术,分为两类,一类是我们经常提到的,目前很独特的互联网技术、云计算、物联网,都可以归为大数据通用的一些技术,包括大数据的采集、存储、管理、计算模式系统,还有分析挖掘技术、可视化、安全技术等等,但是农业大数据有自己独特的特点,又提出了新的需求,首先提出了数据标准化,农业经济主体可能是农民,可能是企业,可能是政府科研机构,这些数据它们之间没有一个标准,而且形式是很多样的,它不光是我们想象的那种网络信息数据,有可能是传统的科技文献或是其他杂志,或者农民的传统知识,这些数据之间是没有办法交互,而且在功能上,和业务,和应用脱节,所以这些因素,现在目前最紧迫的关键的任务就是要推动数据的标准化,来建立一些规范的协议,将这个数据与农业数据能够更好的利用起来。其次建立农业大数据平台,这个东西最近在国内好几家建立农业大数据平台的,这是全国农技推广云平台,在北京密云、江苏南通等地已经在推广了,主要服从一些农技基层人员,为农民提供很好的服务,这是科教司和农科院信息所他们联合开发的。其次是十二五当中,国家推动信息综合服务平台,这个平台作为一个示范,还有山东农业大学研发了大数据应用云平台,这个还是集中在数据的收集、分析,还有一些定制功能。
      最后讲讲现在智农361农业智慧资源整合云平台,这个平台相当于是一个在大数据系统框架下,整合了丰富的农业智慧资源,而且以物联网收集数据的技术优势,还有云计算处理的优势,产生的一个先进的、高效的应用业务型的一个平台,它可以满足政府,比如说给政府提供决策支撑,帮助企业或者是科研机构推动他们的发展,同时也满足了农民和消费者的需求。
      在这样一个大数据的时代,所以说农业也面临着一些机遇和挑战,首先政府也在实施一些农业大数据发展,把农业大数据的研究纳入一些科研项目管理系统,对它们进行一些扶持。而且农业部也表示下一步推动农业信息资源的开放分享和创新运用,其次是农业信息化建设推进,表现在硬件的完善,包括现在基层里边,农村,终端都比较普及,还有各种技术的提升。最后是农业信息服务的发展,表现在一些农业电子商务、物联网的兴起等等。
      但是同时也面临着很多挑战,具体说,还是回到最关键的问题,因为农业数据本身的特性,它是一种非结构化,而且非关系型的数据,同时运用这个数据,可能消耗的时间很长,而且拥有的资源多,所以对数据处理范式可以提出新的要求。另外是数据基础设施的挑战,包括技术条件的挑战,包括数据库处理、数据挖掘、云平台计算等等,还有对现有科学信息管理模式的挑战,因为这些数据掌握在不同农业经济主体手中,包括农民、科研机构,他们也很好去协调,互相之间去决定数据哪些是面向社会公众开放的,哪些实际上是不可以交互的,一旦数据开放给公众,大家在平台上来使用的时候,又涉及到一些国家安全和个人隐私的问题,所以面临着一系列需要解决的问题。
      我大概交流的情况就是这样,谢谢大家!

      主持人:非常感谢卢垚的分享,刚才宋博士跟卢垚博士进行了大数据的分享,刚才卢垚博士也提到了,农业大数据有自身的特殊性,当然也具备整个大数据体系里边的一些共性,包括五大类的特点,我们接下来非常荣幸邀请到北京航空航天大学、软件学院教授杜孝平教授,因为他在大数据领域已经有很多年的研究经验,我们非常荣幸邀请他今天给我们分享一下,在大数据领域有哪些新的技术,我们表示感谢!
      杜孝平:借这个机会很感谢宋主任那边邀请大家一块,分享关于数据挖掘相关的内容,在这里先做一个解释,讲的题目可能跟这个内容不是很切题,最开始跟我沟通的时候,只是参加一个沙龙,大家坐在一块直接交流,所以根本没准备,昨天临时我最后问了一句需要准备什么吗,杜老师最好是准备一个PPT发言,我没时间,这个东西到今天11点开完会以后,才临时准备的,但是我刚才在准备之前,我提前先找他们把卢垚的PPT给我看了一下,主要的目的是什么呢,我原来如果说单独讲大数据,讲数据挖掘,在这个场合并不合适,在我们学院开科技前沿课,要讲大数据,讲数据挖掘,技术性太强了,在这个里边并不合适,今天我讲的内容来考虑,大概分成四个部分简单来讲一下。归了一下类,首先我们今天的主题是农业大数据,从农业大数据这个角度理解,我不用多讲,只是归了一个类,方向应该是农业大数据,内容卢垚已经做了一个介绍,我分为了几个内容,主要罗列一下引出一个东西,就是农业相关性数据,其实跟大数据有直接关系,再接下来基于农业大数据再来考虑一下大数据自身的特点,和要对大数据处理可能进行相关的数据处理技术,最后有一个从农业信息处理的角度面临一些挑战问题,分为四个方面做一个简单个人的感受。            农业大数据这个问题,刚才卢垚已经讲了,农业大数据整体来考虑,刚才归类把它归类四大类数据,本来数据归类有很多种,今天临时邀请到我跟大家来分享,实际上智农361个平台,应该可以说,从2006、2007年,我就已经跟宋主任那边一块的参与,包括也在做相关的事,归类的方式,主要归为了农业自然资源以及环境数据,生产数据、市场数据和管理数据几大类。
      农业资源和环境数据从我们现在角度上来考虑,要考虑的方面很多,比如说土壤、温度、湿度、泥沙、气象、灾害,这些都有,但是我们本来的一些东西,对于农业来讲应该是非常有用,是不是能采集到,现在并不能保证。所有一系列的数据,事实上来讲,对于植物的生长环境,对于它整个生长的快慢,产量的高低,应该是有很大关系的,而这类东西具体来讲,能够采集到哪些数据,有哪些数据能够发挥作用,这里边可能跟后边数据处理技术有关系。上一次我到重庆参加大数据项目的研讨会,重庆市农业信息部中心的人,跟他交流,说你们农业口数据有哪些数据,现在能够做到哪些应用,他们现在来讲,我们真正的农业口数据,实际产生并不多,更多是生产数据,里边已经有哪些农作物,有哪些农副产品,这些产品每年销售情况,要向上面报,只有这些数据。我当时问他,因为重庆也是我的老家,挺关心的,你比如沙田柚,重庆开县的广柑,这一类数据相关有没有,如果有的话,这里面拿来做分析,对于农业口发展会很有用,我所知道的,沙田柚对于气候的环境,对土壤环境,在重庆长寿湖的周边,那个地方沙田柚是最好的,气候条件不一样、土壤条件不一样,就不可能这么好了。你把所有信息输进去以后进行分析,我们来看看,通过其他地方的土壤条件,哪些最适合。这一类在整个农业资源里边,资源和环境如果我们能够采集到,这些东西如何把它有效分析,应该是非常有用的。
      第二类数据叫生产数据,生产数据第一个涉及到直接生产的内容,比如说粮食、棉花、油料等等,相关直接生产的数据,这种数据大家看到有机产品,哪些算有机食品,现在加上标签了,每一个环节,可能从土壤开始,到播种,到最后施肥整个过程,是否真的是有机食品,是绿色食品,当然刚才汇报里边的指数,指数数据里边涉及到植物品种权,也相当于农业生产数据,这已经讲到两类数据,简单来讲,粮食可以统计,不同类别的粮食种植多少,同时把粮食细化的时候,每一类农作物整个生产、生长过程,从开始播种到环境,其实这些数据进来的话,包含的类型非常之多。
      第三类市场数据,农业市场数据涉及到具体经营单位、经营人员以及在整个农作物物流运输,以及里边的销售,包括种植以后,这个地方没种东西,已经属于出了名的,像北京昌平的草莓,属于地理标志数据,这一系列数据都是涉及到跟市场相关的,里边类型也丰富多了。
      管理数据,前边跟生产销售直接相关,管理数据能不能包括农技知识与技能数据,通过某些农业知识和技能,能把它综合起来,最后发现这样组合的结果,能得到最好的效果,这种效果的方式可以申请一系列专利的数据,查好多相关部门有好多平台,把这几类归结到一块,实际上最后下来,能够体现出来,把所有这些数据,要把它从信息化角度,从数据角度来考虑,可以把它视为一个大数据,什么叫大数据,有多种定义,现在为止没有非常严格的数据,一个大数据是量大,当然也不局限于大数据,只有几兆都有可能把它视为一个大数据,这几兆最后对它进行分析的时候是个维度的问题,如果维度能够达到几百,最后分析量级达到二的几百次方,是一个指数级,指数上面变成了一种组合,是大数据的概念,这里边还提到了,首先第一个涉及到结构化处理,结构化把它归集得很清楚,种植的水稻,一项一项归的很清楚,如何进行度量,我们把它分为结构化数据,这里边介绍的还包含大量的结构化数据,还有非结构化数据,等等一系列的数据,这些数据下来以后,针对这一类数据,说起来很简单,数据分析,原来分析的时候,对结构化数据很容易,但是对于半结构化数据和非结构化数据遇到问题了,现在大数据分析里,用原来的数据分析这个,可能会遇到问题了。这个问题出来以后,因为时间关系没有办法细讲,像刚才介绍过程中,有些属于地理信息技术,甚至于遥感技术,这些数据出来,有的时候是图片,有的时候是文本,这种情况拿出来以后,我们如何来进行数据,这是涉及到第二个问题,大数据本来最开始的时候,从计算机出现以后,数据分析处理,更多采用统计分析技术,统计分析技术,一个最大的特点,是基于人的假设,我现在觉得这个方面可能有问题,去做验证性检查,把相关数据拿来统计分析,分析验证结果,但是现在数据量更多了,具体特点体现在哪几个方面,一个量大,另外刚才卢垚讲的几个特点,这里边简单介绍刚才说的大数据本身没有严格定义,开始是量非常大,这是百度对它的定义,这里边大到了无法透过目前软流工具,另外一个WIKI百科里面有一个,指一个超大的,难以用现有常规的数据库管理技术,IDC报告,大数据描述一种新一代技术和架构,用于以很经济的方式高速的捕获,数据提取价值。基于这样的要求,现在有三V的说法,有四V的说法,这里边更普遍用到大数据在四V特征,第一个容量大,实际上容量大并不只是量级的问题,更主要强调非结构化数据,时间关系没办法讲什么叫非结构化数据,有的同志自己稍微看一看就知道,比如我们表述每一个人,一个人描述自己的编号、姓名、性别,这些东西都可以用一个值能明确表达叫结构化数据,但是现在在表达很多东西的时候,刚才给我们的研究报告,这个报告是一份文本,我不知道,给你一段视频,给个卫星图片,这个拿出来怎么处理,叫非结构化数据,这个部分,这个页面里面,标题,这是对内容的解释,我们看上去像一个文本的东西归成了三类,标志成了顶级标志,二级标志,三级标志,变成了结构性,这个叫半结构化。像这类数据用现有传统方法没有办法处理,具体指的主要是非结构化数据。多样性,大数据的异构和多样性,这些可能涉及到对它语义的理解问题,第三个量很大,希望它发挥如何把价值找出来,这里边包含了很多趋势,或者一种叫模型,如何把它找出来。最后大数据量大了以后,达到一个T的时候,计算机装都装不了,这时候要用大一点的计算机处理,处理5天时间才能把结果拿出来,已经没有意义了,就是时效性问题,总体分为四大特征。
      四大特征里边,现有大数据出现以后,从原来最初的以结构化数据产生的时候,数量级非常小,就是以客户端和服务器保存,在现在程度,因特网发展以后,移动端,普通的APP应用,包括传统的客户端,包括现在云,包括其他的一些社交数据等等,各方面产生起来,这里边数据大量增加,增加以后,如何把数据用起来,未来的数据,现在大家反复强调,叫智慧城市,未来应该模式是一个智慧经济的模式,希望能够把包含农业在内的通过智能化手段把它发挥出来,我们整个农业大数据,其实一个是基本数据,包括比如说发现整个成长过程,包括里边是受灾过程,甚至可以用视频监控,最后来做分析,实际上具备了完全大数据的特征。刚才介绍智慧型经济里边,刚才沙龙开始之前,跟宋主任他们还在讨论,大家都在强调互联网+,我们应该倒过来,强调互联网+,应该跟进美国和德国的思路,互联网+只是一个暂时的过程,我们应该倒过来变成+互联网,为什么+互联网,互联网是一个不能吃的东西,它只是一个虚拟的东西,可以把其他东西融合起来,产生好的作用,但是互联网本身没有价值,我们现在更重要,像今天讨论的农业大数据,这是最实实在在的价值,不仅是粮食,大家坐在这儿,三天不让你吃饭就没办法坐在这儿了。我们的重点如何把这些东西用起来,把互联网技术用起来,让农业数据产生效果,粮食生产的更多,最后更满足大家的需要,可能更有用,这个就是急需要一个有效的处理,发挥农业大数据的作用。
      再下来涉及到很深的技术层面,从几个方面把技术简单介绍一下,首先第一个当大数据出现以后,现在需要的数据量很多的时候,放到一个计算机上面,大家看到,如果说你打开一个PPT很大的时候,有很多图片,半天打不开,刚才讲的这些,包括视频监控数据放进去,达到几个T,实际上靠计算机是没办法处理的,高频发和读和写的需要就是个很大的问题,很多下载把它保存起来,这边保存,这边处理,这个是高频发读和写的问题。第二个海量数据里边,不冲突,现在慢慢慢慢,这里边有一个新词,叫OEM,去OEM,可能稍微懂IT技术同志知道,我们常常买IBM机器,中型机和大型机,存了很多东西,现在把它去掉,大数据,最大的关系数据处理系统,I,是IBM,E是ENC,讲处理器,现在阿里巴巴把这三样全不要了,用云的方式来存储,一定要有一个技术,用刚才讲的这几种方式。高可扩展性是什么,这个东西放在这儿,有一个新的东西出来,不需要改变这个结构,就可以获取,如果这个新东西加起来,全部要重新做,可扩展性很差,在大数据时代下面,对系统来讲必须要有新的技术处理这样的问题。
      再往下都就是涉及到数据分析技术,第一数据处理涉及到自然语言处理,有一部分人用到一种东西,在线字典,大家知不知道有人在网上注意过,我们现在在线字典要求翻译一个词的时候,你把英文输进去,一点那边中文出来了,阿拉伯文一贴也是,当时觉得这东西好,这是能够做出在线字典,能够发现字典,这人必须懂八国语言、十国语言,事实上是不是?如果一点语言不懂,能够做出来,自然语言处理,这里边就是一种技术问题,原来我们是需要语言学家,每一种语言,把语法书找出来,基于语法做的翻译,现在不这样做,用这方式翻译的精度很低,现在翻译准确度能达到百分之三四十,基于自然词的统计和语句的统计方式,这种方式就是自然语言处理方式。第二个是统计和分析问题,涉及到很多,包括文本的情感分析,排行榜分析,叫ABtest,要解决一个问题,效果到底好容易,这个过程可以采用这样一种办法,外面并不知道,我自己做了两套方案,针对两类客户,让他们各自使用,根据你的使用感觉,就自己直接用了,我后来统计,通过一段时间以后,客户最喜欢那些产品,我们慢慢替换到喜欢的产品上,等等这一类东西。当然从数据挖掘上来讲,技术、观点分析,这个东西我们遇到具体问题,是用的最多的,在座诸位里面你们最关心的问题是什么,最关心的问题拿出来以后,可以先做聚类,自动的分类,把基本条件给我,我给你分成三类,三类人有三类特别,这类人特别喜欢音乐,这类人特别搞技术,这类人特别喜欢旅游,分出以后再去进行观念分析,拿出来以后,这一类人喜欢做什么事,叫观点分析。在农业大数据里边一样的,哪些人种植什么东西,特别喜欢买什么样的化肥,这个东西可以用数据挖掘相关技术分析他们的关系。还有一个叫模型预测,比如说我们现在对一个农场里边的植物生长过程进行视频监控,监控过程,每天生长多少,肥充不充足,根据产量,所有数据进行对比分析,在某种条件下边生长的最快,最后产能最高,实际上把这个模型建好了以后,可以对新的植物生长过程里面进行测算,现在生长情况达到多少,这属于预测模型来做的。
      真正来讲,要把刚才做的数据处理起来,要涉及大数据的领域,如何把它抽取过来放到数据库里边进行分析,这里边可能用到一些东西叫ETL,数据抽取、数据转换。第二个数据抽取如何存储,前边弄得很清楚,用关系数据存储不了,用另外新的非结构出去,叫NOSQL数据库,有一系列存储方面,下面一个基础架构的问题,数据库单独用存储器存储是不够的,可能涉及到云存储以及分布式存储问题。现在云存储基本思想是什么,从你们这个角度来看,知道它存着的,像有个云端,你的通讯录放到云端去,这一类,实际上是什么,是公司里边有一个云端存储,而云端存储如果简单来理解,它是把很多台机器穿在一块,最后形成一个存储器,自身靠一个软件,一个好的体系结构来支撑,把它视为一个整体,实际是很多硬盘联结在一块,这就叫基础架构的支持。到了这个点的时候,能把数据采集起来,收集起来,基本过程以后有了,真正发挥作用,下面很重要,如何能够把结果给展现出来,现在数据可视化,云计算,云标签、关系图,能够把你想要的以比较好的方式展现出来,可能涉及到属于不同数据类型结构问题,如何去存储的问题。
      针对刚才讲的这一类,现有实际的一种技术存储,对于大数据,对于非结构化存储方式用的比较多是Hadoop技术,是分布式系统存储方式,把现在这个中心的机器跟其他的单位计算机机器,用这个系统搭建起来,翻成很多结点,就变成很多台不同的机器,这个是分布式存储模式,你的没用,可以把你的资源存储起来,会用到叫MapReduce技术,直接讲的技术可能听起来难,一个简单子例子就出来了,把每一个数据打成一个标签,在座诸位那么多人在里边,打出50个标签来,这50个标签有20个人是女性,30位是男性,一看20位是女性,是共性,都是女性,30位是男性,这里边做映射,把20个做成一个数据,这种叫MapReduce,把共性部分提出来,提高数据处理的方式。还有叫流计算,这里边涉及到,大量要分布式实施计算机系统才能把它处理,这上边可能大家知道twitter里边就用到这样的数据,这里边一个很大的问题,从现在处理数据来讲,如果你能把问题想的很清楚,我到底要干什么,你把这个问题能想得很清楚,80%能处理出来。
      现在从两个角度来看,宏观角度看,最大是这个问题,数据处理需求不清,现在我们知道农业大数据需要处理,想得到什么,不清楚,能够说的只有只言片语的,在处理过程里边,我个人认为是最大的难点,我用这个数据想得到什么东西,我要找一种合适的技术,现在几乎能找得到的。第二个是数据孤岛现象严重,每一个部门都有各自的数据,包括智农361也分了好几类数据,这几类也是各自存放的,如何把它融合起来需要一个问题,要融合就前边那部分理解,你必须要了解它的需求,这是孤岛问题。第三个数据可用性低,数据质量差,专利数据从往上拔上来,很多无用信息在里边,如果剔除掉,能便于处理,可用性低,数据处理质量差。像现在农业口里边,可能农业技术专家不少,但是数据相关管理技术很弱,对于架构统筹设计方面,引出这样的问题了,就是双料人才缺乏,一个团队必须要多方面的力量,慢慢慢慢融合起来,变成就像我们刚才讲的,卢垚博士实际上是个农业口的科学专家,通过这几年她自己在做研究过程里边,慢慢把数据挖掘,就是这类人才,把自己本领域业务知识了解,同时要对做IT,做数据分析相关问题有所了解,至少能够说的很清楚,能把相关IT技术说到一定层面上,你去找IT技术人员跟他们交流,变得非常容易,这方面人员比较缺。还涉及到一个问题,数据开发,政府今年新的政策已经出来了,学美国了,政府相关数据要放开化,有些数据把它开放出来以后,如何去保证它的安全,把农业相关技术,直接技术没有问题,如果以后涉及到用户,底层用户种植,产量多少,如何保证你的安全。刚才卢垚博士讲到一系列数据如何发挥作用,可能会程度一个问题,这是比较大的宏观层面的考虑。
      具体再讲细一点,我们如何利用已有的一些数据来实现精准农业,比如在什么环境下面,我们要找到哪些地方,一定要保证某些农作物种植的时候达到什么量,在哪些地方达到,哪些地方不能达到,这就是简单理解的精准,这组数据如何利用。农作物监测,所有种植过程里边,如何能够把它采集起来,分析出来,在某种条件下面生长会很快,生长很健康,在某种条件下面,当哪些信息,我采集的数据一旦发现某种信息的时候,就会发生病虫害了,会长得很慢,这是生长过程里边监测问题,在什么情形下,产量大家应该能达到多少,提前可以做预测了,通过数据是反过来,刚才讲把信息化技术反过来,利用以往历史数据能够进行精准农业的评估,提出种植方案,对它进行监督,进行产量的评估,进行病虫害的分析,通过这里边的信息化,前面其实已经提到了,这个方向也开始做,刘总他们已经在做一些相关的开发,比如APP,我们现在通过APP的方式,对于农民本身上学上的并不长,要想种植某一个新的东西,技术不够,不够怎么办,我们把专业农业技术、知识,通过APP的方式告诉他,帮他进行指导,你现在在做什么,只要跟我提交了以后,我告诉你,在温度、湿度和气候条件下,你现在该干什么,进行农业技术的实时指导,通过信息系统,通过专家后台的支持是完全可以做到的。最后是农技知识的推广普及问题,真正待在农村种植的人,文化程度低,这个时候如何把这些东西利用起来,明确告诉他,在某些环境下你去种什么东西,干什么事是最合适的,是做动物养殖,植物种子还是什么东西,最合适。我们通过数据分析,通过前面的数据信息进行归类整理以后,可以进行主动推送,进行农技相关知识推广,这些对我们现代农业大数据来讲都是一个挑战,刚才讲的一系列挑战问题。
      首先第一个问题,如何把要用的数据全部采集起来,刚才最开始我给大家讲到了,这里边遇到很多信息没采集,没有数据,只是我们一个定性,大家在说,这实际上是很大的问题,现在信息化,从政府角度在推这个事情,希望加强信息化建设,这些一旦有了以后,我们后边数据采集工作,应该是逐步的完善起来,我讲的内容大概就是这些,谢谢大家!

      主持人:非常感谢杜教授用非常通俗易懂的语言,把非常深刻大数据的技术跟我们分享的这么精彩,我们以热烈的掌声再一次对他表示感谢!杜教授确实在大数据方面有很深的研究,刚开始说PPT准备的时间非常短,但是我们看内容还是很多的,说明杜老师在大数据方面有很深的研究,对农业大数据也一直在关注,当然农业大数据作为整个智慧农业发展的基础还是非常关键,这也是我们作为农业智慧资源整合云平台智农361的一个使命,我们也一直在努力往这个方向去做,这里边也有很多的困惑跟技术的难题,希望以后能够多跟杜老师多多的交流,请杜老师多多给我们指导,农业大数据确实是整个大数据发展里边的环节,整个大数据的发展也确实都在初期,当然在这个过程中已经有很多人在各个行业里边把大数据这一块也做了一些应用,我们今天也非常荣幸邀请到在大数据实战这方面有很多年经验的黄总,黄总在银行以及交通大数据里边有很深的研究,当然对智慧城市建设有很大的贡献,我们对他表示欢迎!
      黄鹏:首先很欣慰,有这么一个机会,能站在这里和大家分享一下大数据的一些案例包括一些技术架构,我本人这么多年从事大数据的一些技术研究。虽然说我从事的领域不是农业领域,但是其实很多东西都是相通的,今天我大概从这三个方面,第一个简单介绍一下大数据,第二个主要是介绍一下大数据技术的架构,第三个介绍一两个案例。
      大数据的简介,是根据我所在的一个行业,主要是交通行业大数据的特性,做的PPT,因为我对农业不是特别懂。刚刚各个专家们已经介绍过了,大数据有作为3V、4V,为什么有大数据这个概念,为什么有数据,我们最终的目标是希望通过大数据的规律发现一些价值,在发现价值,数据量包括数据源越来越多的时候也出现了很多问题,第一数据共享,第二随着数据源越来越多,数据标本不统一,在原有IT环境里面或者一些别的环境里面,由于生产力,造成数据源标准是不统一的。再者我们并不知道,未来是什么样的数据,数据给我们带来什么价值。一旦有了数据,自然就有了安全问题,我们数据怎样保证安全,这是很大的问题,这么大量的数据,这么多元的数据,这么复杂的结构,我们自然而然在新的时代,也有了大规模的处理能力,对于计算机,对于IT,大量的需求。
      现在是一个好时候,互联网+在国家的层面大幅的提出,互联网+我个人理解它是一次变革,同样是契机,会运用到不同的行业,在互联网+里面,实际上被广泛提到最重要的两个词汇,一个是大数据,一个是云计算。这里面从IT的层面来讲,我们未来的商业模式在互联网+的时代和云计算的时代,所有IT信息化的建设,都会以云化的方式存在。从业务驱动来讲,未来左右系统都会成为驱动,以数据作为运营,数据产生价值,从技术生态来讲,我们越来越倾向于开源的技术企业化,也是因为去IOE的浪潮。当然要实现三块,我们会带来很多很多的挑战,不管从IT,从业务的,从商业模式上的,以及各行各业的转变,都会带来非常非常大的挑战。挑战之一,比如全云化的系统,以数据作为运营中心,以业务作为驱动,作为我们业务方也好,IT方也好,存在跟大的挑战,我们要知道什么样的业务是能驱动我们的商业,什么样的数据能带来价值。开源技术企业化也会带来一个很大的挑战,现在作为大数据领域,比较热门的两个技术,一个是hadoop,一个是spark,在我认知和了解里面,整个大数据一些相关处理多达400多种,还有更多。
      这个在大数据时代,对于IT的一些挑战,第一个是历史数据会越来越多,整个IT系统从记实性来看,发现很多企业或者很多行业,每天产生数据并不多,可能也就几十兆,或者几百兆,但是他们有大概十年、二十年、三十年的数据,这个累积下来可能就到了100T、200T,历史数据会越来越多。第三个是非结构化数据越来越多,主要更多像文本、音频、视频,尤其在交通行业,大量的视频要处理。再者就是垃圾数据越来越多,在大数据里面,有很不好的一个看法,我们把所有数据都丢到了存储,或者云处理,实际上很多时候,大量的数据是没有意义的,为什么会造成这样的状况,很大一部分原因并不知道我们要什么数据,就需要大而全的数据,这个时候其实可能有百分之二三十数据是没有用的,垃圾数据越来越多,会造成后面的分析有大量的清洗工作。种种就会造成现有的系统和现有的存储已经不堪重负了,没有办法处理了,包括数据仓库的建设,用传统的方式都没办法解决。再之后一些传统的平面,大数据最初的一些用法,比如像在电商里面用的比较多,有大量的交易数据,随着物联网的时代,农业、交通也是一样,有大量的信息,包括一些影像、运营、实时监控,比如物流、仓储,包括电商。最后得到一个结论是什么,在大数据的时代,如果一个企业一个行业没有办法形成大数据处理的能力,这个企业肯定会被时代所淘汰。
      这个是可能会偏技术一点,这是整个大数据的演变,最开始我们是SMP时代,是最多的用法,这种模式是Everything,会有比较大的问题,当数据越来越大的时候,性能会存在瓶颈,访问量大的时候,支撑互联网时代的应用没有办法支撑。第二个很多时候扩展性比较差,也有一些优势,都是在小机上面,依靠小机的高性能,会保证它整个的可用性和可靠性,这其实也是一个很大的优势,还有一个没有办法存储大量的数据。为了解决SMP的问题,我们在很多IT信息化比较成熟,或者比较发达的一些领域,比如像银行、金融、电信、交通,有的时候会采用SMP+MPP的混搭摩擦,什么叫混搭模式,SPM有它适合的领域,这种模式好处还是基于传统化,关于数据的处理,对原有SPM技术改变比较小。第二个软硬结合的一体机,第三个能够存储一定量的数据,因为刚才已经说过了,更多是基于结构关系型,很难有存储非结构化的数据。跟MPP是一个对比,SPM有它自己的优势。到大数据时代,更多的时候用Hadoop模式,Hadoop源于谷歌三篇文章,这个是Hadoop简单的架构,下面是分布式存储,能够支持高扩展,海量数据的存储,包括从安全角度是备份。归根结底好处是开源开放,第二是海量非结构化,第三是分布式,第四是高性能,因为大部分都是免费的,是开源,成本很低,第五是海量数据的查询。
      前面说的技术一点,为什么会有大数据,通过大数据探索数据本身的价值,我们的关联不管4V、5V,最后目标就是发现金子。这是大数据里面一些生态圈的东西,我们会发现,刚刚说了,它是分为数据的采集,数据的存储,数据的处理,数据的可视化。它和传统的数据处理流程上是相通的,这个是它一些处理的技术,像SAP,传统数据库,其实这些东西只是从技术层面解决了整个大数据的处理,最终我们会发现,包括在很多行业实施的经验发现,最大的问题在于,很多行业没有一个分析的模型的管理,没有原数据管理,这个就会造成整个上层所有的技术都是一张空纸,没有办法落地,所以目前整个大数据落地比较好的几个行业,一个是银行,一个电信,为什么这两个行业,第一这两个商业化更高,第二个数据管控做的好,能够帮他们带来一些,他们所希望的价值,但是其实这种价值也是很低价值的。
      这个是原来我们的一个体系架构,最下层是数据源,最上层有所谓的数据总线,里面可能会牵扯到所谓类似于OLTP,有实时和非实时。这个是在交通行业的一些东西,刚刚跟那个也类似。最终它的核心是在接入层,比如像路由、转换、实时分析,再上前是调度的一些层次,再上面是很多算法的模型,分析完了把结果开放出来,然后到应用层。同样整个大数据系统,很多时候都是基于原有数据做改造,做集成,对于原有数据来源我们也需要很好的支持。这个跟刚刚类似的,不说了,这也是比较技术型的,不特别多讲了。
      下面是数据总线,展示从数据的接入,再到数据的处理,再到仓库,再到模型,这是整个的生态圈,最下层是HDFS,是分布式存储,上边是NOSQL,也有安全,也有操作。基于这个最上层有R。这个是交通里面的,第一报表,第二统计分析,第三聚类。我们需要构建整套数据的接口,这个接口要支持所谓的高吞吐的。这个是交通行业的,我们设计整个大数据的处理,从IT角度来讲,满足什么样的特性,因为大数据很多和云平台结合,需要具备灵活扩展的分布式,第二个能够结合实时分析,有一种内存计算的技术。很重要是模型,包括交通,包括农业都是一样的,建立指标库、算法库。这是在交通行业的一些案例,比如说实时路况、出租车运营。
      接下来是我找的农业小案例,第一个美国有一个Farmlogs的东西,起因有一个人,他们祖祖辈辈都是农民,他们家还是按照原先耕农的方式,在土地上面运营他们家的农场,这个人他很懂IT,做了很多IT的咨询,毕业以后,回到家里面,他又喜欢农田,他就在想,能不能用现代化的技术,能不能用科技的手段,让农业更加现代化。
      他们想做的事情,我们只是想为家人做一点事情,使命在农业领域搞出创新,颠覆传统耕作的方式,这个模式在中国已经有很多地方开始实施了,已经在用了,整个农业的数据,刚才已经说过了,有土壤,包括天气的,信息的,涉农的一些数据等等。这个平台还能做到,能够通过一个PAD,在农田上面装了大量的传感器,PAD自由录入农业的数据,这些数据都会被存到云端,我们分析平台通过云端的分析,能够预测一下,比如农作物要浇水了,要施肥。第二个通过农民库存的跟踪,包括环节,能够大致的推算下一年的收益是什么样,因为有什么样的状况造成收益的偏差。第三个能够从外源数据,互联网里面抓取农产品的价格,能够实时比价,农户能够很好的上调或者下调他的价格。
      这是另外一个领域,农产品监测预警,农产品的监测预警,我们也是能够在大数据里面有一个很好的应用,它实际上牵扯到很多很多的数据,包括像农产品的生产,包括像刚说的溯源,像消费,市场行为,价格,包括库存,种种的这些东西。我们能够进行一些什么样的监控呢,比如说第一个是监控,能够做一些热点的跟踪,比如说什么样的农产品在市场上卖得比较好,哪天卖得不好,为什么卖得不好,是因为不符合时节,还是别的原因,这样可以动态调配它的物流链,比如库存。第二个有一些溯源的东西,这个产品有没有在哪个环节出现了问题,这样也能够很好做预警,不合格的农产品不会流通到市面上造成不好的影响。最终目标我们要能够通过大数据的操作,能够让农产品进行标签化,这种历史的溯源,包括更加直观,农产品的变化。其实还有一个事情,可以看到,因为春运有迁徙,农产品里面是不是也有迁徙,这个也许是一个有意思的事。
      最终在农业里面,他和大多数的大数据领域是一样的,最终是构建农业基准数据,推动数据标准化。第二个需要开展获取技术研究,推进监测的实时话。第三个需要构建大型模型系统,增强分析智能化。第四个最终目标,搭建预警目标,包括预测,能够在农产品市场里面表现数据的价值。我今天大概就这么多,还是比较偏技术,估计跟农业的东西也不是特别多,差不多就这么多。

      主持人:谢谢黄总,黄总从商业应用以及技术角度给我们分享了一下大数据的价值,刚才前两位,包括杜教授,包括黄总,刚才在演讲过程中都同时提到了互联网+,这让我想起我们上周那次沙龙,上次是互联网+智慧农业,路在何方?这次是农业大数据,如何从海量智慧资源掘金,这两个话题,如果说上次的话题探讨智慧农业,路在何方如何发展,我觉得今天咱们这次的话题,应该是在探讨如何铺向智慧农业的路,这次话题可能更加深刻,对我们智农361平台发展来讲也更加关键,因为这是智慧农业发展基础性的东西。嘉宾的分享已经接近尾声,我突然有一个倡议,刚才听了这么多,今天有农业口的专家,像卢垚博士,宋主任,都是属于农业领域的专家,也有专门研究大数据的专家,像杜老师,还有黄总,都是专门研究大数据的,杜老师在大数据教学方面有非常深的经验,黄总在应用领域也有非常深的经验,看看是不是能够居于今天的沙龙,可以先形成一个作为农业大数据的研究小组,经常性的做一些探讨,可以把身边更多搞农业的,或者搞大数据相关的专家,大家在一块多交流,毕竟农业大数据的发展,今天能邀请到这样几位嘉宾进行探讨,同时在座各位也非常荣幸,大家一起在这探讨农业大数据的发展,说不定未来有一天,农业大数据真正发展到一定程度的时候,今天这样一场看上去人数不是很多,非常简单的沙龙探讨,会是一个农业大数据发展的基础,也是一个关键的环节,所以我非常的期待我们今天能够开启这样一个小组的模式,当然也是看各位专家,各位朋友的意愿,如果今天能够基于这个活动形成这样一个模式,未来比方说进行周期性的探讨,大家可以在各自的岗位,各自的领域经常在大数据发展过程中,侧重于农业,进行一下思考,平常可以通过电子邮件或者微信,或者通过别的一些方式,经常做一些交流,这样一方面对在座各位,研究上就更加进一步,同时对整个智农361的发展会是一个非常大的推动。
      今天时间原计划是在5点正式结束,包括互动,因为在特别嘉宾分享环节,非常超时,剩下时间就不是很多了,原本打算按照正常的流程,应该有五分钟的休息时间,看看在座各位是不是需要休息。如果大家需要休息,可能停五分钟休息一下。如果觉得还可以,咱们就直接进入互动讨论环节,大家有什么问题可以相互去问,相互解答。如果没有休息的时间,我们现在就正式开始。宋老师,互动的环节您来主持一下吧。
      宋敏:刚才几位嘉宾分享的比较多,有技术方面的,今天参加沙龙的你们可能有些是农业的,有些是做数据的,所以下面我们就互动,一个是可以发表你们的看法,另外也可以对嘉宾的一些内容提问,也可以点评,另外讨论的时候,你们自我介绍一下,因为也是一个互相认识的平台,通过这个平台让大家认识一下,建立长期的沟通机制,大家共同为农业大数据、智慧农业方面,能够贡献智慧,上一次讲了大家贡献,给大家分享,是这样一个机制。
      朱律师:我叫(朱金虎),我是律师,对农业信息平台也很有兴趣。我想讲一个我遇到的问题,一直困扰着我,这么海量的信息,怎么从我们作为一个网络的使用者或者浏览者,怎么一下从一个简单的东西找到我要的东西,我看到网上有这么几种方式,一种就是,按照道家的道理,从无中生有,从无极到太极,太极生两仪,两仪生八卦,在海量信息中找到我要找的东西,首先打开一个网站,搜索一个关键词,突然跳出来,比如新浪,或者网易,或者其他的,一下冲出来大量的信息,你在里面找,就是一个判断了,就是一个搜索和选择的问题。能不能按照道家的理念,下面你想找什么,针对客户需求,品种权,第二个页面出来品种权,第三个找的某个公司的品种权,能不能实现这种面积的,跟我们思维方式能够相符操作的模式,我想请教专家。
      宋敏:你说的信息个性化推动,前几天微信圈看到一个案例,美国一家超市,婴幼儿,孕妇用的那种礼品,他们家的女儿16岁,送这个礼物肯定针对女儿,那家父母不干,我们家女儿才这么小,怎么送这个对象,告到法院,后来怎么知道她的女儿真的早恋,这就是超市和渠道发生的一个网点找到信息,信息里面发生的。
      杜孝平:推送从使用者角度,有大数据的库,通过分析知道谁要用什么东西,你关注什么东西,我给你推出来,叫预测模型,这个是推送层面,他刚才提的是想发现什么,你那个问题提的有一个点,比如你说我输入品种,从理念的角度,我是想得到真正跟品种相关的,我又怎么判断你那个品种是想查品种文章,还是作为关键词,植物的品种并不能判断,因为不能判断,真正要做到你说那种,在我这个情况,有点难。现在实际解决方案是这样的,有两个,就是搜索引擎,基于关键词,这个文章里面出来排名排在哪儿,这里边有一个说法,包含关键词,排出来的顺序,交了广告费,这个就要往前排的,里边有一套规则。第二类叫垂直引擎搜索,刚才叫普通大众化搜索引擎,第二类叫垂直搜索引擎,这里边我只搜农业信息,或者搜农业的相关信息,查的网页全是这个,这个引擎下边每次到网页面挖掘数据,挖掘全是这个,跟你知识相关的网页,然后基于这样的东西还来做这套,把它排好了以后找,实际上现在几乎所有的搜索引擎都是叫引擎搜索,把它排在前面,排出来只是谁靠前谁靠后。
      朱律师:你讲搜索引擎,一个网站,比如别人搜到我了,我怎么把我的信息按照一种逻辑顺序,像数据库一样,都比较清晰的,一层层的。
      杜孝平:那就是网站设计问题了,UI是一个内容,那个问题是网站设计问题了,实际上是开发者,如何把你的逻辑理顺,这一点怎么说呢,做法上能把你的业务很清楚,先把你那里边相关逻辑关系理清楚,并且按照刚才的方式,进到你的网站,数据下面分几个,一级一级往下走,一般都能做得到,跟数据是不完全交叉的。比如这个本来在这一级,同级可以延。
      朱律师:我们中心网站就有,原来讲知识结构,专业知识+IT知识,本身知识逻辑化就不够。跟我学那个东西,建立起来的系统知识,老是打架,我要么变,要么你变,就像迷宫一样。
      宋敏:像搜索引擎,只愿意翻到第一页。
      杜孝平:真正找个东西到三层以后,我都不愿意往下找。
      朱律师:有一个问题,假如新浪网首页,打开的时候,要搜索你的信息,看到很多,实际上你要在观察过程中,你肯定也在搜索和筛选,比如我事先找哪个,在一个界面上,假如能够做出,第一界面找什么,第二个界面找什么。
      杜孝平:这里边就有,分类,不同网站不同方式,现在带有商业类,像我们那里边出来很多讲推送某种东西,要想推送相关东西的网站,提出来就是F结构,F结构是什么?是实现菜单的另外一种形式,要把中间那一期设为关键点,现在做出来很多,为什么把广告放在哪个位置,主要内容放在哪个位置,我们把所有T放上去以后,根据用户阅读,点击最多,最开始不知道位置,根据用户关注的信息,基于这种关注信息,再点出来的信息归类,比如新闻类,归结起来以后发现哪一类点击特别多,我就看看这个网站目的是什么,想是推新闻还是做广告,如果不同的方式放的位置就不一样,既然这样做,在一个主页里边应该放哪些东西,用户关注最大。第二个刚才我讲ABtest把主要的摆上去,另外一组不一定,比如现在淘宝网不是ABtest,不是这种,卖东西更多是展示性的东西,按照我自己的思维,把两种全做出来,推出去看看,让大家做,用户在五天、十天、一个月,看看什么样,最后大家看这个很好,一看最清晰,几次下来,慢慢下来,这种方式最合适,其实行业不一样,应用不一样,展现出来的也不一样。刚才宋老师讲的,为什么标签要黄色,不用红色,这个标签体现是农产品,关注这个的群体是什么,他喜欢什么颜色,这个写论文要写的,不能把结果摆出来,必须讲出理由,这就是把产品特点全部拿出来。
      刘亚东:现在已经5点快10分了,再给10分钟的提问。
      提问:我看到咱们报告,包括您刚才的介绍,有一个问题请教您,专利数据在大数据当中,就是这个平台当中应用这块,您觉得发挥了什么样的作用?
      宋敏:现在我们是把专利当中做的第一步,现在是把它推介起来,专门有展示交易的平台,首先让社会知道你有哪些专利技术,这是第一步,今天为什么讨论这个,这个平台主要掌握的是农业智慧资源,刚才大数据里边主要是这一块。刚才介绍整个农业大数据里边,还有实时生产环节数据,另外还有一些新的数据,这些我们现在已经通过物联网采集,将来理想状态希望技术,生态环境,还有生产习惯,给它匹配起来,这里边还有一些过程,专利技术跟农资、生产,首先跟生产质量来匹配,现在是几大块,一个知识云库,这个云库可以查询所有的农业知识的数据,都是可以找到的,解决现在农民找信息问题,虽然现在有很多信息,但是信息是碎片化的,没掌握起来,我们想以后农业相关的知识在这都可以找到,解决信息的碎片化问题。第二个有一个技术交易,因为产权的问题,有些能够得到信息,但是不能使用它,通过交易,这个问题解决了。然后下一块就是农技帮手,这个地方通过各种手段,让农民学会、掌握生产技术,这里面有各种,百科,还有导航,农民拿到这个APP,能够获取生产技术信息,把一些高深层次的理论,通过数据挖掘以后,把它换成一些简单易懂东西,教给他,下面智慧农业是农技管理的系统,管理整个农业生产过程,这个里面都入驻到这个平台,通过农场管理系统,包括APP,把它对接起来。最后还有个农贸集市,把生产的东西在这上边卖,怎么跟消费者对接,大致这样的系统。
      中国知识产权报:我是中国知识产权报的记者,今天非常高兴能来到农业知识产权沙龙,想问一下第四个,应该是发明专利。
      宋敏:发明专利,这个是错字。
      中国知识产权报:还有创造指数百分数的形式来计算,是去年计算出来的?
      宋敏:关于创造指数这一块,计算有两套,一个时间序列,2014年,这些指标跟2013年对比,时间序列的指标,你看首先一个申请量,指数11.97%,2014年比2013年增加了11.97%,授权量增长了13.13%,维持年限增加了3.75%,同比,然后这三个指标,中国的指标是整个增加了9.54%,这样计算的。另外区域和单位的指数的计算,我们是采取了横向的方式,我们把申请量最高作为一百,在其他最高的比较,算出一个相对指数,申请量、授权量这样来算,最后形成综合的,发明专利比如山东,山东申请指数都是全国最高的,是百分之百,但是申请量在全国最高是江苏,另外两个比较高,综合的指数在全国排在第一,这是体现地区还有单位,相对的位置,另外能够反映大致的差距,比如第一个90%,和最后只有1.89%,差距是非常大的,
      主持人:再给一位朋友机会。
      提问:杜老师,我们在10年前见过面,10年前杜老师跟我们说,我们是做网站的公司,深入的挖掘客户的需求跟客户定好位做什么,再去开发,今天我还是就这个问题根据咱们大数据的讨论,假如我面向客户都是开发的客户,比如我遇到了刚才律师老师这样的一个平台,是非常大的平台,这样我是如何能够快速的挖掘客户的需求,从而非常明确的帮客户找到了盈利点。
      杜孝平:这里边有两个客户,首先你去帮客户建一个网站,从项目角度,你是甲方,他是乙方,但是乙方实际上他要做运营的时候,他又是甲方,下面在运营平台上使用者又是乙方,叫两层用户,你现在针对用户,涉及到两个应用。因为你刚才讲用户,这两个用户不能对等,终极目标是一个,如何为建立平台的用户,能够让他获得最大的利益,可能说起来几句话还说不清楚,但是有几个点是可以把握的。第一个,要建立一个问题,在这个点上真正做的过程中,工作不是你的,是你提要求,很重要要解决需求的问题,要想得到这一个东西,比如我是一个你作为这个项目的甲方,目的是什么,我的目的是做这个产品,这个产品主要推向谁,这应该甲方来做,你只管提要求,做不好你有责任,甲方必须给我答案,有了准确答案就好办了。
      提问:好多时候客户也定位不了自己的方向。
      杜孝平:现在最大的问题就是出在这里边,如果真的做不好,我能做到只能是做到,你给我要求的成果上面,我给你做的最好,但是不能保证,我帮你做个平台,最后能不能维持下去,把责任归到我身上,这作为一件事,当然你是为了客户好,就是要明确告诉他,你先把它说清楚了,人家对你的一个印象是你在替他着想,当然你在提的时候有一个策略的问题,拿出道理,比如明确告诉你,我跟你开发这个平台,之所以提这个问题,不管谁去做,我不管,那里边一定把这个问题解决了,你说的越不清楚,我开发越简单,按照自己的想法开发出来了。在后面建模型,建功能的时候,有意识做出针对性,要甲方你去,把你的市场是哪些,针对的人员是年轻人、学生、农民,还是属于文化工作者还是其他,你把主要针对对象,先拟定一个初期目标,至少是近期和中期目标,在做的过程中,刚才讲的界面设计就不一样了,针对哪一个功能针对哪一级用户,才考虑界面设计,把这些拿出来,你把要求提出来,你简单提要求,人家觉得你怎么那么多事,我告诉你先说清楚了,其实可以不问,按我的方法做,但是这样做真的是为你考虑,现在是这样,你把道理说清楚了,人家领导可能就会觉得,这事还真对我们很重要,想办法把这些事情完善。
      朱律师:作为网站开发的记录上,如果经验丰富,就说是网站,客户比如他没有提到需求。
      主持人:现在一切是大数据,任何一个东西可以用大数据去思考,并且用大数据的方式进行回答,今天再给一个机会。
      提问:还得打扰您一下,我跟您咨询一下,看的智慧农场的平台,在俄罗斯那边有一块地,您能不能告诉我一下怎么用,从品种规划,到控制管理,到后期的采收,知识产权购买,还有您智慧农场从头到尾这个平台到底怎么用。
      宋敏:如果你自己想搞一个农场,有个专门农场入驻,入驻就是把农场的基本信息,现在上面已经入驻了很多农场,包括专业合作社,你把你的基础信息入驻到这个里面,一个是关于农场基本信息、土地,还有基本设施,农业生产,大致一些类型可以选,选完了以后,然后农场生产什么产品,专门有个农贸集市,产品自然进到农贸集市上进行展销。另外农场主你用地,将来种子什么品种,自己有个大致的选择,比如种玉米,种水稻,一旦选择以后,这个平台有个专门的APP,选了种水稻,在你这个区域适应水稻的品种,种子信息可以过去,也可以从这个上面找到种子的相应信息,购买,经销商也可以找到,另外你要种水稻,用这个品种可能需要一些肥料,一些农药,这个信息在上面通过技术,整个经销商的信息都有,还有让你这个产品跟消费者直接对接,对接以后,一个保证你生产的过程,消费的可视化,另外追溯系统,对农场直接销售产品带来方便,主要让农户和消费者直接对接。
      提问:我问一下,入驻信息已经自动生成了,包括中后期的管理,包括智慧农业系统建设有没有?
      宋敏:智慧农场管理系统现在没有上线,以后会有,整个农场运营管理过程,什么时候该浇水,什么时候施肥,在哪儿销售,全都有,但现在还没有完全上线,因为会有农场管理系统一套,只要装在手机里面,整个操作,最后有一些物联网的系统,你在农场里面,这些气候、水分,传输到手机上,这个季节该干吗。
      提问:大概什么时候上线?
      宋敏:应该快了,相关的这些系统都组合在里面。
      主持人:农业物联网这块系统也在逐步建,有一些跟农业物联网基础的东西也有,有一些实践的地方,像视频监控,但是现在受限于带宽资源,有些东西没办法实时去传,现在我们做了一个生产过程提交的,这个回头需要先期给你一个实践的版本。
      宋敏:跟着我们平台一起发展。
      主持人:入驻到智慧农场里面,可以把这个口开给你,把平常生产过程中一些图片,就跟日记一样,每天生产信息可以录过来,以后可以回过来查询,包括现在应用鸡的生长过程,蛋敷鸡,每天都会拍几组照片,用这种方式解决带宽不足的问题,等终端带宽解决好了之后,希望最终达到的目标是这样的模式(361平台伏羲农园)。不光是水相关的气象信息,还包括整个监控信息,如果需要对外展示给用户,我们都可以实时接到这个平台里边来,整个口已经做好了,就是带着别的模块的融合跟进一步向农场地面的安装,如果农场这一块需要去做建设,比方像线下智慧农场的建设这一套体系,都可以去做,现在方案也是成熟的,在四川、河南一部分基地在做实践,其实智慧农业的建设,前几年有一部分技术是成熟的,基于新的互联网的条件跟新的移动的需求,需要一些新的开发跟定制,每个农场也会有自己的特殊性,也需要做一些定制的开发。如果您那个农场有需要,可以线下再联系我,我们也可以给您提供这种服务。
      宋敏:非常感谢,马上到了5点半。前面大的农业知识产权创造指数的报告发布,这个报告前面介绍了四年来一直是农业部科教司给我们这样一个项目,也是前瞻性的,今天科教司何处也来到现场,非常感谢长期支持我们做这个报告,大家也看到,社会上的影响也是越来越大!我们对今天参会的各位表示衷心的感谢,谢谢几位嘉宾,把你们多年积累的知识给我们一起分享,当然也要感谢农业部科教司,长期大力的支持,谢谢大家!
      主持人:我们这个活动到这里就结束了,在会场的后边,等会会有相关的赞助商给大家发放一些小礼品,就是刚才我打开的伏羲农园的鸡蛋一盒,大家等会可以领取一下,当然那边还有好几个赞助商,还有别的赞助商提供的大枣,可以现场品尝、购买。谢谢各位!




微博热议

其它沙龙

我要主办沙龙

您可能关注的