用户名:匿名用户
1、在大**采集与预处理方向
只令统附喜府歌这方向最常见的问题是数集案去据的多源和多样性,导致**的质量存在差异,严重影响到**的可用性。针对这些问题,目前很多公司已经推出了多种**清洗和质量控制工具(如IBM的Dat势叫值液课持古血弱此aStage)。
2、在大**存储与管理方向
这方向最常见的挑战是存储规模大,存储管理复杂,需要兼顾结构化、非结构化和半结构化的**。分布式文件系统和分布式**库相关技术的发展正在有效的解决这些方面的问题。在大**存储和管理方向,尤其值得我秘注的是大**索引和查询著眼江消免科班评技术、实时及流式大**存储与处理的发展。
3、大**计算模式方向
由于大**处理多样性的需眼张扬沿丰交岩笑求,目前出现了多种典型的计算模式,包括大**查询分析计算(如h**ive)、批处理计算(如h**adoopMapRe**ce)、流式计算(如Storm)、迭代计算(如h**aLoop)、图计算(如Pregel)和内存计算(如h**ana),而这些计算模式的混合计算模式将成为满足多样性大**处理和应用需求的有效手段。
4、记坚曾训受克牛者尼农大**分析与挖掘方向
在**量迅速膨胀的同时,还要进行深度的**深皇伤皇屋才化感绿变通度分析和挖掘,并且对自动化分析要求越来越脯越来越多的大****分析工具和**品应运而生,如用于大**挖掘的Rh**adoop版、基于MapRe**ce开发的**挖掘算法等。