Hadoop主要有以下几个优点:
● 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
● 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
● 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
● 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
● 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
hadoop与数据库有什么区别
1.MPP数据库: MPP数据库专注于在一个集群上并行执行SQL查询分析。更加封闭,但很多MPP数据库使用HDFS存储系统,计算则不采用MAPREDUCE,比如: HAWQ. 当查询失败时,MPP数据库会终止整个查询,重新提交。分布式数据的处理原理,MPP采用的是方法2.
2. HADOOP: 可以运行任意程序的通用计算系统。因为文件系统存储的是二进制字节,存储的数据格式也更多样化。综合,存储的数据格式更多样,计算的编程语言更多样。生态更加丰富。当查询失败时,MAPREDUCE会尝试重新查询。分布式数据的处理原理,MAPREDUCE采用的是方法3,但前提是必须是处理排序号的数据。
存储:HDFS
计算:MAPREDUCE
分布式数据的处理原理有三种:
1. 最笨的方法是从头到尾查找一遍,这个时间复杂度跟数据量是1:1的关系;
2. 比较好的方法是,讲这个数据分成几段,每段由单独的计算机去算,这样效率能提高n倍(n为分为的段数),时间复杂度跟数据量是1:n的关系;
3. 而对半查找法则是根据已知数据集是排好序的,所以我们只要在数据集的中间位置比较一下,就能知道我们要找的数据是在前半段还是后半段,然后选取有效的半段递归下去,直到有效半段只含一个数值就找到值相等的位置了,这个时间复杂度是1:2^m(m为递归循环的次数)
关键词: Hadoop是什么意思 hadoop与数据库有什么区别 hadoop与数据库的区别 hadoop是什么 Hadoop的优点