Hadoop 在海量非结构化数据处理方面能充分展示它的优势 , 如消费者购买行为分析、商品推荐、关键词检索、信贷风险评估等 。
如图 1 所示 , Hadoop 其实就是一个分布式计算平台 , 它“覆盖”在操作系统之上 , 向上提供函数调用(API)和命令接口 , 在水平方向完成分布式系统的基础算法 。作为编程人员和用户 , 只要了解 API 和命令即可 。
图 1Hadoop
基于 Hadoop 平台衍生出来的开源项目主要有 Yarn、HBase、Hive、ZooKeeper、Avro、Sqoop、Mahout、Crossbow 等 。
以 Hadoop 为基础的生态目前已经成为大数据的标准方案 , 被广泛用于金融、市场、电信、交通等行业的海量数据分析 , 在即将到来的大数据时代 , 它将会发挥更大的作用 。
在中国 , 很多行业(如银行、电信、移动、电力、石油、交通等)沉淀了大量的业务数据 , 对这些海量数据进行挖掘和分析 , 将会带来巨大的价值 。
用 Hadoop 构建的应用实例对于计算资源的消耗具备两个明显的特征:
资源需求大:表明 Hadoop 需要大量的存储、计算和网络带宽 。
资源需求具备季节性:表明除存储需求是经常性占用外 , 在运行 Mapreduce 时才需要大量的计算和网络资源 , 而分析大量数据的工作并不是经常性的――称为季节性
因此 , 云计算是大数据天生的计算资源供应途径 , 云计算的资源弹性很好地满足了大数据的季节性计算资源需求 。也就是说 , 大数据是云计算经典的应用案例 。当然 , 也可以按照大数据对计算资源的波峰需求静态配给计算资源 , 但是这种方案会造成资源的巨大浪费 。
2. LVS
LVS 是 Linux Virtual Server 的首字母缩写 , 意为 Linux 虚拟服务器 , 即把许多台物理 Linux 计算机逻辑上整合成一台超级计算机 , 对用户来说感觉只有一台计算能力很强的服务器 , 如图 2 所示 。
LVS 就是一个由软件实现的负载均衡器 , 工作在网络 OSI 的第四层(应用层) , 是中国人章嵩开发的 , 代码已经并入了 Linux 内核 。利用它 , 再加上一台廉价的计算机 , 就能构建一台企业级的负载均衡器 。而那些外国大公司的负载均衡器 , 售价都要十几万元 , 甚至几十万元 , 便宜的也要几万元 , LVS 出来后 , 这些产品都不得不降价 。
负载均衡器的作用就是把任务分配给最合适的服务器 。比如一个大型购物网店 , 有 100 台同样配置的服务器在运行 , 如果某一时刻有 10 万用户在线购物 , 那么通过负载均衡器 , 每台服务器差不多承担 1000 个在线购物用户 。
LVS 的官网网站是 http://另外 , 两个较为流行的第七层负载均衡器是 Nginx 和 HAProxy , 针对应用做均衡 , 所以能适应的负载种类没有 LVS 多 。
图 2LVS原理图
3. Linux-HA
也许有读者会问:“负载均衡器本身故障怎么办?”是的 , 如果负载均衡器出现故障 , 那么整个系统(如网店)将会瘫痪 。所以人们开发了各种集群软件 , 如 Linux-HA 和 Keepalive 等 , 而微软干脆就在 Windows 服务器版中集成故障转移集群软件 。
集成故障转移集群软件的核心思想是 , 实时检测故障机器并及时让好的机器接管工作 , 对外提供高可用性 。Linux-HA 意为 Linux 高可用性项目 , 此项目具体包含如下几个组件 。
- 眼睛里面长了个白色肉疙瘩是怎么回事 眼睛下面长白色疙瘩粒
- 咳嗽无痰吃什么药 一直咳嗽没有痰不见好怎么办
- 春天女人适合喝什么茶最好 春天补气血喝什么汤最好
- 《向风而行》|《向风而行》李雨珩结局是什么 李雨珩喜欢的是谁
- 排毒养颜胶囊的功效与作用是什么 女人排毒养颜最好的药
- 秋天作用幼儿 秋天孩子喝什么汤最好
- 每天都想吃辣的 想吐吐不出来吃什么药
- 眼部长脂肪粒用什么药膏涂可以治疗 眼部长脂肪粒什么样子
- 肾阳不足上热下寒吃什么食物改善 肾阳虚吃食物什么补最好
- 你在喝醉之后是怎么醒酒的 过量饮酒的穴位按摩解酒