地球有了数据库,为什么还需要Hadoop?

新农商网 全部 1020

地球有了数据库,为什么还需要Hadoop?

回复

共2条回复 我来回复
  • IT人刘俊明
    IT人刘俊明
    这个人很懒,什么都没有留下~
    评论

    要回答这个问题首先要明白Hadoop解决了什么问题,这些问题又是怎么出现的,传统数据库在解决这些问题的时候出现了哪些弊端,只有搞清楚这些问题才能明白为什么需要Hadoop。同时我希望通过这篇文章把云计算、物联网以及大数据讲清楚(从概念上),同时阐述它们之间的联系。


    云计算、物联网、大数据


    第三次信息化浪潮的代表技术为云计算、物联网和大数据,搞清楚这三个概念是了解为什么需要Hadoop的前提。

    物联网简单的说就是物物相连的网络,构建在互联网之上又把互联网的边界进行了拓展。在物联网出现之前计算机处理的数据大部分是格式化数据,而格式化数据是关系型数据库处理的主要数据类型。关系型数据库有完整严谨的数学基础,是处理格式化数据的不二选择。
    但是物联网出现之后大量非结构化数据成为了主要的数据来源,数据规模一下变大,大到传统数据库已经无法处理这些数据的程度。大家可以试想一下,一个摄像头如果每天不间断的拍摄会产生多少非结构化数据,而现在遍布大街小巷的摄像头又有多少?这些数据的规模已经远远超出了传统数据库的处理能力。

    在处理这些大规模的数据之前,首先要解决的一件事情就是存储问题,大规模的数据存储需求促使了云计算平台的出现。为了保证大量非结构化数据的存储,需要建立大型的数据中心,而保证数据中心的运转则需要云计算平台的支撑,这就是云计算平台出现的重要原因。

    云计算平台提供了IaaS、Paas和SaaS三个级别的服务,目前国内大部分云计算平台都以提供IaaS为主要业务,简单的说就是提供了一个资源池,通过虚拟化技术完成硬件资源的统一管理。用户通过云计算平台来获取自己的网络服务,可以根据业务规模进行动态扩展,多租户和廉价是云计算平台的主要特点。

    有了云计算平台大量的数据就有了存储的场所,但是如何把大量的数据进行存储就需要使用分布式存储技术了(HDFS),存储之后如何对数据进行处理就涉及到分布式计算了(MapReduce),而HDFS和MapReduce则是Hadoop的主要组成部分。这就是为什么现在需要使用Hadoop的原因,可以说大数据是物联网和云计算发展的必然产物。


    大数据与机器学习


    大数据一个重要的作用是让数据产生价值,和现在的区块链技术不同,区块链技术本身的数据就存在价值,这个将在后续文章中跟大家探讨。要想让大数据产生价值首先要对数据进行分析和处理,这就需要结合机器学习的内容了。

    机器学习简单的说就是让无序的数据产生价值,通过不同的机器学习算法来完成数据的分类判断进而做出一些实际的使用,比如智慧交通、智能医疗、智能物流等等。关于机器学习的内容会在以后的文章中陆续讲解。

    大数据平台不仅仅有Hadoop,还有Spark,Spark在运行速度方便比Hadoop有一定的优势,因为Spark是基于内存的运算。通常一个大数据系统是一系列技术的结合使用,比较常见的还有Hbase、Hive、Yarn等一系列解决方案。

    不同领域的专家都可以参与到大数据应用中,可以说大数据不仅仅是计算机专家的事,更是一个大的融合平台,其中还需要统计专家、算法专家、数据处理专家、行业专家、交互专家等一系列不同行业的人士参与。

    关于云计算、物联网、大数据、机器学习等细节方面的内容比较多,涉及到的专业知识也比较繁杂,我会在以后陆续写文章进行阐述。

    关注我,了解更多关于Hadoop的内容。

    2018-03-04 11:37:14 0条评论
  • 优悠严选
    优悠严选
    这个人很懒,什么都没有留下~
    评论

    这个问题挺好的,不过有了数据库确实好而且也很成熟,


    数据库分为关系型数据库和nosql数据库等。关系型数据库这类有mysql数据库,oracle数据库,sql severe数据库,nosql数据库有mongodb文档数据库,redis键值数据库,hbase列存储数据库等。为什么还需要hadoop呢,


    主要是随着互联网的快速发展,数据没有都是tb,pb级别的产生,而像传统的关系型数据型已经不能很快的处理这么多的数据,一般关系型数据库在处理千万级别的数据,已经开始出现了瓶颈,这时候hadoop处理大数据的技术产生啦(其实就算hadoop不产生,也会产生其他的处理大数据的技术,毕竟是趋势),这个hadoop技术是采用分布式来存储和处理数据的,

    现在hadoop已经很成熟啦!主要是由hdfs和yarn两大块,而且用的也很广,它也有生态圈,比如有自己的数据仓库hive,hbase数据,sqoop导入数据的工具,strom实时处理系统等。最后,在互联网时代,hadoop确实是处理大数据的一个很好的选择。

    2018-04-18 21:53:01 0条评论