Azure Databricks大数据构建营 | 抛“砖”引玉:如何

时间:2021-07-15 | 标签: | 作者:Q8 | 来源:云科技网络

小提示:您能找到这篇{Azure Databricks大数据构建营 | 抛“砖”引玉:如何}绝对不是偶然,我们能帮您找到潜在客户,解决您的困扰。如果您对本页介绍的Azure Databricks大数据构建营 | 抛“砖”引玉:如何内容感兴趣,有相关需求意向欢迎拨打我们的服务热线,或留言咨询,我们将第一时间联系您!

< ">“大数据”,这早已不是什么新概念,相关的产品和应用相信大家已经非常熟悉,甚至已经在很多项目中获得了实践运用。然而随着云计算技术的快速发展和进一步完善,“云”已经从互联网应用上云的1.0时代逐渐演变成Cloud+AI+5G的2.0时代。伴随着的是企业云化程度加深、核心业务上云,同时对于云计算1.0时代遗留问题的改造也都提上了日程。

< ">现如今,各行各业都在加速数字化转型,数据对企业的价值更是不言而喻了。可如果数据只保存不分析,那再多的数据也是徒劳,除了增加成本外毫无价值可言。数据要想有价值,就需要找到合适的、好的工具,把收集的数据有机结合起来做分析,从数据源头跟踪到最后有价值的输出。这就好比天然矿场需要通过冶炼等工具和技术最终方能得到价值连城的稀有金属一样,不经过这些提炼恐怕得到更多的是泥土。

< ">随着企业需求和技术环境的变化,数据平台本身也在不断演化和完善。我们看到了近几年Hadoop大数据分析平台的蓬勃发展,但是,随着数据量越来越大,在数据中发现价值的要求越来越高,上一代大数据分析平台已逐渐无法满足企业数据分析需求。面对这种情况,以Spark为基础的企业级统一数据分析平台Databricks跃然而出,通过超高性能的大数据计算引擎、功能全面的数据存储技术,以及针对各种开发工具和运行时的灵活支持,通过一个统一平台满足了不同行业组织在大数据处理和分析方面的各项需求。

< ">微软也在随着技术社区的发展趋势,为用户提供与时俱进的数据平台和分析解决方案,以灵活、完善的产品满足用户有关数据分析和洞察的全新需求。从早些年基于Hadoop技术提供的Azure HDInsight,到Apache Spark,再到最近基于Spark全新推出的Azure Databricks服务,相关服务的不断演化与革新通过全新功能与能力赋能企业更好地驾驭数据威力。

< ">本次《Azure Databricks大数据构建营》系列文章,将主要围绕Azure Databricks以及其他配套服务,通过一系列实战教程告诉大家如何基于Azure云打造完全运行在云端的闭环大数据平台。

< ">内容涵盖:Azure Databricks的基础知识,以及如何借助Azure Databricks实现流计算(Structure Streaming)、批处理(Spark SQL)、安全访问控制以及机器学习能力等。



< ">本期,我们就一起来看看Azure Databricks是什么,都可以帮助我们些什么。

< ">什么是Azure Databricks

< ">目前在数据分析领域已经出现了很多成熟的方案和技术,如数据仓库Azure Synapse、Impala、Pr金华舆情esto;数据计算框架Spark、Flink等。每项技术都有自己所擅长解决的问题和场景,用户完全可以根据实际需求灵活选择。

< ">而Azure云平台上最新发布的Azure Databricks,是“一款基于纯Spark技术栈的大数据解决方案”。Azure Databricks很早前已经在全球版Azure中正式发布,最近刚刚开始在中国版Azure提供了预览版服务,暂时需要申请才能使用。

< ">Azure Databricks是一种基于Apache Spark的分析平台,并针对Microsoft Azure云服务进行了优化。Databricks是由Spark原作者团队创办的一家做Spark的商业化产品公司。微软通过与其合作,将Databricks与Azure集成,借此提供一键式部署等简化工作,从而帮助用户更专注于基于业务的数据分析或科学计算。

< ">Azure Databricks和原生云服务产品的集成方式如下所示:

< ">可见:Azure Databricks可以和很多Azure云服务集成,支持如Azure Blob、DataLake、CosmosDB、Synapse、Eventhub等作为其上下游服务进行对接。通过Spark计算框架提供的流批计算技术进行大数据计算,同时也可以集成机器学习来提取并探索数据中所包含的见解。

< ">Azure Databricks按照层次结构划分由底而上大致分为:

< ">Databricks IO:Databricks的I/O模块,又称DBIO,利用垂直集成堆栈显著提高Spark在云上的性能。

< ">Databricks Runtime:除原生Spark外,还提供其他组件来提高大数据分析的可用性、性能和安全性。

< ">Databricks Workspace:工作区是可以提供访问所有Azure Databricks资源的一组环境,包括Notebook、Libraries、Experiments等对象组织到文件夹中,并提供其对数据对象和计算资源的访问权限。

< ">Databricks Enterprise Security:Databricks企业安全(DBES)模块添加了诸如静态和动态数据加密、细粒度数据访问控制和审核等功能,以满足标准合规性(如HIPAA、SOC2)和最严格的安全要求。

< ">同时,Azure Databricks也100%兼容Apache Spark提供的集群技术和功能,具体所包含的Spark组件如下图所示:



< ">Spark SQL:SparkSQL是用于处理结构化数据的Spark模块,基于Spark DataFrames分布式数据集合,可以把它在概念上理解为关系型数据库中的表。

< ">Streaming:实时数据处理和分析,适用于实时分析与交互式应用程序以及构建实时数仓,可与HDFS、Flume和Kafka等集成。

< ">MLlib:由常见机器学习算法和工具(包括分类、回归、筛选、维数约简以及底层优化基元等)组成的机器学习库。

< ">GraphX:图形和图形计算,适用于从认知分析到数据探索的广泛用快手抖音例。

< ">Spark Core API:包含对R、SQL、Python、Scala和Java的支持。

< ">Azure Databricks的架构及特性

< ">Azure Databricks是基于Apache Spark的快速、简单、协作型分析服务,具体架构如下图所示:

< ">Azure Databricks整体可分为控制平面(Control Plane)和数据平面(Data Plane)。其中控制平面由Azure托管,负责管理集群主节点、提交的任务调度、账号权限等;数据平面交由用户管理,可通过Databricks提供的接口来对集群进行操作,常见的一般有UI、API、CLI。

< ">具体来说,当启动Azure Databricks集群时,需要指定要使用的虚拟机类型和数量,同时部署出来集成VNet、NSG、存储账户的托管资源组。部署完毕后,用户就可以通过Azure Databricks UI来管理集群。所有元数据(如计划作业)都存储在具有异地复制功能的Azure数据库中。

< ">值得一提的是,Azure Databricks和容器的集成也逐渐深度了起来,在创建集群时也可以指定容器镜像,方便用户打包自己的定制化镜像从而进行集成以及CI/CD的可能性。

< ">总体上说,目前Databricks和Azure的集成基本上可提现为以下几个方面:

< ">虚拟机类型的多样性:可集成所有现有虚拟机类型,例如CPU优化的F系列、内存优化的E系列、通用的D系列等。

< ">网络拓扑的灵活性:提供Azure Databricks与VNET集成来满足多样化的基础架构网络的访问需求。

< ">Azure存储和数据湖集成:通过DBFS向Databricks公开,以提供对现有数据的缓存和优化分析。

< ">Azure Power BI:可使用JDBC将Power BI直接连接到Azure Databricks来进行大规模交互方式查询数据。

< ">Azure AD:通过Azure AD来做集群的访问控制和权限认证。

< ">Azure SQL数据仓库、Azure SQL DB和Azure Cosmos DB:可与Azure上其余数据服务进行快速便捷地集成,方便用户快速建立端到端的云上数据架构。

< ">有关Azure Databricks的简单介绍就是这些。如您希望进一步了解该服务,还请查阅官方文档。后续,我们将通过更多企业场景的最佳实践分享,帮助大家更清楚了解Azure Databricks在大数据分析领域的强大能力。敬请期待!



Azure Databricks大数据构建营 | 抛“砖”引玉:如何

上一篇:Microsoft Azure 在数据分析中的应用
下一篇:腾讯云COSFS工具使用说明 - 腾讯云对象存储映射到


版权声明:以上主题为“Azure Databricks大数据构建营 | 抛“砖”引玉:如何"的内容可能是本站网友自行发布,或者来至于网络。如有侵权欢迎联系我们客服QQ处理,谢谢。
相关内容
推荐内容
扫码咨询
    Azure Databricks大数据构建营 | 抛“砖”引玉:如何
    打开微信扫码或长按识别二维码

小提示:您应该对本页介绍的“Azure Databricks大数据构建营 | 抛“砖”引玉:如何”相关内容感兴趣,若您有相关需求欢迎拨打我们的服务热线或留言咨询,我们尽快与您联系沟通Azure Databricks大数据构建营 | 抛“砖”引玉:如何的相关事宜。

关键词:Azure,Databricks大数据构建营

关于 | 业务 | 案例 | 免责 | 隐私
客服邮箱:sales@1330.com.cn
电话:400-021-1330 | 客服QQ:865612759
沪ICP备12034177号 | 沪公网安备31010702002418号