五步，三分钟搭建一个企业级大数据平台

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2389 天前的主题，其中的信息可能已经有所发展或是发生改变。

著名的 O'Reilly 公司断言：「数据是下一个 ‘ Intel Inside ’ ，未来属于利用数据并将其转换成产品的公司和人们。」

三分钟搭建一个企业级大数据平台？你不信吗？

大数据隐含的巨大社会、经济价值已经引起了越来越多企业的关注，为了让用户获得更便捷、灵活、高效的大数据解决方案，减少海量数据分析、处理、查询的延迟，青云 QingCloud 基于 SparkMR 推出新一代可提供计算、存储、分析、查询一站式全方位的大数据服务 QingMR。

作为 SparkMR 的升级版本，QingMR 包含了 HDFS 分布式文件系统，Hadoop MapReduce 和 Spark 数据处理框架，YARN 集群资源调度系统和 Hive 数据仓库工具。同时，更近一步集成了极速海量数据 OLAP 引擎 Kyligence Analytics Platform (基于 Apache Kylin)，实现海量数据极速分析及查询功能。

PS：当前支持的组件及版本如下：

Apache Hadoop 2.7.3
Apache Spark 2.2.0
Apache Hive 1.2.2
Kyligence Analytics Platform 2.5.6

QingMR 功能特点

灵活的计算模式选择

QingMR 在底层提供统一的 HDFS 作为数据存储引擎，在上层提供 Spark 及与 MapReduce 两种计算引擎，并提供 YARN 作为调度系统。用户可以轻松实现三种不同的计算模式，即 Spark Standalone、Spark on YARN 和 MapReduce on YARN 三者之间的切换。

极速海量数据查询

提供 PB 级数据集上的亚秒级查询能力。

与大数据及存储组件高可扩展性

QingMR 支持指定依赖服务的功能，即通过 AppCenter 2.0 框架内原生的应用感知机制，实现与其他大数据分析组件之间自动化的无缝集成。

QingMR 与 QingStor™ 对象存储平台也进行了预置集成，用户可以通过简单的配置即可开启对 QingStor™ 对象存储的支持，以应对海量大规模数据的存储问题。

定义调度器、代理用户等多租户功能的支持

QingMR 提供了 Spark 及 YARN 的自定义调度器的功能，开放了自定义 Hadoop 代理用户功能。

完善的服务级别监控

三分钟搭建一个企业级大数据平台？你不信吗？

可视化展现整体服务的运行情况，提供监控告警、健康检查和服务自动恢复等功能。

强大的 AI 及数据科学开发环境

提供 **Python **及 R 两种语言的运行环境，支持 Python 2 和 Python 3 互相切换。预置了多个 Anaconda 发行版的数据科学包，为数据科学和机器学习 /深度学习等 AI 开发场景。

QingMR 应用场景

流式数据处理

通过 QingMR Spark 计算引擎流数据处理能力，对企业实时数据流进行计算，满足对实效性要求较高计算，适用于实时监控、报警分析分等场景。

批量数据处理

通过 QingMR Hadoop MapReduce 提供强大的批量数据处理能力，帮助企业解决海量文件的分析处理问题，可用于日志分析等场景。

极速数据查询与分析

通过 QingMR 中集成的 Kyligence Analytics Platform，减少海量数据查询延迟，满足企业 OLAP 场景中极速分析查询的需求。

机器学习

基于 Spark 内存计算模型框架，利用 Mlib 提供的机器学习算法，实现个性化推荐、流失预测、精确营销、客户细分、客户研究、市场细分、价值评估等应用场景。

QingMR，企业大数据服务最佳选择

对企业来说，只需五步，即可在 3 分钟之内部署一套 QingMR 大数据服务来满足自身的各种需求，同时还可进行统一的数据管理，无论从成本还是效率来说，QingMR 都是企业大数据服务最佳选择。

未来，还会有更多基于 HDFS 的大数据应用被纳入到 QingMR 中，为用户提供功能更为强大、使用更加便捷的大数据服务。

目前尚无回复

qingmr Spark 数据大数据