大数据平台运维工程师做什么(大数据平台运维工程师做什么的)

鸟哥的私房菜 150 阅读 0 评论 5 点赞

大家好，小文接下来为朋友分享一下大数据平台运维工程师做什么和大数据平台运维工程师做什么的的内容，对此感兴趣的朋友不要走开了，我们一起来往下看。

本文目录

大数据工程师主要是做什么的
大数据工程师是做什么的
大数据运维工程师具体做什么

大数据工程师主要是做什么的

大数据工程师的主要工作是：分析历史、预测未来、优化选择。

1、分析历史，找出过去事件的特征：

大数据工程师一个很重要的工作，就是通过分析数据来找出过去事件的特征。找出过去事件的特征，最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹，就能够了解这个人，并预测他的行为。

2、预测未来，预测未来可能发生的事情：

通过引入关键因素，大数据工程师可以预测未来的消费趋势。

3、优化选择，找出最优化的结果：

根据不同企业的业务性质，大数据工程师可以通过数据分析来达到不同的目的。

在工作岗位上，大数据工程师需要基于Hadoop，Spark等构建数据分析平台，进行设计、开发分布式计算业务。负责大数据平台(Hadoop，HBase，Spark等)集群环境的搭建，性能调优和日常维护。负责数据仓库设计，数据ETL的设计、开发和性能优化。参与构建大数据平台，依托大数据技术建设用户画像。

扩展资料：

大数据工程师可以从事对大量数据的采集、清洗、分析、治理、挖掘，并对这些数据加以利用、管理、维护和服务的相关技术工作。

大数据工程师专业技术水平等级培训考试分初级、中级、高级三个级别。

大数据工程师培养人群：有志于从事大数据采集、清洗、分析、治理、挖掘等技术研究，并加以利用、管理、维护和服务的工程技术人员。

大数据工程师初、中、高三个级别考试均设《大数据理论基础》、《大数据技能实操》两个科目。

参考资料：百度百科-大数据工程师

大数据工程师是做什么的

总结一句话就是写SQL（很多入职一两年的大数据工程师主要的工作就是写SQL）

还有其他的

2为集群搭大数据环境（一般公司招大数据工程师环境都已经搭好了，公司内部会有现成的大数据平台，但我这边会私下搞一套测试环境，毕竟公司内部的大数据系统权限限制很多，严重影响开发效率）

3维护大数据平台（这个应该是每个大数据工程师都做过的工作，或多或少会承担“运维”的工作）

4数据迁移（有部分公司需要把数据从传统的数据库Oracle、MySQL等数据迁移到大数据集群中，这个是比较繁琐的工作，吃力不讨好）

5应用迁移（有部分公司需要把应用从传统的数据库Oracle、MySQL等数据库的存储过程程序或者SQL脚本迁移到大数据平台上，这个过程也是非常繁琐的工作，无聊，高度重复且麻烦，吃力不讨好）

6数据采集（采集日志数据、文件数据、接口数据，这个涉及到各种格式的转换，一般用得比较多的是Flume和Logstash）

7数据处理

7.1离线数据处理（这个一般就是写写SQL然后扔到Hive中跑，其实和第一点有点重复了）

7.2实时数据处理（这个涉及到消息队列，Kafka，Spark，Flink这些，组件，一般就是Flume采集到数据发给Kafka然后Spark消费Kafka的数据进行处理）

8数据可视化（这个我司是用SpringBoot连接后台数据与前端，前端用自己魔改的echarts）

9大数据平台开发（偏Java方向的，大概就是把开源的组件整合起来整成一个可用的大数据平台这样，常见的是各种难用的PaaS平台）

10数据中台开发（中台需要支持接入各种数据源，把各种数据源清洗转换为可用的数据，然后再基于原始数据搭建起宽表层，一般为了节省开发成本和服务器资源，都是基于宽表层查询出业务数据）

11搭建数据仓库（这里的数据仓库的搭建不是指Hive，Hive是搭建数仓的工具，数仓搭建一般会分为三层ODS、DW、DM层，其中DW是最重要的，它又可以分为DWD,DWM,DWS，这个层级只是逻辑上的概念，类似于把表名按照层级区分开来的操作，分层的目的是防止开发数据应用的时候直接访问底层数据，可以减少资源，注意，减少资源开销是减少内存和CPU的开销，分层后磁盘占用会大大增加，磁盘不值钱所以没什么关系，分层可以使数据表的逻辑更加清晰，方便进一步的开发操作，如果分层没有做好会导致逻辑混乱，新来的员工难以接手业务，提高公司的运营成本，还有这个建数仓也分为建离线和实时的）

总之就是离不开写SQL...