大家好,小文接下来为朋友分享一下大数据平台运维工程师做什么和大数据平台运维工程师做什么的的内容,对此感兴趣的朋友不要走开了,我们一起来往下看。

本文目录

  1. 大数据工程师主要是做什么的
  2. 大数据工程师是做什么的
  3. 大数据运维工程师具体做什么

大数据工程师主要是做什么的

大数据工程师的主要工作是:分析历史、预测未来、优化选择。

1、分析历史,找出过去事件的特征:

大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。找出过去事件的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。

2、预测未来,预测未来可能发生的事情:

通过引入关键因素,大数据工程师可以预测未来的消费趋势。

3、优化选择,找出最优化的结果:

根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。

在工作岗位上,大数据工程师需要基于Hadoop,Spark等构建数据分析平台,进行设计、开发分布式计算业务。负责大数据平台(Hadoop,HBase,Spark等)集群环境的搭建,性能调优和日常维护。负责数据仓库设计,数据ETL的设计、开发和性能优化。参与构建大数据平台,依托大数据技术建设用户画像。

扩展资料:

大数据工程师可以从事对大量数据的采集、清洗、分析、治理、挖掘,并对这些数据加以利用、管理、维护和服务的相关技术工作。

大数据工程师专业技术水平等级培训考试分初级、中级、高级三个级别。

大数据工程师培养人群:有志于从事大数据采集、清洗、分析、治理、挖掘等技术研究,并加以利用、管理、维护和服务的工程技术人员。

大数据工程师初、中、高三个级别考试均设《大数据理论基础》、《大数据技能实操》两个科目。

参考资料:百度百科-大数据工程师

大数据工程师是做什么的

总结一句话就是写SQL(很多入职一两年的大数据工程师主要的工作就是写SQL)

还有其他的

2为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)

3维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)

4数据迁移(有部分公司需要把数据从传统的数据库Oracle、MySQL等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)

5应用迁移(有部分公司需要把应用从传统的数据库Oracle、MySQL等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)

6数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是Flume和Logstash)

7数据处理

7.1离线数据处理(这个一般就是写写SQL然后扔到Hive中跑,其实和第一点有点重复了)

7.2实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink这些,组件,一般就是Flume采集到数据发给Kafka然后Spark消费Kafka的数据进行处理)

8数据可视化(这个我司是用SpringBoot连接后台数据与前端,前端用自己魔改的echarts)

9大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的PaaS平台)

10数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)

11搭建数据仓库(这里的数据仓库的搭建不是指Hive,Hive是搭建数仓的工具,数仓搭建一般会分为三层ODS、DW、DM层,其中DW是最重要的,它又可以分为DWD,DWM,DWS,这个层级只是逻辑上的概念,类似于把表名按照层级区分开来的操作,分层的目的是防止开发数据应用的时候直接访问底层数据,可以减少资源,注意,减少资源开销是减少内存和CPU的开销,分层后磁盘占用会大大增加,磁盘不值钱所以没什么关系,分层可以使数据表的逻辑更加清晰,方便进一步的开发操作,如果分层没有做好会导致逻辑混乱,新来的员工难以接手业务,提高公司的运营成本,还有这个建数仓也分为建离线和实时的)

总之就是离不开写SQL...

大数据运维工程师具体做什么

事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。

问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。

问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。

问题跟踪:通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具。

变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作。

配置管理:通过配置管理平台(自研、开源)管理服务涉及到的多个模块、多个版本的关系以及配置的准确性。

发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。

容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化之。

容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。

容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案。比如通过调整系统参数、优化服务部署架构等方法来高效的提升系统容量。

架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整。以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。

好了,本文到此结束,如果可以帮助到大家,还望关注本站哦!

点赞(5)

猜你喜欢

相关推荐

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部