网站首页 > 技术文章 正文
想成为大数据人才,究竟应该具备哪些技能?这篇文章里,作者从数据分析流程、职业技能等维度做了相应的分享,不妨一起来看看吧。
我是西索,最近这段时间,和几个大厂的TL 做分析「价值」方面的探讨,在大数据时代要怎么才能发挥更高的数据价值,刚好涉及到这部分的讨论,把讨论结果做个分享,供同行参考。
这几年听到最多的一个声音,我们要开始“卷”价值了。那么“你的价值体现是什么?”、“当前还有多少价值可以做”、“接下来我们要创造什么价值”…
一、认识数据分析流程
对于刚入行的同学来说,需要了解大数据分析过程中涉及到的流程和环节,再结合大数据的要素进行能力拆解。
二、认识大数据,不得不了解的4V特性
数据分析和大数据分析,原始数据量大小不同,导致处理方式的不同。
大数据分析,主要是利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。在做大规模数据处理的时候,天然存在很多技术壁垒,必须要用专业的软件才能解决,还需要兼顾运算时效、计算性能、运行成本、数据加工技巧等等。
1. 认识大数据架构能力
以下是一个比较典型的大数据架构:
了解大数据平台的底层构成,增加对工具的认知,了解不同产品之间的共性和差异性,在真实建设场景中才能做好针对性的方案设计。
大数据平台、关系型数据库vs非结构式数据库、实时数据vs离线数据、数据调度工具。
2. 认识大数据指标体系
因为大数据的体量很大,为了快速拿到想要的数据结果,就不得不提「数据指标体系」。指标体系的搭建分为两大步骤:设计指标体系和落地指标体系。
3. 认识大数据指标体系
关于大数据工具的介绍,可以参考这篇文章:大数据常用工具集合。
三、做好大数据需要储备的职业技能
我们把职业技能划分为显性和隐性两个方面,从大数据各种岗位的job model中可以抽象成为集中能力,见下图:
1. 必知的管理方法论
在职场中我们会接触到很多「管理」内容,向上管理、向下管理、项目管理、团队管理、需求管理等,提升自己的管理软实力,加强管理方法的意识塑造,是拉开职场核心竞争力的关键所在。
2. 常用的统计学知识
分析过程可能是做一些探索性数据分析、统计分析、机器学习建模,甚至是做AB测试实验,最终交付分析报告。数据分析离不开统计学、运筹学,以下罗列了日常过程中经常用到的统计方法。
3. 重要的商分类知识
“无场景不分析”、“脱离业务场景的分析都是耍流氓”等资深数据分析师的建议无不说明业务场景的重要性,数据分析在不同场景下,也有不同的“分析”招式来满足不同的业务需求,熟悉下面的商业分析模型有助于建立业务信赖。
4. 掌握的算法类模型
有监督模型,对于企业销售的预测、还是对用户行为的预测,都能帮助提升业务效率。比如常见的预测用户流失分析,及时得到高概率流失的人群名单,运营通过提前营销干预,提高用户留存率。
无监督模型,可以应对未知模式的分析。譬如,不知道应该把现有人群分成多少个组来进行营销最合适,就可以对人群基于核心特征做无监督的聚类分析,得出有效分组的界限。
5. 机器学习和深度学习算法
几个基础概念:
- 数据集合:训练集、测试集、验证集;
- 数据检查:描述性统计(最大、最小、中位数、众数、四分位)、缺省值填充、卡方分布;
- 数据校验:共轭线性、相关系数(Pearson Correlation Coefficient);
- 特征工程:什么是特征工程、特征工程构建、特征工程权重查看、特征选择(filter/Wrapper/Embedded)
- 归一化:虚拟变量,labelEncoder/OneHotEncoder/get_dummies;此外可以参考核函数构建方法,通过log、ln、e的方式构建,缩小极大值之间的数据离散度;
- 数据标准化:z-score、max-min scaling;
- 算法校验:卡方校验、5-fold、
机器学习:
知识重点:距离、信息熵、梯度、L1/L2、鲁棒性(稳定性)。
L1-曼哈顿(绝对值相加,不唯一解)、L2-欧氏距离(欧几里得距离之和,平方和,唯一解)。
无监督学习:
聚类(cluster):k-means、cart(核心是距离-欧式/马氏/曼哈顿/切比雪夫,高斯密度/正态分布)。
半监督学习:
监督学习:
回归(logistic):线性回归、LR(ridge/lasso,L1/L2)、预测(Arima、prephet);
分类(classification):KNN、Decsion Tree、XGBoost、Random Forest、GBDT、SVM、Bayes。
深度学习
知识重点:损失函数、核函数。
用途:文字识别、图片识别、语音识别、视频处理。
文本挖掘:
NLP:tf-idf、LDA、CBOW、word bag
目标检测:
神经网络:BP(CNN)、RNN、LSTM。
6. 数据可视化的能力
图表是数据可视化的常用表现形式,是对数据的二次加工,可以帮助我们理解数据、洞悉数据背后的真相,让我们更好地适应这个数据驱动的世界。
四、擅长的·爱好的·世界需要的
在布赖恩·费瑟斯通豪《远见:如何规划职业生涯3大阶段》一书中提到,你要不断问自己这三个问题:我擅长什么?我爱好什么?这个世界需要什么?三者交集的部分,找到自己的目标,当前应该做哪些方面的刻意练习,强化优势,用长板补短板。
工作规划,是结合公司整体方向而开展的规划过程;个人规划,是结合个人职业发展而开展的规划过程;彼此之间的交集在于,如何通过规划把两个方面进行融合!
而个人职业成长旅程中有三个定位:岗位定位,管理定位,行业定位。
- 28岁前,用岗位专业定位自己,你干啥最专业?
- 32岁之前,用管理角色定位自己,你做项目、带团队、搞运营的能力怎么样?
- 38岁之前,用行业品类定位自己,你在哪一个行业领域做到了顶尖?
本文由 @郑小柒是西索啊 原创发布于人人都是产品经理。未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
猜你喜欢
- 2024-10-12 数据预处理-分类变量数据编码 分类变量数据分析
- 2024-10-12 程序员深夜用Python跑神经网络,只为用中二动作关掉台灯
- 2024-10-12 Pandas第十三课:特征工程与数据预处理
- 2024-10-12 CVPR2019 | 面对高度不均衡数据如何提高精度?这篇文章有妙招
- 2024-10-12 数据特征常用构建方法详解及实例 数据特征包括哪些?
- 2024-10-12 “千克”和“毫升”:单位不同就不能做朋友了吗?
- 2024-10-12 a和one的区别 a与one区别
- 2024-10-12 手把手教你做客户挽留模型【纯技术】
- 2024-10-12 机器学习中的独热编码,你知道多少?
- 2024-10-12 One Hot Encoder 在机器学习分类模型中的重要性
你 发表评论:
欢迎- 最近发表
-
- 在 Spring Boot 项目中使用 activiti
- 开箱即用-activiti流程引擎(active 流程引擎)
- 在springBoot项目中整合使用activiti
- activiti中的网关是干什么的?(activiti包含网关)
- SpringBoot集成工作流Activiti(完整源码和配套文档)
- Activiti工作流介绍及使用(activiti工作流会签)
- SpringBoot集成工作流Activiti(实际项目演示)
- activiti工作流引擎(activiti工作流引擎怎么用)
- 工作流Activiti初体验及在数据库中生成的表
- Activiti工作流浅析(activiti6.0工作流引擎深度解析)
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)