大拇指知识分享!欢迎光临!
我们一直在努力!

什么是数据分析的关键(大数据处理四个步骤)

我们曾提到过,数据分析有一套标准的工作流程,不是仅仅提数这么简单,更重要的是分析和建议

很多人在做数据分析的时候,不知道怎么去开展,或者怀疑自己做出的分析报告是否合理、是否全面,这是因为你对这一套标准化流程没有真正的理解。

6dbeae1b09a54f59ba008f5d21041596noop.image_

如何通过科学的流程,来得出有价值的分析和建议?今天我们就来讲一下。

数据分析整体流程

来看一下标准化流程的九个步骤:

明确问题——先把问题定义清楚,因为很多人还没理清问题就直接去看数据了;

搭建框架——定义问题之后再把问题考虑全面、找到一条分析主线;

数据提取——用 MySQL、Hive 等工具提取相关数据;

数据处理——用 Excel、R、Python 处理数据;

数据分析——以数据分析方法论为主来分析数据;

数据展现——用 Tableau、Excel、R、Python 工具把你的数据展现出来;

撰写报告——考验你的文笔功底以及整体逻辑性;

报告演讲——考验你沟通能力,表达能力,被提问能力。所有的报告撰写完成之后不要直接去讲,还是要和业务方进行大量的沟通,如果不提前做好沟通,你在会议或公众场合上讲时很容易被别人挑战;

报告闭环——这是最难也是最大价值的地方。

这里面的数据提取、数据处理、数据展现是数据分析师前期的基本功,以工具为主,都是比较容易学到的,也比较容易完成。而明确问题、搭建框架、撰写报告、报告演讲、报告闭环更多是考验分析师的综合能力以及智商、情商,所以这块往往需要很多时间去沉淀。

基于数据分析这一套标准化流程,其中涉及一些行业常用的工具,这些工具都能做什么?如何匹配不同的场景去使用?下面我简单讲一下。

数据分析常用工具

ebba05f9f2a74ce89d4b588b18fd5682noop.image_

1、MySQL、Hive:

基本上所有的数据获取方式都是通过 MySQL、Hive 这两种语言来实现,同时你要学习一些 Linux 命令,因为在排查数据异常时会用到。你需要对这两门工具超级熟练,因为数据提取环节是不能出错的,这一步有问题,后面就都有问题。

2、Excel:

Excel 是最高频的数据处理工具。工作中你经常遇到的一种情况,你的 leader 直接让你现场画个图,这时你最有可能用 Excel 而不是 R、Python。

3、R:

R 是一门统计型语言,专门为数据分析而生,简单易学,但缺点是计算能力确实比较差,你导入两个 GB 数据就有可能导致死机。

4、Python:

一门脚本型语言,可扩展性极强,算法必备,但是计算能力确实比较差,你导入两个 GB 数据就有可能导致死机。

Python 和 R 的区别

作为数据分析中最常用的两种编程语言,一直有同学好奇 Python 和 R 有何异同。

da5d2d3832b9486d9c54df6ce3a87d0dnoop.image_

Python 和 R 相比, R 的机器学习算法语言 Python 都能很快实现,而对于下面所说的几种情况,R 稍微来说就有一点难度了。

爬虫:爬虫在工作中价值很大,比如爬取一些竞品的数据,用 R 不方便。

比如资讯类 App 的很多文章是通过爬虫下发给大家,像今日头条的一些文章。

文本挖掘:对评论数据研究价值很大,比如对 App 评论数据的分析,从而知道如何去做评论运营闭环。

京东网易 App 的评论运营,其他 App 的热点评论置前。

UDF 函数:Hive 自定义函数有时并不能满足需求,此时就需要自己定义函数来实现需求,这时就可以用 Python 写个 UDF。

如计算机尼系数,在 Hive 中直接调用 UDF 能够很快输出。

对于算法研发同学:个性化推荐、底层运维、Web 开发都是通过 Python 来实现。

总而言之,Python 是非常强大的第三方库。

993f7f486ed04dd3b43e873985c511d0noop.image_

不管什么样的工具,都是为实现目标所用的“术”,但若想完整的跑通业务,还需要数据思维、业务拆解、方法论这种“道”,希望同学们都能既掌握“术”,更掌握“道”,成长为优秀的数据分析人才!

赞(0)
未经允许不得转载:大拇指知识 » 什么是数据分析的关键(大数据处理四个步骤)
分享到: 更多 (0)

评论 抢沙发

1 + 2 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

大拇指知识!

联系我们联系我们