【数据分析|面试】如何介绍你的项目经历
86 2025-05-02
作为一名工作两年的产品新人,想学一些数据分析的知识,推荐的书多又杂,并且没有一个阅读顺序,实在不知道该怎么办才好。 整理了各大网站关于学习数据分析的文章,希望把这篇文章分享给处于和我一样想学数据分析不知该从何入门的小伙伴们一起学习。也希望可以收到别人对我这种小公司产品新人的建议或处于相同阶段的小伙伴们的交流。
因工作原因要学习一些数据的知识,从人人都是产品经理网站上并没有找到一篇从入门到进阶成体系的文章,且查找的分享都是数据体系中一个分支的分支,整体看起来烟雾缭绕,经一位前辈点播还是先从书籍中建立整体的认知再看这些碎片化的知识,才能更有体会(手动@前辈谭小超,私聊的感受就是超级平易近人,受我一拜orz),故有了这篇内容。
文章内容整理至知乎,感谢两位大佬的分享,其中@知乎用户 张溪梦 Simon、(其中大部分内容源自Simon,部分属于已标注)
入门
适合数据分析的入门者,对数据分析没有整体概念的人,如应届毕业生,经验尚浅的转行者。
《深入浅出数据分析》
类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。——Simon
把这本书放在第一顺序,是因为它真的很简单,但是能够让你对数据分析的一些基本概念有大致的了解。即便是你毫无数据分析经验,一两天也足够读完整本书了。这本书的实操性并不强,所以也不建议你去跟着实践,了解作者传达出来的数据分析基本思想和原则就OK了,这对你建立宏观的视野,和接下来的学习很有帮助。
另外,书中提到的一些案例,比如提升化妆品销量、分析星巴克销量、生产线最优解、网站、竞品分析、薪资预测等等,看起来很简单,但其实都是工作最常见的一些分析场景。这对数据思维的养成,非常有帮助。
个人觉得书中最有用的一些点如下。
统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等。
集中数据分析的基本方法:假设检验、回归分析、误差分析等。
统计图形分析:散点图、直方图等来探索数据中隐藏的规律。
数据库以及数据整理。
这本书很难让你掌握数据分析技术,过一遍即可。
《谁说菜鸟不会数据分析》
不仅讲解了一些常见的分析技巧,并附带excel的一些知识及数据分析在公司中所处的位置,对职场了解亦有一定帮助。
《赤裸裸的统计学》
作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。
《统计数字会撒谎》
知名度高,但是还没看过…
进阶
具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。
《深入浅出统计学》
类书籍,可以帮助你快速了解统计方面的知识。——Simon
非常非常基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,但是对于数据分析来说,需要用到的恰好是这些最简单的东西。比如基本的统计量,基本上每个分析项目中都会用到。比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。
所以强烈推荐这本,其他的比较深度的书,并不建议在入门的阶段去啃,一方面是很多难以理解,二是即便你花大力气学习了,入门的阶段你也不怎么能在实践中使用。当然多学一些是没有坏处的,但你需要知道在什么时候学习哪些东西性价比最高。或者你自我感觉良好,誓要学最难的,从入门到放弃,得不偿失。
总结起来,需要重点了解的统计学知识如下。
基本的统计量:均值、中位数、众数、方差、标准差、百分位数等。
概率分布:几何分布、二项分布、泊松分布、正态分布等。
总体和样本:了解基本概念、抽样的概念。
这本书非常的简单,但是基本的数据分析的一些方法都有了,你需要做的,是利用之前学过的 的一些库(、Numpy、)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。——
《MySQL必知必会》
这本也是我当年学习SQL的入门书,薄册子一本,看起来很快。SQL是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师同学,都建议点亮这个技能点。——Simon
这本书把SQL写得非常简单,没办法,SQL确实也很简单。其实 就已可以实现很多数据管理的工作,而了解SQL 的意义在于融入到实际的数据使用的场景。比如企业的数据,多是以数据库的形式存储起来的,那么如果你要去调用你想要的那部分数据,SQL就是必须的技能。如果你在最开始就想用公司的数据来练习,那么你可以把这本书的阅读放到最前面。(当然,如果你不会遇到数据提取的问题,SQL这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要用到SQL的时候再学习。)
MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。
书中重点掌握以下几个点。
语句:让你能够去提取你需要的那部分数据。
和:知道怎么实现数据的增、删、改。
数据过滤:where、and、or、通配符等过滤方式。
数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据。
子查询:查询中的查询。
当然还是希望你去公司的数据库找一些数据进行练习,如果不方便的话,也可以直接用上述UCI数据集中的数据进行实践。
如果遇到问题,可以去菜鸟教程查询相关操作。
好了,恭喜,你已经基本入门了。到此,你就完全可以去进行一个完整的数据分析项目了,如果你没有头绪,可以去找一些行业的分析报告来看看,找一找分析的思路。能够独立完成一些项目,通过数据分析能够得出一些深刻的结论,能够给人以可视化的形式将结果描述出来,能够基于历史数据对未来的一些情况进行预测,那么一般的数据分析岗位,完全可以胜任了。
《互联网增长的第一本数据分析手册》
出的一本数据分析的增长手册,为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等。可在技术论坛中免费下载。
《利用进行数据分析》
这应该是最经典的数据分析书之一了,作者是 库的作者 。所以这本书对于 的理解,应该是非常深刻的,而经过梳理介绍的、numpy、 等库,应对一般的数据分析,完全足够了。
书中应该重点掌握的一些点。
的使用:最适合小白的代码编写环境,非常容易上手。
科学计算库 Numpy:数组和矢量计算、学会利用数组进行数据处理。
数据处理及分析工具 :数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化。
可视化工具 :用这个库,基本的数据可视化问题皆可以解决了。
看上去是不是很简单,这本书就是教会你如何开始使用 进行数据分析,当然首推的就是 ,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库一定是你开始入门的时候需要重点学习的,其次用Numpy 进行数组的计算、利用 进行可视化的描述性分析,也是同步需要掌握的东西。
但是,这个部分光看书是远远不够的,你可以尽量去找一些可以练手的数据集,来实际操作和调用这些库的功能,确保熟练数据分析中最常用的函数和模块。如果纠结去哪找练手的数据,推荐UCI经典数据集。
关于、Numpy、 网上应该可以搜索到很多有用的资料、教程,可以看一看别人的使用技巧、应用场景,并通过练习转化成自己的经验。
因为 库的更新迭代非常快,这本书里的一些内容其实已经“过时”了,这里也非常建议你去查看一些官方的文档,基本上你需要的都能查到。
另外,在进行一些数据处理、数据分析的时候,你可能需要去了解一些更细节化的 用法,这里就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。
高阶
更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了。
《精益数据分析》
此书优势在于将企业分成了几个大的行业类别,并分门别类地讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。——Simon
书中主要讲到各种产品中用到的指标和模型,这是一本写给产品经理的书,其中并没有具体的数据分析技术,涉及的更多是数据驱动型产品的一些思路。
比如怎么将数据驱动的产品落地,怎么为产品设计数据指标,哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动用户增长等。——
《数据之美》
本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及数据的一些最有趣的项目。
《决战大数据》
阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。
《The Wall Guide to 》
华尔街日报负责商业分析的人做的可视化指南,精华且实用。
《数据科学实战》
这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,通过数据分析的思维,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着通过不同的应用场景分别介绍了最常见的机器学习算法,以及在真实场景的应用。
对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑过渡到机器学习和数据挖掘,这本书我认为是这方面做得最好的一本。
所以如果你在做一些探索性的分析遇到瓶颈之后,自然而然会进入数据挖掘和机器学习算法的坑,因为只有更高级的算法和模型,才能够支撑大规模的数据的预测。
下面列出一些书中有意思也比较有用的点:了解探索性数据分析,为更高级的需求打好基础; 了解机器学习的基本算法、k近邻、k均值等; 用朴素贝叶斯方法做垃圾邮件的过滤; 线性回归和逻辑回归的分析方法; 如何从数据中获取结论,从数据挖掘竞赛开始; 构建自己的推荐系统; 数据泄漏与模型评价,如何筛选模型。