R语言数据科学项目——基于行业应用实践
##背景
最初是学习cousera上JH大学的数据科学项目而建立的课程笔记,因为它的框架结构很好。
我从2012年底,为了文本挖掘的一些工作开始用R,后来换了几个公司一直在使用R做分析展示和模型,尤其2015年完成了一次鹅厂内部的系列课程,对整个框架的认识逐渐清晰起来,所以重整了框架和自己使用感悟。
目标1:总结用;目标2:布教用;目标3:更大的一盘棋怎么下还没想好:D
##目录(暂时不动,框架想好了再更新)
- The Data Scientist’s Toolbox:包括R语言,github,markdown语言的内容
- R Programming:R语言的基础
- Getting and Cleaning Data:数据获取包括各种数据接口的使用,清洗则是花时间最多的工作
- Exploratory Data Analysis:探索性数据分析,主要是可视化以及一些多维探索方法
- Reproducible Research: 可重复性研究,把“分析”升级为“产品”的关键步骤
- Statistical Inference: 统计推断,暂时不开始
- Regression Models: 太基础的内容放到下一部分
- Practical Machine Learning: 主要的分类和预测算法
- Developing Data Products:数据产品开发,学习中
- Web crawler and NLP: 轻量级爬虫和轻量级自然语言处理
- Time series analysisT:主要适用于KPI预测的决策参考
- 还有啥。。。
##关于R
比java,c效率低下的分析用语言,不适合工程应用,也不能独立应付“大数据”(单机百万行的分析建模差不多了);
它的学习成本高于点选拖拽式的分析软件(SPSS,excel),想要产出一样效果的报告,要付出更多的时间精力;
但是,数据分析师确实可以基于R和各种接口包,搭建一个不错的分析环境:
它的优势在于分析相关的核心代码非常简单,比如统计、比如建模,一行搞掂;
它的健壮在于一个优秀的开源社区,统一的版本和package管理比Python清晰不知道多少;
它的方便在于优秀的IDE——Rstudio,集代码、数据、帮助、可视化于一身,非常适合分析师工作;
它同linux、hadoop一样是开源世界的产物,属于热爱自由和分享的码农以及伪码农们!
你不必费尽心思去破解、去求密码,而可以正大光明的使用它,不用担心谁来追究商业问题,
而且,你写的每一行代码,每一个应用,都在为社区做出贡献,这是多么美好的事情╮( ̄▽ ̄")╭
##关于作者 data葱http://weibo.com/u/1796401915
2015-4-16 Angrew Ng 大神的ML课程也是很赞的哈!想学ML的小白推荐哈!
2016-4-11 最近即将启动一次重大更新!整合我在鹅厂内部课程和这一年的相关积累
2016-6-29 时间序列分析的基础内容添加完了,开始整理可视化部分