R是由Ross Ihaka和Robert Gentleman在1993年开发的一种编程语言,R拥有广泛的统计和图形方法目录。它包括机器学习算法、线性回归、时间序列、统计推理等。大多数R库都是用R编写的,但是对于繁重的计算任务,最好使用C、c++和Fortran代码。
R不仅在学术界很受欢迎,很多大公司也使用R编程语言,包括Uber、谷歌、Airbnb、Facebook等。用R进行数据分析需要一系列步骤:编程、转换、发现、建模和交流结果
R是用来干什么的?
统计推断
数据分析
机器学习算法
为什么使用R ?
数据科学正在塑造企业运营的方式,毫无疑问,远离人工智能和机器将导致公司的失败,最大的问题是应该使用哪种工具/语言?
市场上有很多工具可以用来进行数据分析,学习一门新语言需要一些时间。下图描述了与一种语言提供的业务能力相比的学习曲线,这种消极的关系意味着没有免费的午餐。如果你想从数据中获得最好的见解,那么你需要花一些时间学习合适的工具,也就是R。
在图的左上角,您可以看到Excel和PowerBI。这两个工具学习起来很简单,但是没有提供出色的业务功能,特别是在建模方面。在中间,您可以看到Python和SAS。
情景应用程序是一个专门用于运行业务统计分析的工具,但它不是免费的。SAS是一个点击并运行的软件,然而,Python是一种学习曲线单调的语言。Python是部署机器学习和人工智能的理想工具,但缺乏通信功能。由于具有相同的学习曲线,R是实现和数据分析之间的一个很好的权衡。
说到数据可视化(DataViz),您可能听说过Tableau。Tableau无疑是通过图形和图表发现模式的好工具,另外,学习Tableau也不是很耗时。数据可视化的一个大问题是,您可能永远找不到一个模式,或者只是创建大量无用的图表。Tableau是快速可视化数据或商业智能的好工具,当涉及到统计和决策工具时,R更合适。
Stack Overflow是一个很大的编程语言社区,如果您有编码问题或需要了解模型,Stack Overflow可以提供帮助。一年来,与其他语言相比,R语言的提问率大幅上升。这种趋势当然与数据科学蓬勃发展的时代高度相关,但也反映了R语言对数据科学的需求。
在数据科学中,有两种工具相互竞争,R和Python可能是定义数据科学的编程语言。
简而言之,R是探索和研究数据的好工具。使用R进行复杂的分析,例如聚类,相关性和数据缩减。这是最关键的部分,如果没有良好的特征工程和模型,则机器学习的部署将不会产生有意义的结果。