数据科学中的R与Python-yiteyi-C++库

数据科学涉及从数据源中识别、表示和提取有意义的信息，以用于执行某些业务逻辑。数据科学家使用机器学习、统计学、概率论、线性回归和逻辑回归等方法得出一些有意义的数据。根据业务逻辑找到模式和类似组合，并破解最佳可能路径，这是最大的分析工作。

null

R、 Python、SQL、SAS、Tableau、MATLAB等是最有用的数据科学工具，R和Python是最常用的工具。但是，对于任何新手来说，在R和Python这两个版本中选择更好或最合适的版本都会让他们感到困惑。让我们试着想象一下差异。

概述：

R	python
R是统计计算和图形的编程语言和自由软件环境，由统计计算R基金会支持。它由Ross Ihaka和Robert Gentler设计，于1993年8月首次发布。它被统计人员和数据挖掘人员广泛用于开发统计软件和数据分析。	Python是一种用于通用编程的解释性高级编程语言。它由Guido Van Rossum创建，并于1991年首次发布。Python有一个非常简洁的代码语法。它强调代码的可读性，因此在Python中调试也更加简单和容易。

数据科学专业：

R	python
R软件包涵盖了对统计工作非常有用的先进技术。CRAN文本视图为您提供了许多有用的R包。R软件包涵盖从心理测量学到遗传学再到金融的所有领域。另一方面，Python在SciPy等库和statsmodels等包的帮助下，只涵盖了最常见的技术。	R和Python同样适用于在数据集中查找异常值，但对于开发web服务以使其他人能够上传数据集并查找异常值，Python更好。人们已经构建了一些模块来创建网站，与各种数据库交互，并用Python管理用户。一般来说，要创建使用数据分析的工具或服务，Python是一个更好的选择。

功能：

R	python
R具有用于数据分析的内置功能。R是由著名的统计学家在考虑统计和数据分析的情况下构建的，因此许多通过包外部添加到Python中的工具默认都是在R中构建的。	Python是一种通用编程语言。因此，大多数数据分析功能不是内置的，可以通过Numpy和Pandas等包获得，这些包在PyPi（Python包索引）中提供。

关键应用领域：

R	python
数据可视化是分析的一个关键方面，因为可视化数据最容易理解。ggplot2、ggvis、lattice等R包使R中的数据可视化更容易。Python正在追赶Bokeh、Matplotlib等包，但在这方面仍远远落后。	Python更适合深度学习。像千层面、Caffe、Keras、Mxnet、OpenNN、Tensor flow等软件包允许在Python中开发更简单的深层神经网络。尽管其中一些，如tensor flow，正在被移植到R（如deepnet、H2O等包），但在Python中仍然更好。

套餐供应：

R	python
R有数百个包和方法来完成必要的数据科学任务。虽然它允许在完成任务时达到预期的完美，但它使缺乏经验的开发人员难以实现某些目标。	Python依赖于几个主要包，即：。，Scikit learn和Pandas分别是用于机器学习数据分析的软件包。它使完成所需任务变得更容易，但因此很难实现专业化。

最终，数据科学家自己的工作就是根据需要选择最合适的语言。对于统计背景而言，R可能是一个更好的选择。但对于CS背景甚至初学者来说，Python是最合适的选择。但是，最好对这两个方面都有充分的了解，因为在数据科学职业生涯中，这两个方面有时都很有用。

文章版权归作者所有，未经允许请勿转载。

THE END