数据科学家的最佳数据科学工具

已发表: 2020-02-28

有说服力的人需要统一统计、分析数据、通过机器学习及其相关方法，以用数据理解和分析实际现象，从而导致了数据科学的诞生。

数据科学是一个综合领域，它利用科学方法、过程、算法和系统从结构化和非结构化数据中提取知识和洞察力。它利用了数学、统计学、计算机科学和信息科学背景下许多领域的技术和理论。

2015 年，美国统计协会将分布式和并行系统、统计、机器学习和数据库管理确定为数据科学的三个基础和专业社区。没有工具，数据科学根本无法发挥作用。

那么，我们今天拥有哪些数据科学工具？

下面列出了一些数据科学的最佳工具。

大机器学习
这是我最喜欢的数据科学工具之一，我个人使用它来简单地为我制作机器学习。这个全球性工具设计用于在云端或本地运行，用于在组织中实施机器学习，从而轻松解决和自动化分类和聚类分析。
散景
该工具旨在构建用于演示的现代 Web 浏览器。它还可以帮助用户轻松创建仪表板、交互式图表和数据应用程序。最好的部分是它是完全免费的。
Clojure
Clojure 旨在将高效的基础架构与用于多线程编程的脚本语言的交互式开发相结合。这个工具是独一无二的，因为它是一种编译语言，在运行时支持的每个特性都保持动态。
Excel
这个微软办公包是一个非常熟悉的工具，科学家们依靠它来快速排序、过滤和处理他们的数据。它几乎存在于您遇到的每台计算机设备上，因此来自世界各地的数据科学家可以轻松地开始工作。
预测这里
预测这是数据科学家掌握的一个巨大工具，可以使预测模型选择自动化。该工具背后的公司不断努力使深度学习与金融和经济相关，使定量分析师、投资经理和数据科学家能够利用他们自己的数据来生成稳健的预测和优化复杂的未来目标。
爪哇
爪哇，哦，爪哇！旧但黄金。该工具是一种具有非常广泛的用户群的语言。它帮助数据科学家创建涉及分布式系统、机器学习和数据分析的产品和框架。

Java 非常方便人们使用。这使它与其他出色的数据科学工具（如 R 和 Python）进行了比较。
木星
顾名思义，木星被称为木星，其设计目的是在世界各地发挥作用。它为多语言交互式计算环境做了准备。
它有一个笔记本，它是一个开源 Web 应用程序，允许数据科学家创建和共享包含实时代码、可视化、方程式和解释性测试的文档。
逻辑胶
Logical Glue 是一款屡获殊荣的工具，使用户能够在人工智能平台上学习机器语言。如果不是因为其通过将您的见解变为目标受众的过程来提高组织的生产力和利润的关键优势，它就不可能获得奖项。
MySQL
MySQL 是一个非常流行的开源数据库。有些人不知道的是，它也是数据科学家用来从他们的数据库中访问数据的好工具。它已与 Java 一起使用以提高效率。

它可以以非常有条理的方式存储和构造您的数据，让您完全没有麻烦。它支持生产系统的数据存储需求。它还启用了在设计数据库后查询数据的功能。
叙事科学
叙事科学是数据科学家的绝佳工具，它通过高级叙事语言生成 (NLG) 生成的智能和自动化叙事帮助组织最大限度地发挥数据的影响。
该工具能够将您的数据转化为可操作且强大的资产，从而做出更有效的决策，从而使组织中的工作人员了解数据并根据数据采取行动。
数字货币
NumPy 是一个非常适合科学用途的工具，因为它包含一个强大的 N 维数组对象和复杂的广播功能，而且它是完全免费的。它是一个基本包，只有与 Python 一起使用才能发挥其全部潜力。它也是通用数据的多维容器。
OpenRefine
曾经是 Google Refine，Open Refine 现在是一个开源项目，任何人都愿意支持和资助。顾名思义，它是一个非常强大的工具，被数据科学家用来在将数据链接到数据库之前通过 Web 服务清理、转换和扩展数据。

它还被设计为能够协调和匹配数据，将数据集与一系列 Web 服务链接和扩展，并将清理后的数据上传到中央数据库。
熊猫
Pandas 是一个伟大的数据科学工具，配备了一个开源库，旨在为 python 编程语言提供高性能、易于使用的数据结构和数据分析工具。
它灵活、快速且具有表现力的数据结构，使处理关系和标记数据变得简单直观。它有一个数据分析和操作工具，支持多种语言。还有什么？这是免费的。
快速矿工
据统计，当数据科学家使用 RapidMiner 时，他们的工作效率更高，因为它是一个用于机器学习、数据准备和模型部署的统一平台。它可以使用 RapidMiner Radoop 在 Hadoop 中直接运行数据科学工作流。
雷迪斯
该数据科学工具是数据科学家用作缓存、数据库和消息代理的数据结构服务器。它是一个开源的内存数据结构存储，支持散列、字符串和列表等。

（下载白皮书：大规模数据科学）

级联
这个数据科学工具是一个应用程序开发平台，适用于在 Apache Hadoop 上构建大数据应用程序的数据科学家。它具有独特的计算引擎、系统集成框架、数据处理和调度能力，使用户能够解决简单和复杂的数据问题。它在 MapReduce、Apache Tea 和 Apache Flink 上运行并可移植。
数据机器人
该工具是一个先进的机器学习自动化平台，DataRobot 使数据科学家能够更快地构建更好的预测模型。使用 DataRobot 时，可以轻松跟上不断扩展的机器学习算法生态系统。
DataRobot 不断扩展，并拥有来自领先来源的大量多样化、一流的算法。您可以通过一行代码或单击一下来测试、训练和比较数百种不同的模型。

此外，它会自动识别每种建模技术的顶级预处理和特征工程。它甚至使用数百甚至数千台服务器以及每个服务器中的多个内核来并行化数据探索、模型构建和超参数调整。
阿帕奇风暴
它是用于处理分布式和容错实时计算的数据科学家的工具。它处理流处理、连续计算、分布式 RPC 等。
它是一个免费的开源工具，可以可靠地处理无限数据流以进行实时处理。它可以与任何编程语言一起使用，甚至可以用于实时分析、在线机器学习、连续计算、分布式 RPC、ETL 等案例。
由于它与您现有的队列和数据库技术集成，因此它能够处理每种模式每秒处理的超过一百万个元组。
伊菲顿
交互式 Python 工具是一个不断发展的项目，它具有扩展的与语言无关的组件以及用于交互式计算的丰富架构。它是面向数据科学家的开源工具，支持 Python 2.7 和 3.3 或更高版本。

它是 Jupyter 的内核，支持交互式数据可视化和 GUI 工具包的使用。它可以将灵活、可嵌入的解释器加载到您自己的项目中，并具有易于使用的高性能并行计算工具。
KNIME 分析平台。
KNIME 是一个开放平台工具，用于自由导航复杂数据。 KNIME 分析平台是数据驱动创新的开放式解决方案，可帮助数据科学家发现数据的隐藏潜力、挖掘洞察力和预测未来。
它可以快速部署并轻松扩展 1,000 多个模块。有数百个可立即运行的示例以及全面的集成工具。它还提供最广泛的可用高级算法选择。
工作室
这是面向数据科学家的开源工具和企业级工具。这款高度专业的 R 社区软件使 R 更易于使用，因为它包括代码编辑器、调试和可视化工具、R 的集成开发环境 (IDE)、包括控制台、支持直接代码执行的语法高亮编辑器和工具绘图和工作空间管理。

它提供开源和商业版本，可在桌面或连接到 RStudio Server 或 Studio Server Pro 的浏览器中运行。
Pxyll.com
Pxyll 是另一个开放平台工具，它是集成 Python 和 Excel 的最快方式。您输入的代码在进程中运行，以确保工作簿的最佳性能。
TIBCO喷火战斗机
它通过实现更好的决策和更快、更智能的行动来推动数字业务。 Spotfire 解决方案是面向数据科学家的工具，可解决数据发现、数据争论、预测分析等问题。
TIBCO 是一个安全、受管控的企业级分析平台，具有内置数据整理功能，可以提供 AI 驱动的可视化、地理和流式分析。它配备智能可视数据发现功能，缩短洞察时间，其数据准备功能使您能够塑造、丰富和转换数据，并为仪表板和操作创建功能和识别信号。
TensorFlow
它是一个灵活、快速、可扩展的开源机器学习库，用于研究和生产。数据科学家通常使用 TensorFlow 使用数据流图进行数值计算。

它具有灵活的架构，可使用一个 API 以及图中表示数学运算的节点将计算部署到桌面、服务器或移动设备中的一个或多个 CPU 或 GPU。
虽然图边表示它们之间通信的多维数据数组，它是进行机器学习和深度神经网络的理想选择，但适用于各种其他领域。
闪亮的
它是 RStudio 的一个 Web 应用程序框架，数据科学家使用它来将分析转换为交互式 Web 应用程序。对于缺乏 Web 开发经验的数据科学家来说，它是一个理想的工具。
好处是不需要 HTML、CSS 或 JavaScript 知识，因为它是一个易于编写的应用程序，可以将 R 的计算能力与现代网络的交互性结合起来。您可以使用自己的服务器或 RStudio 的托管服务。
科学派
这个数据科学工具是一个基于 Python 的开源软件生态系统，旨在用于数学、科学和工程应用。它的堆栈包括 Python、NumPy、Matplotlib、Python、SciPy 库等。 SciPy 库提供了几个数值例程。
Scikit-学习
该工具是一个易于使用的通用 Python 机器学习工具。大多数数据科学家更喜欢 scikit-learn，因为它具有用于数据挖掘和数据分析的简单、高效的工具。每个人都可以访问它，并且在某些情况下可以重复使用它。它建立在 NumPy、SciPy 和 Matplotlib 之上。
斯卡拉
Scala 是一个数据科学家的工具，他们希望构建优雅的类层次结构以最大化代码重用和可扩展性。该工具使用户能够使用高阶函数来实现类层次结构的行为。

它具有现代多范式编程语言，旨在简洁优雅地表达常见的编程模式。它平滑地集成了面向对象和函数式语言的特性。它支持高阶函数并允许函数嵌套。
八度
这是一种科学编程语言，对于希望求解方程组或使用高级绘图命令可视化数据的数据科学家来说是一种有用的工具。 Octave 的语法与 MATLAB 兼容，它的解释器可以在 GUI 模式下运行、作为控制台或作为 shell 脚本的一部分调用。
网络X
它是面向数据科学家的 Python 打包工具。您可以使用 NetworkX 创建、操作和研究复杂网络的结构、动力学和功能。它具有图、有向图和多重图的数据结构以及丰富的标准图算法。您可以生成经典图、随机图和合成网络。
自然语言工具包
它是构建 Python 程序的领先平台，因为它是处理人类语言数据的工具。该工具对使用 Python 从事计算语言学工作的缺乏经验的数据科学家和数据科学学生很有帮助。它为 50 多个语料库和词汇资源提供了易于使用的接口。
MLBase
加州大学伯克利分校的 AMPLab 将 MLBase 开发为一个开源项目，使数据科学家更容易进行分布式机器学习。它由三个组件组成，即 MLib、MLI 和 ML Optimizer。 MLBase 可以更轻松地大规模实施和使用机器学习。
Matplotlib
这个数据科学工具是一个 Python 2D 绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量的图形。数据科学家在 Python 脚本、Python 和 IPython 外壳、Jupyter Notebook、Web 应用程序服务器和四个图形用户界面工具包中使用它。

它能够通过几行代码生成绘图、直方图、功率谱、条形图、误差图、散点图等。

（另请阅读：为什么数据科学技术比大数据更大）

MATLAB。
这是用于数值计算、可视化和编程的高级高级语言和交互式环境。它是数据科学家的强大工具，可作为技术计算语言，对数学、图形和编程非常有用。
它的设计非常直观，因此您可以分析数据、开发算法和创建模型。它将用于迭代分析和设计过程的桌面环境与能够直接表达矩阵和数组数学的编程语言相结合。
GraphLab 创建
数据科学家和开发人员使用该工具通过机器学习构建最先进的数据产品。该机器学习工具可帮助用户在 Python 中构建端到端的智能应用程序，因为它简化了机器学习模型的开发。
它还结合了特定于应用程序的自动特征工程、模型选择和机器学习可视化。您可以在对应于相同现实世界实体的数据源内或跨数据源识别和链接记录。
ggplot2
ggplot2 由 Hadley Wickham 和 Winston Chang 开发，作为基于图形语法的 R 绘图系统。使用 ggplot2，数据科学家可以避免许多绘图的麻烦，同时保持基础和点阵图形的吸引人的部分，并轻松生成复杂的多层图形。
它可以帮助您创建适合您需求的新型图形，这将帮助您和其他人了解您的数据，从而使您生成用于数据分析的优雅数据。
呆呆
它是一种操作系统，使您能够使用没有“会践踏您的自由”的软件的计算机。他们创建了 Gawk，这是一个解释专用编程语言的 awk 实用程序。
它使用户能够仅使用几行代码来处理简单的数据重新格式化工作。它允许您在文件中搜索包含一个或多个模式的行或其他文本单元。它是数据驱动的，而不是程序驱动的，因此易于阅读和编写程序。
融合表
Fusion Tables 是一项基于云的数据管理服务，专注于协作、易用性和可视化。由于它是一个实验性应用程序，Fusion Tables 是一个面向数据科学家的数据可视化 Web 应用程序工具，使您能够收集、可视化和共享数据表。
您可以在几分钟内制作地图并从 Web 中搜索数以千计的公共 Fusion Tables 或数百万个可以导入到 Fusion Tables 的公共表格。最后，您可以导入自己的数据并立即将其可视化，从而在其他网络资产上发布您的可视化。
特色实验室
Feature Labs 旨在为您的数据开发和部署智能产品和服务。他们主要与数据科学家合作。它与您的数据集成，帮助科学家、开发人员、分析师、经理和高管发现新的见解，并更好地了解您的数据如何预测您的业务的未来。它具有针对您的数据和用例量身定制的入职培训课程，可帮助您高效起步。
数据转
这个数据科学工具是“业界第一个也是唯一一个用于工业物联网的认知预测维护平台。 DataRPM 获得了 Frost & Sullivan 颁发的 2017 年汽车制造认知预测维护技术领导奖。
它使用正在申请专利的元学习技术（人工智能的一个组成部分）来自动预测资产故障，并在数据集上运行多个实时自动化机器学习实验。
D3.js
D3.js 由 Mike Bostock 创建。它被数据科学家用作 JavaScript 库，用于根据数据操作文档，使用 SVG、Canvas 和 HTML 为他们的数据添加生命。它强调 Web 标准以获得现代浏览器的全部功能，而不受专有框架的束缚，并结合了强大的可视化组件和数据驱动的文档对象模型 (DOM) 操作方法。它还可以将任意数据绑定到 DOM，然后将数据驱动的转换应用于文档。
阿帕奇星火
它提供“闪电般快速的集群计算”。非常广泛的大型组织使用 Spark 来处理大型数据集，而这个数据科学家工具可以访问各种数据源，例如 HDFS、Cassandra、HBase 和 S3。
它采用先进的 DAG 执行引擎设计，支持非循环数据流和内存计算，拥有 80 多个高级运算符，使构建并行应用程序变得简单，可以从 Scale、Python 和 R shell 交互使用，以及它支持一系列库，包括 SQL、DataFrames、MLlib、GraphX 和 Spark Streaming。
阿帕奇猪
该工具是为分析大型数据集而设计的平台。它由一种用于表达数据分析程序的高级语言以及用于评估此类程序的基础设施组成。
由于 Pig 程序的结构可以处理大量并行化，因此它们可以处理大型数据集。该基础设施由一个编译器组成，该编译器能够生成已经存在大规模并行实现的 Map-Reduce 程序序列，以及一个语言层，包括一种称为 Pig Latin 的文本语言。
阿帕奇梅索斯
作为集群管理器，Apache Mesos 提供跨分布式应用程序或框架的高效资源隔离和共享。它将 CPU、内存、存储和其他资源从物理或虚拟机中抽象出来，以使容错、弹性的分布式系统能够轻松构建并有效运行。
它使用类似于 Linux 内核的原理构建，但抽象级别不同，它运行在每台机器上，并为 Hadoop 和 Spark 等应用程序提供 API，用于完全跨数据中心和云环境进行资源管理和调度。它具有高可用性的无中断升级。
Apache Mahout
一个开源工具。 Apache Mahout 旨在实现可扩展的机器学习和数据挖掘。具体来说，该项目的目标是“为快速创建可扩展的高性能机器学习应用程序构建环境”。它具有用于构建可扩展算法的简单、可扩展的编程环境和框架，包括用于 Scala + Apache Spark、H2O 和 Apache Flink 的各种预制算法。
阿帕奇卡夫卡
Apache Kafka 旨在高效地实时处理数据流。数据科学家利用此工具构建实时数据管道和流式应用程序，因为它使他们能够发布和订阅记录流，以容错方式存储记录流，并在记录流发生时对其进行处理。它在一台或多台服务器上作为集群运行，集群将记录流存储在称为主题的类别中。
阿帕奇蜂巢
Apache Hive 最初是 Apache Hadoop 的一个子项目，现在本身就是一个顶级项目。 Apache Hive 是一种数据仓库软件，可帮助使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。它可以将结构投影到已经在存储中的数据上，并提供了一个命令行工具来将用户连接到 Hive。
Apache HBase
Apache HBase 是一个可扩展的分布式大数据存储。当数据科学家需要对大数据进行随机、实时的读/写访问时，他们会使用这个开源工具。 Apache HBase 在 Hadoop 和 HDFS 之上提供类似于 Bigtable 的功能。它是结构化数据的分布式存储系统，具有线性和模块化的可扩展性。它严格且一致地读写。
阿帕奇Hadoop
这个数据科学工具是一个开源软件，用于可靠、分布式、可扩展的计算。一个允许跨计算机集群分布式处理大型数据集的框架，软件库使用简单的编程模型。
它适用于研究和生产。它旨在从单个服务器扩展到数千台机器。该库可以在应用层检测和处理故障，而不是依赖硬件来提供高可用性。
阿帕奇吉拉夫
Giraph 是一个迭代图形处理系统，专为高可扩展性而设计。它最初是 Pregel 的开源对应物，但在基本 Pregel 模型之外添加了多个功能。数据科学家使用它来“大规模释放结构化数据集的潜力”。
它具有主计算、分片聚合器、面向边缘的输入、核外计算、稳定的开发周期和不断增长的用户社区。
算法.io
该工具是 LumenData 公司，提供机器学习服务，用于从连接的设备流式传输数据。该工具将原始数据转化为实时洞察力和可操作事件，以便公司能够更好地部署机器学习来处理流数据。
它简化了使使用连接设备的公司和开发人员可以访问机器学习的过程。其云平台还解决了部署机器数据时出现的基础设施、规模和安全性方面的常见挑战。
三叶草
Trifacta 为数据整理和数据准备提供了三种产品。个人、团队和组织都可以使用它，因为它有助于探索、转换、清理和连接桌面文件。它是一个先进的数据准备自助服务平台。
奥特里克斯
这是另一个伟大的数据科学工具。它提供了一个平台来发现、准备和分析数据。此外，它还可以通过大规模部署和共享分析来帮助您找到更深入的见解。它允许您发现数据并在整个组织中进行协作。
它还具有准备和分析模型的功能。 Alteryx 将允许您集中管理用户、工作流和数据资产，并将 R、Python 和 Alteryx 模型嵌入到您的流程中。
H2O.ai
H20.ai 社区拥有 130,000 名数据科学家和大约 14,000 个组织，正在以强劲的速度增长。 H20.ai 是一个开源工具，旨在简化数据建模。
它能够实现大多数机器学习算法，包括广义线性模型（GLM）、分类算法、增强机器学习等。它为深度学习提供支持，还支持与 Apache Hadoop 集成以处理和分析大量数据。
画面
该工具是市场上最流行的数据可视化工具。它使您能够将原始的、未格式化的数据分解为可处理和可理解的格式。使用 Tableau 创建的可视化可以轻松帮助您了解预测变量之间的依赖关系。
这些工具非常实用且有效，所以为什么不将它们包含在您的工作中并见证巨大的变化。

其他有用的资源：

塑造数据科学未来的 6 大因素

联盟营销中欺诈检测背后的数据科学

数据科学家的最佳数据科学工具

下面列出了一些数据科学的最佳工具。

大机器学习

散景

Clojure

Excel

预测这里

爪哇

木星

逻辑胶

MySQL

叙事科学

数字货币

OpenRefine

熊猫

快速矿工

雷迪斯

级联

数据机器人

阿帕奇风暴

伊菲顿

KNIME 分析平台。

工作室

Pxyll.com

TIBCO喷火战斗机

TensorFlow

闪亮的

科学派

Scikit-学习

斯卡拉

八度

网络X

自然语言工具包

MLBase

Matplotlib

MATLAB。

GraphLab 创建

ggplot2

呆呆

融合表

特色实验室

数据转

D3.js

阿帕奇星火

阿帕奇猪

阿帕奇梅索斯

Apache Mahout

阿帕奇卡夫卡

阿帕奇蜂巢

Apache HBase

阿帕奇Hadoop

阿帕奇吉拉夫

算法.io

三叶草

奥特里克斯

H2O.ai

画面

其他有用的资源：