데이터 과학자를 위한 최고의 데이터 과학 도구

게시 됨: 2020-02-28

데이터 사이언스의 탄생을 이끈 데이터로 실제 현상을 이해하고 분석하기 위해서는 통계를 통일화하고, 데이터를 분석하고, 기계와 관련 방법을 통해 학습해야 합니다.

데이터 과학은 구조화된 데이터와 구조화되지 않은 데이터 모두에서 지식과 통찰력을 추출하기 위해 과학적 방법, 프로세스, 알고리즘 및 시스템을 사용하는 통합 분야입니다. 수학, 통계, 컴퓨터 과학 및 정보 과학의 맥락 내에서 많은 분야에서 가져온 기술과 이론을 사용합니다.

2015년에 미국 통계 협회(American Statistical Association)는 분산 및 병렬 시스템, 통계, 기계 학습 및 데이터베이스 관리를 모두 데이터 과학의 세 가지 기본 및 전문 커뮤니티로 식별했습니다. 데이터 과학은 도구 없이는 전혀 작동할 수 없습니다.

그렇다면 오늘날 우리가 가지고 있는 데이터 과학 도구는 무엇입니까?

다음은 데이터 과학을 위한 최고의 도구 목록입니다.

  • 빅ML

    이것은 내가 개인적으로 기계 학습을 간단하게 만드는 데 사용하는 가장 좋아하는 데이터 과학 도구 중 하나입니다. 이 세계적인 도구는 조직에서 기계 학습을 운영하기 위해 클라우드 또는 온프레미스에서 실행하도록 설계되어 분류 및 클러스터 분석을 쉽게 해결하고 자동화할 수 있습니다.

  • 보케

    이 도구는 프레젠테이션을 위한 최신 웹 브라우저를 구축하는 것을 목표로 합니다. 또한 사용자가 대시보드, 대화형 플롯 및 데이터 응용 프로그램을 쉽게 만들 수 있습니다. 가장 좋은 점은 완전히 무료라는 것입니다.

  • 클로저

    Clojure는 다중 스레드 프로그래밍을 위한 스크립팅 언어의 대화식 개발과 효율적인 인프라를 병합하도록 설계되었습니다. 이 도구는 런타임에 지원되는 모든 기능과 함께 동적으로 유지되는 컴파일 언어이기 때문에 고유합니다.

  • 뛰어나다

    이 Microsoft Office 패키지는 과학자들이 데이터를 빠르게 정렬, 필터링 및 작업하는 데 사용하는 매우 친숙한 도구입니다. 그것은 당신이 접하는 거의 모든 컴퓨터 장치에 있기 때문에 전 세계의 데이터 과학자들이 쉽게 작업할 수 있습니다.

  • 예보이

    ForecastThis는 예측 모델 선택을 자동화하는 데이터 과학자의 이해를 돕는 거대한 도구입니다. 이 도구 뒤에 있는 회사는 양적 분석가, 투자 관리자 및 데이터 과학자가 강력한 예측을 생성하고 복잡한 미래 목표를 최적화할 목적으로 자체 데이터를 사용할 수 있도록 하여 금융 및 경제와 관련된 딥 러닝을 만들기 위해 끊임없이 노력하고 있습니다.

  • 자바

    자바, 오 자바! 낡았지만 금. 이 도구는 매우 광범위한 사용자 기반을 가진 언어입니다. 데이터 과학자가 분산 시스템, 기계 학습 및 데이터 분석과 관련된 제품 및 프레임워크를 만드는 데 도움이 됩니다.

    Java는 사람들이 사용하기에 매우 편리합니다. 이를 통해 R 및 Python과 같은 다른 훌륭한 데이터 과학 도구와 비교할 수 있습니다.

  • 주피터

    목성(Jupiter) 행성에서 더빙된 목성(Jupyter)은 이름에서 알 수 있듯이 전 세계에서 작동하도록 설계되었습니다. 다국어 대화형 컴퓨팅 환경을 제공했습니다.

    데이터 과학자가 라이브 코드, 시각화, 방정식 및 설명 테스트가 포함된 문서를 만들고 공유할 수 있는 오픈 소스 웹 애플리케이션인 노트북이 있습니다.

  • 논리적 접착제

    Logical Glue는 사용자가 인공 지능 플랫폼에서 기계어를 배울 수 있게 해주는 수상 경력에 빛나는 도구입니다. 대상 고객을 위해 통찰력을 제공하는 프로세스를 통해 조직의 생산성과 이익을 높이는 주요 이점이 없었다면 상을 수상하지 못했을 것입니다.

  • MySQL

    MySQL은 매우 인기 있는 오픈 소스 데이터베이스입니다. 일부 사람들은 데이터 과학자가 데이터베이스의 데이터에 액세스하는 데 사용할 수 있는 훌륭한 도구이기도 합니다. 효율성을 높이기 위해 Java와 함께 사용되었습니다.

    매우 체계적인 방식으로 데이터를 저장하고 구성할 수 있어 번거로움이 전혀 없습니다. 프로덕션 시스템에 대한 데이터 스토리지 요구 사항을 지원합니다. 또한 데이터베이스를 설계한 후 데이터를 조회할 수 있는 기능으로 활성화되었습니다.

  • 내러티브 과학

    내러티브 과학은 조직이 고급 내러티브 언어 생성(NLG)에 의해 생성된 지능적이고 자동화된 내러티브를 통해 데이터의 영향을 극대화하는 데 도움이 되는 데이터 과학자를 위한 훌륭한 도구입니다.

    이 도구는 데이터를 실행 가능하고 강력한 자산으로 전환하여 보다 효율적인 결정을 내리므로 조직의 작업자가 데이터를 이해하고 조치를 취하도록 할 수 있습니다.

  • 넘파이

    NumPy는 정교한 방송 기능을 가진 강력한 N차원 배열 객체를 포함하고 있고 완전히 무료이기 때문에 과학적 용도에 매우 적합한 도구입니다. Python과 함께 사용할 때만 모든 잠재력을 실현할 수 있는 기본 패키지입니다. 또한 일반 데이터의 다차원 컨테이너입니다.

  • 오픈리파인

    Google Refine 이후 Open Refine은 이제 원하는 모든 사람이 지원하고 자금을 지원하는 오픈 소스 프로젝트입니다. 이름에서 알 수 있듯이 데이터 과학자가 데이터베이스에 연결하기 전에 웹 서비스로 데이터를 정리, 변환 및 확장하는 데 사용하는 매우 강력한 도구입니다.

    또한 데이터를 조정 및 일치시키고, 데이터 세트를 다양한 웹 서비스와 연결 및 확장하고, 정리된 데이터를 중앙 데이터베이스에 업로드할 수 있도록 설계되었습니다.

  • 판다

    Pandas는 Python 프로그래밍 언어용으로 사용하기 쉬운 고성능 데이터 구조 및 데이터 분석 도구를 제공하는 것을 목표로 하는 오픈 소스 라이브러리를 갖춘 훌륭한 데이터 과학 도구입니다.

    유연하고 빠르며 관계형 데이터와 레이블이 지정된 데이터를 쉽고 직관적으로 사용할 수 있도록 표현하는 데이터 구조를 가지고 있습니다. 다양한 언어로 사용할 수 있는 데이터 분석 및 조작 도구가 있습니다. 무엇을 더? 그것은 무료입니다.

  • RapidMiner

    통계에 따르면 RapidMiner는 기계 학습, 데이터 준비 및 모델 배포를 위한 통합 플랫폼이므로 데이터 과학자가 사용할 때 생산성이 더 높아집니다. RapidMiner Radoop을 사용하여 Hadoop 내에서 직접 데이터 과학 워크플로를 실행할 수 있습니다.

  • 레디스

    이 데이터 과학 도구는 데이터 과학자들이 캐시, 데이터베이스 및 메시지 브로커로 사용하는 데이터 구조 서버입니다. 해시, 문자열 및 목록을 지원하는 오픈 소스 메모리 내 데이터 구조 저장소입니다.

( 백서 다운로드: 대규모 데이터 과학)

  • 계단식

    이 데이터 과학 도구는 Apache Hadoop에서 빅 데이터 애플리케이션을 구축하는 데이터 과학자를 위한 애플리케이션 개발 플랫폼입니다. 고유한 연산 엔진, 시스템 통합 프레임워크, 데이터 처리 및 스케줄링 기능을 자랑하므로 사용자가 간단하고 복잡한 데이터 문제를 해결할 수 있습니다. MapReduce, Apache Tea 및 Apache Flink 간에 실행되고 이식될 수 있습니다.

  • 데이터로봇

    이 도구는 고급 기계 학습 자동화 플랫폼이며 DataRobot을 사용하면 데이터 과학자가 더 나은 예측 모델을 더 빠르게 구축할 수 있습니다. DataRobot을 사용하면 계속 확장되는 기계 학습 알고리즘 생태계를 쉽게 따라갈 수 있습니다.

    DataRobot은 지속적으로 확장되고 있으며 주요 소스의 다양한 동급 최강 알고리즘을 보유하고 있습니다. 코드 한 줄 또는 클릭 한 번으로 수백 가지 다양한 모델을 테스트, 교육 및 비교할 수 있습니다.

    또한 각 모델링 기법에 대한 상위 전처리 및 피쳐 엔지니어링을 자동으로 식별합니다. 심지어 수백, 수천 대의 서버와 각 서버 내의 다중 코어를 사용하여 데이터 탐색, 모델 구축 및 하이퍼 매개변수 조정을 병렬화합니다.

  • 아파치 폭풍

    분산 및 내결함성 실시간 계산을 처리하는 데이터 과학자를 위한 도구입니다. 스트림 처리, 연속 계산, 분산 RPC 등을 다룹니다.

    실시간 처리를 위해 무제한 데이터 스트림을 안정적으로 처리할 수 있는 무료 오픈 소스 도구입니다. 모든 프로그래밍 언어와 실시간 분석, 온라인 머신 러닝, 연속 계산, 분산 RPC, ETL 등과 같은 경우에도 사용할 수 있습니다.

    기존 대기열 및 데이터베이스 기술과 통합되므로 모드당 초당 처리되는 100만 개 이상의 튜플을 처리할 수 있습니다.

  • 이피톤

    대화형 Python 도구는 대화형 컴퓨팅을 위한 풍부한 아키텍처와 결합된 언어 불가지론적 구성 요소를 확장하는 성장하는 프로젝트입니다. 데이터 과학자를 위한 오픈 소스 도구이며 Python 2.7 및 3.3 이상을 지원합니다.

    Jupyter용 커널이며 대화형 데이터 시각화 및 GUI 툴킷 사용을 지원합니다. 유연하고 내장 가능한 인터프리터를 자신의 프로젝트에 로드할 수 있으며 사용하기 쉬운 고성능 병렬 컴퓨팅 도구가 있습니다.

  • KNIME 분석 플랫폼.

    KNIME은 복잡한 데이터를 자유롭게 탐색할 수 있는 개방형 플랫폼 도구입니다. KNIME 분석 플랫폼은 데이터 과학자들이 데이터의 숨겨진 잠재력을 발견하고 통찰력을 찾고 미래를 예측할 수 있도록 도와주는 데이터 기반 혁신을 위한 개방형 솔루션입니다.

    신속하게 배포하고 1,000개 이상의 모듈을 쉽게 확장할 수 있습니다. 포괄적인 통합 도구와 함께 즉시 실행할 수 있는 수백 가지 예제가 있습니다. 또한 사용 가능한 고급 알고리즘의 가장 광범위한 선택을 제공합니다.

  • 알스튜디오

    이는 오픈 소스 및 엔터프라이즈급 데이터 과학자를 위한 도구입니다. R 커뮤니티를 위한 이 고도로 전문적인 소프트웨어는 코드 편집기, 디버깅 및 시각화 도구, R용 통합 개발 환경(IDE), 콘솔, 직접 코드 실행을 지원하는 구문 강조 편집기 및 플로팅 및 작업 공간 관리.

    오픈 소스 및 상업용 에디션으로 제공되며 데스크톱이나 RStudio Server 또는 Studio Server Pro에 연결된 브라우저에서 실행됩니다.

  • Pxyll.com

    Pxyll은 또 다른 개방형 플랫폼 도구이며 Python과 Excel을 통합하는 가장 빠른 방법입니다. 입력한 코드는 통합 문서의 가능한 최상의 성능을 보장하기 위해 프로세스 내에서 실행됩니다.

  • TIBCO 스핏파이어

    더 나은 결정과 더 빠르고 스마트한 조치를 가능하게 하여 디지털 비즈니스를 추진합니다. Spotfire 솔루션은 데이터 검색, 데이터 랭글링, 예측 분석 등을 다루는 데이터 과학자를 위한 도구입니다.

    TIBCO는 데이터 랭글링이 내장된 안전한 관리형 엔터프라이즈급 분석 플랫폼이며 AI 기반, 시각적, 지리 및 스트리밍 분석을 제공할 수 있습니다. 통찰력 확보 시간이 단축된 스마트 시각적 데이터 검색 기능과 데이터 준비 기능을 통해 데이터를 형성, 강화 및 변환하고 기능을 생성하고 대시보드 및 작업에 대한 신호를 식별할 수 있습니다.

  • 텐서플로우

    연구 및 생산을 위한 유연하고 빠르며 확장 가능한 오픈 소스 기계 학습 라이브러리입니다. 데이터 과학자는 일반적으로 데이터 흐름 그래프를 사용한 수치 계산에 TensorFlow를 사용합니다.

    수학 연산을 나타내는 그래프의 노드와 함께 하나의 API를 사용하여 데스크톱, 서버 또는 모바일 장치에서 하나 이상의 CPU 또는 GPU에 계산을 배포하기 위한 유연한 아키텍처가 있습니다.

    그래프 에지는 그들 사이에서 통신되는 다차원 데이터 배열을 나타내지만 머신 러닝과 심층 신경망을 수행하는 데 이상적이지만 다양한 다른 영역에 적용됩니다.

  • 빛나는

    데이터 과학자가 분석을 대화형 웹 응용 프로그램으로 전환하는 데 사용하는 R by RStudio용 웹 응용 프로그램 프레임워크입니다. 웹 개발 경험이 없는 데이터 과학자에게 이상적인 도구입니다.

    좋은 점은 R의 계산 능력과 최신 웹의 상호 작용성을 결합할 수 있는 작성하기 쉬운 앱이므로 HTML, CSS 또는 JavaScript 지식이 필요하지 않다는 것입니다. 자체 서버 또는 RStudio의 호스팅 서비스를 사용할 수 있습니다.

  • 사이파이

    이 데이터 과학 도구는 수학, 과학 및 엔지니어링 응용 프로그램을 위한 Python 기반 오픈 소스 소프트웨어 에코시스템입니다. 스택에는 Python, NumPy, Matplotlib, Python, SciPy 라이브러리 등이 포함됩니다. SciPy 라이브러리는 여러 수치 루틴을 제공합니다.

  • 사이킷런

    이 도구는 사용하기 쉬운 Python용 범용 머신 러닝입니다. 대부분의 데이터 과학자는 데이터 마이닝 및 데이터 분석을 위한 간단하고 효율적인 도구를 제공하기 때문에 scikit-learn을 선호합니다. 또한 모든 사람이 액세스할 수 있으며 특정 상황에서 재사용할 수 있습니다. NumPy, SciPy 및 Matplotlib를 기반으로 합니다.

  • 스칼라

    Scala는 코드 재사용과 확장성을 극대화하기 위해 우아한 클래스 계층을 구성하려는 데이터 과학자를 위한 도구입니다. 이 도구는 사용자가 고차 함수를 사용하여 클래스 계층 구조의 동작을 구현할 수 있도록 합니다.

    일반적인 프로그래밍 패턴을 간결하고 우아하게 표현하도록 설계된 현대적인 다중 패러다임 프로그래밍 언어가 있습니다. 객체 지향 및 기능 언어의 기능을 원활하게 통합합니다. 고차 함수를 지원하고 함수를 중첩할 수 있습니다.

  • 옥타브

    이것은 방정식 시스템을 풀거나 고급 플롯 명령으로 데이터를 시각화하려는 데이터 과학자에게 유용한 도구인 과학 프로그래밍 언어입니다. Octave의 구문은 MATLAB과 호환되며 인터프리터는 GUI 모드에서 콘솔로 실행하거나 셸 스크립트의 일부로 호출할 수 있습니다.

  • 네트워크X

    데이터 과학자를 위한 Python 패키지 도구입니다. NetworkX를 사용하여 복잡한 네트워크의 구조, 역학 및 기능을 생성, 조작 및 연구할 수 있습니다. 풍부한 표준 그래프 알고리즘과 함께 그래프, 이중 그래프 및 다중 그래프에 대한 데이터 구조를 가지고 있습니다. 클래식 그래프, 랜덤 그래프 및 합성 네트워크를 생성할 수 있습니다.

  • 자연어 도구 키트

    인간 언어 데이터로 작업하기 위한 도구이기 때문에 Python 프로그램을 빌드하기 위한 선도적인 플랫폼입니다. 이 도구는 Python을 사용하여 계산 언어학에서 작업하는 경험이 없는 데이터 과학자 및 데이터 과학 학생에게 유용합니다. 50개 이상의 말뭉치 및 어휘 리소스에 대한 사용하기 쉬운 인터페이스를 제공합니다.

  • MLBase

    UC Berkeley의 AMPLab은 MLBase를 데이터 과학자가 분산 기계 학습을 더 쉽게 할 수 있도록 하는 오픈 소스 프로젝트로 개발했습니다. MLib, MLI 및 ML Optimizer의 세 가지 구성 요소로 구성됩니다. MLBase는 대규모 머신 러닝을 보다 쉽게 ​​구현하고 사용할 수 있습니다.

  • 매트플롯립

    이 데이터 과학 도구는 플랫폼 전반에 걸쳐 다양한 하드카피 형식과 대화형 환경에서 출판 품질의 그림을 생성하는 Python 2D 플로팅 라이브러리입니다. 데이터 과학자들은 Python 스크립트, Python 및 IPython 셸, Jupyter 노트북, 웹 애플리케이션 서버, 4가지 그래픽 사용자 인터페이스 툴킷에서 사용합니다.

    몇 줄의 코드로 플롯, 히스토그램, 파워 스펙트럼, 막대 차트, 오류 차트, 산점도 등을 생성하는 기능이 있습니다.

( 또한 읽기: 데이터 과학 기술이 빅 데이터보다 큰 이유)

  • MATLAB.

    이것은 수치 계산, 시각화 및 프로그래밍을 위한 고급 고급 언어 및 대화형 환경입니다. 데이터 과학자를 위한 강력한 도구이며 기술 컴퓨팅 언어로 사용되며 수학, 그래픽 및 프로그래밍에 유용합니다.

    직관적으로 설계되어 데이터 분석, 알고리즘 개발 및 모델 생성이 가능합니다. 반복 분석 및 설계 프로세스를 위한 데스크탑 환경을 행렬 및 배열 수학을 직접 표현할 수 있는 프로그래밍 언어와 결합합니다.

  • 그래프랩 생성

    이 도구는 데이터 과학자와 개발자가 기계 학습을 통해 최첨단 데이터 제품을 구축하는 데 사용합니다. 이 기계 학습 도구는 기계 학습 모델의 개발을 단순화하므로 사용자가 Python에서 엔드 투 엔드 지능형 애플리케이션을 빌드하는 데 도움이 됩니다.

    또한 애플리케이션에 특정한 자동 기능 엔지니어링, 모델 선택 및 기계 학습 시각화를 통합합니다. 동일한 실제 엔터티에 해당하는 데이터 원본 내 또는 전체에서 레코드를 식별하고 연결할 수 있습니다.

  • ggplot2

    ggplot2는 Hadley Wickham과 Winston Chang이 그래픽 문법을 기반으로 하는 R용 플로팅 시스템으로 개발했습니다. ggplot2를 사용하면 데이터 과학자 c는 기본 및 격자 그래픽의 매력적인 부분을 유지하고 복잡한 다층 그래픽을 쉽게 생성하면서 플로팅의 많은 번거로움을 피할 수 있습니다.

    귀하와 다른 사람들이 귀하의 데이터를 이해하는 데 도움이 되는 새로운 유형의 그래픽을 귀하의 요구에 맞게 제작하여 데이터 분석을 위한 우아한 데이터를 생성할 수 있도록 도와줍니다.

  • 둔한 사람

    그것은 "자유를 짓밟는" 소프트웨어 없이 컴퓨터를 사용할 수 있게 해주는 운영 체제입니다. 그들은 특수 목적의 프로그래밍 언어를 해석하는 awk 유틸리티인 Gawk를 만들었습니다.

    사용자는 몇 줄의 코드만 사용하여 간단한 데이터 형식 변경 작업을 처리할 수 있습니다. 하나 이상의 패턴을 포함하는 라인 또는 기타 텍스트 단위에 대한 파일을 검색할 수 있습니다. 절차적 방식이 아닌 데이터 기반 방식이므로 프로그램을 쉽게 읽고 쓸 수 있습니다.

  • 퓨전 테이블

    Fusion Tables는 협업, 사용 편의성 및 시각화에 중점을 둔 클라우드 기반 데이터 관리 서비스입니다. 실험적인 앱이기 때문에 Fusion Tables는 데이터 테이블을 수집, 시각화 및 공유할 수 있는 데이터 과학자를 위한 데이터 시각화 웹 응용 프로그램 도구입니다.

    몇 분 안에 지도를 만들고 Fusion Tables로 가져올 수 있는 수천 개의 공개 Fusion Tables 또는 수백만 개의 공개 테이블을 웹에서 검색할 수 있습니다. 마지막으로 자신의 데이터를 가져와 즉시 시각화하여 다른 웹 속성에 시각화를 게시할 수 있습니다.

  • FeatureLabs

    Feature Labs는 데이터를 위한 지능형 제품 및 서비스를 개발하고 배포하도록 설계되었습니다. 그들은 주로 데이터 과학자와 함께 일합니다. 데이터와 통합되어 과학자, 개발자, 분석가, 관리자 및 경영진이 새로운 통찰력을 발견하고 데이터가 비즈니스의 미래를 예측하는 방법을 더 잘 이해할 수 있습니다. 데이터 및 사용 사례에 맞게 조정된 온보딩 세션을 제공하여 효율적인 시작을 도와줍니다.

  • 데이터 RPM

    이 데이터 과학 도구는 "산업용 IoT를 위한 업계 최초이자 유일한 인지 예측 유지 관리 플랫폼입니다. DataRPM은 Frost & Sullivan의 2017 자동차 제조 부문 인지 예측 유지 관리 기술 리더십 상을 수상했습니다.

    인공 지능의 필수 구성 요소인 특허 출원 중인 메타 학습 기술을 사용하여 자산 실패 예측을 자동화하고 데이터 세트에 대해 여러 라이브 자동화 머신 러닝 실험을 실행합니다.

  • D3.js

    D3.js는 Mike Bostock이 만들었습니다. 데이터 과학자들은 데이터를 기반으로 문서를 조작하고 SVG, Canvas 및 HTML을 사용하여 데이터에 생기를 더하기 위한 JavaScript 라이브러리로 사용합니다. 독점 프레임워크에 얽매이지 않고 최신 브라우저의 모든 기능을 얻기 위해 웹 표준에 중점을 두고 있으며 강력한 시각화 구성 요소와 DOM(Document Object Model) 조작에 대한 데이터 기반 접근 방식을 결합합니다. 또한 임의의 데이터를 DOM에 바인딩한 다음 데이터 기반 변환을 문서에 적용할 수 있습니다.

  • 아파치 스파크

    "빛나는 속도의 클러스터 컴퓨팅"을 제공합니다. 매우 광범위한 대규모 조직에서 Spark를 사용하여 대규모 데이터 세트를 처리하고 이 데이터 과학자 도구는 HDFS, Cassandra, HBase 및 S3와 같은 다양한 데이터 소스에 액세스할 수 있습니다.

    비주기적 데이터 흐름과 인메모리 컴퓨팅을 지원하는 고급 DAG 실행 엔진으로 설계되었으며 병렬 앱을 간단하게 구축할 수 있는 80개 이상의 고급 연산자가 있으며 Scale, Python 및 R 셸에서 대화식으로 사용할 수 있습니다. SQL, DataFrames, MLlib, GraphX ​​및 Spark Streaming을 포함한 라이브러리 스택을 지원합니다.

  • 아파치 돼지

    이 도구는 대규모 데이터 세트를 분석하기 위해 설계된 플랫폼입니다. 데이터 분석 프로그램을 표현하기 위한 고급 언어와 이러한 프로그램을 평가하기 위한 인프라로 구성되어 있습니다.

    Pig 프로그램의 구조는 상당한 병렬화를 처리할 수 있으므로 대규모 데이터 세트를 처리할 수 있습니다. Infrastructure는 대규모 병렬 구현이 이미 존재하는 Map-Reduce 프로그램의 시퀀스를 생성할 수 있는 컴파일러와 Pig Latin이라는 텍스트 언어를 포함하는 언어 계층으로 구성됩니다.

  • 아파치 메소스

    클러스터 관리자로서 Apache Mesos는 분산 애플리케이션 또는 프레임워크 전반에 걸쳐 효율적인 리소스 격리 및 공유를 제공합니다. 물리적 또는 가상 머신에서 CPU, 메모리, 스토리지 및 기타 리소스를 추상화하여 내결함성이 있고 탄력적인 분산 시스템을 쉽게 구축하고 효과적으로 실행할 수 있도록 합니다.

    Linux 커널과 유사한 원칙을 사용하여 구축되었지만 추상화 수준이 다르며 모든 머신에서 실행되며 데이터 센터 및 클라우드 환경 전반에 걸쳐 리소스 관리 및 스케줄링을 위한 API를 Hadoop 및 Spark와 같은 애플리케이션에 제공합니다. 고가용성을 위한 무중단 업그레이드가 있습니다.

  • 아파치 마하우트

    오픈 소스 도구입니다. Apache Mahout은 확장 가능한 기계 학습 및 데이터 마이닝을 구현하는 것을 목표로 합니다. 구체적으로 말하면 이 프로젝트의 목표는 "확장 가능한 고성능 머신 러닝 애플리케이션을 빠르게 생성할 수 있는 환경을 구축하는 것"입니다. Scala + Apache Spark, H2O 및 Apache Flink용으로 미리 만들어진 다양한 알고리즘을 포함하여 확장 가능한 알고리즘을 구축하기 위한 간단하고 확장 가능한 프로그래밍 환경과 프레임워크가 있습니다.

  • 아파치 카프카

    Apache Kafka는 실시간으로 데이터 스트림을 효율적으로 처리하도록 구축되었습니다. 데이터 과학자는 이 도구를 사용하여 레코드 스트림을 게시 및 구독하고, 내결함성 방식으로 레코드 스트림을 저장하고, 발생하는 레코드 스트림을 처리할 수 있는 권한을 부여하기 때문에 실시간 데이터 파이프라인 및 스트리밍 앱을 구축합니다. 하나 이상의 서버에서 클러스터로 실행되고 클러스터는 주제라는 범주에 레코드 스트림을 저장합니다.

  • 아파치 하이브

    Apache Hive는 Apache Hadoop의 하위 프로젝트로 시작하여 현재는 최상위 프로젝트 그 자체입니다. Apache Hive는 SQL을 사용하여 분산 스토리지에 있는 대규모 데이터 세트를 읽고, 쓰고, 관리하는 데 도움이 되는 데이터 웨어하우스 소프트웨어입니다. 이미 스토리지에 있는 데이터에 구조를 투영할 수 있으며 사용자를 Hive에 연결하기 위한 명령줄 도구가 제공됩니다.

  • 아파치 HBase

    Apache HBase는 확장 가능한 분산형 빅 데이터 저장소입니다. 이 오픈 소스 도구는 빅 데이터에 대한 임의의 실시간 읽기/쓰기 액세스가 필요할 때 데이터 과학자가 사용합니다. Apache HBase는 Hadoop 및 HDFS를 기반으로 Bigtable과 유사한 기능을 제공합니다. 선형 및 모듈식 확장성을 갖춘 구조화된 데이터용 분산 스토리지 시스템입니다. 엄격하고 일관되게 읽고 씁니다.

  • 아파치 하둡

    이 데이터 과학 도구는 안정적이고 분산되고 확장 가능한 컴퓨팅을 위한 오픈 소스 소프트웨어입니다. 컴퓨터 클러스터에 걸쳐 대규모 데이터 세트의 분산 처리를 허용하는 프레임워크인 소프트웨어 라이브러리는 간단한 프로그래밍 모델을 사용합니다.

    연구 및 생산에 적합합니다. 단일 서버에서 수천 대의 시스템으로 확장하도록 설계되었습니다. 라이브러리는 고가용성을 제공하기 위해 하드웨어에 의존하는 대신 애플리케이션 계층에서 오류를 감지하고 처리할 수 있습니다.

  • 아파치 기라프

    Giraph는 높은 확장성을 위해 설계된 반복 그래프 처리 시스템입니다. Pregel의 오픈 소스 대응물로 시작했지만 기본 Pregel 모델 외에 여러 기능을 추가합니다. 데이터 과학자는 이를 사용하여 "구조화된 데이터 세트의 잠재력을 대규모로 발휘"합니다.

    마스터 계산, 샤딩된 집계, 에지 지향 입력, 코어 외 계산, 꾸준한 개발 주기 및 성장하는 사용자 커뮤니티가 있습니다.

  • 알고리즘.io

    이 도구는 연결된 장치에서 데이터를 스트리밍하기 위한 서비스로 기계 학습을 제공하는 LumenData Company입니다. 이 도구는 원시 데이터를 실시간 통찰력 및 실행 가능한 이벤트로 변환하여 기업이 스트리밍 데이터를 위한 기계 학습을 배포할 수 있는 더 나은 위치에 있도록 합니다.

    연결된 장치로 작업하는 회사와 개발자가 기계 학습에 액세스할 수 있도록 하는 프로세스를 단순화합니다. 클라우드 플랫폼은 또한 머신 데이터를 배포할 때 발생하는 인프라, 규모 및 보안과 관련된 일반적인 문제를 해결합니다.

  • 트라이팩타

    Trifacta는 데이터 랭글링 및 데이터 준비를 위한 세 가지 제품을 제공합니다. 데스크톱 파일을 함께 탐색, 변환, 정리 및 결합하는 데 도움이 되므로 개인, 팀 및 조직에서 사용할 수 있습니다. 데이터 준비를 위한 고급 셀프 서비스 플랫폼입니다.

  • 알테릭스

    이것은 또 다른 훌륭한 데이터 과학 도구입니다. 데이터를 검색, 준비 및 분석할 수 있는 플랫폼을 제공합니다. 또한 분석을 대규모로 배포하고 공유하여 더 깊은 통찰력을 찾는 데 도움이 됩니다. 이를 통해 데이터를 검색하고 조직 전체에서 협업할 수 있습니다.

    또한 모델을 준비하고 분석하는 기능도 있습니다. Alteryx를 사용하면 사용자, 워크플로 및 데이터 자산을 중앙에서 관리하고 R, Python 및 Alteryx 모델을 프로세스에 포함할 수 있습니다.

  • H2O.ai

    130,000명의 데이터 과학자와 약 14,000개의 조직이 있는 H20.ai 커뮤니티는 빠른 속도로 성장하고 있습니다. H20.ai는 데이터 모델링을 더 쉽게 만드는 것을 목표로 하는 오픈 소스 도구입니다.

    일반화 선형 모델(GLM), 분류 알고리즘, 기계 학습 부스팅 등을 포함한 대부분의 기계 학습 알고리즘을 구현할 수 있습니다. 딥 러닝을 지원하고 Apache Hadoop과 통합하여 방대한 양의 데이터를 처리하고 분석할 수 있도록 지원합니다.

  • Tableau

    이 도구는 시장에서 가장 많이 사용되는 데이터 시각화 도구입니다. 형식이 지정되지 않은 원시 데이터를 처리 가능하고 이해할 수 있는 형식으로 분해하는 데 액세스할 수 있습니다. Tableau를 사용하여 만든 시각화는 예측 변수 간의 종속성을 쉽게 이해하는 데 도움이 됩니다.

    이러한 도구는 매우 기능적이고 효과적이므로 작업에 포함하고 엄청난 변화를 목격하지 않겠습니까?

기타 유용한 리소스:

데이터 과학의 미래를 형성하는 6가지 큰 요인

제휴 마케팅의 사기 탐지 뒤에 숨겨진 데이터 과학