pixel
Cloud Insight

클라우드 규모의 분석 101: 5장 구성 요소

By 2021년 1월 6일 1월 29th, 2021 No Comments

“분석”은 기술 분야는 물론 주요 비즈니스 분야에서도 반복적으로 들리고, 수많은 비즈니스 대화 상황에서 자주 언급됩니다.
하지만 분석의 의미는 무엇이고, 귀사와 같은 기업에는 어떻게 도움이 될까요?

분석의 의미와 용도에 대한 공통의 이해를 다지는 것은 오늘날 비즈니스 성공에 매우 중요합니다.
분석을 통해 조직은 끊임없는 개선이 요구되는 시대에 선제적 운영 모드로 전환할 수 있습니다.

구성 요소

클라우드 규모의 분석에 사용되는 특정 구성 요소에 대해 알아봅니다.
이러한 각 구성 요소를 간단히 설명하고 Azure 클라우드 플랫폼과 Microsoft의 온-프레미스 엔터프라이즈 소프트웨어 스택에서 해당 기능을 제공하는 제품을 확인합니다.

분석 시스템에는 가장 중요한 비즈니스 데이터가 포함되어 있습니다.

한계를 모르는 데이터 웨어하우스 솔루션

데이터 웨어하우스는 관계형 데이터베이스 기술을 사용하여 리포지토리를 구현하면서 대용량 데이터를 처리하도록 구축된 분석 관련 데이터베이스입니다. 요즘 대부분의 데이터 웨어하우스 제품은 다음 세 가지 기술을 조합하여 사용합니다.

  • 열 형식 스토리지
  • MPP(대량 병렬 처리) – 클러스터형 병렬 수평 확장 기술
  • 벡터 처리 – 각 서버의 중앙 처리 장치(CPU) 코어가 한 번에 하나씩이 아니라 한 번에 여러 숫자 데이터 값을 처리할 수 있도록 합니다. 여기에는 대개 특별한 SIMD(“Single Input Multiple Data”) CPU 명령을 사용합니다.

Azure Synapse Analytics

노드를 제거하는 것처럼 Azure Synapse Analytics 클러스터에 노드를 추가하는 것은 쉽습니다. 이러한 탄력성을 통해 Azure Synapse Analytics는 바쁜 시간대에 따라잡기 위해 필요한 경우 노드를 추가하고 워크로드 요구 사항이 줄어들면 노드를 삭제하여 고객의 즉각적인 요구를 수용할 수 있습니다. 필요에 따라 스토리지를 추가할 수도 있습니다. 컴퓨팅 성능과 스토리지는 모두 독립적으로 확장 가능합니다.

Microsoft 분석 플랫폼 시스템(APS)은 제품 포트폴리오의 온-프레미스 측에 속하며 이전에는 SQL Server 병렬 데이터 웨어하우스(PDW)라고 불렀습니다. Azure Synapse Analytics와 동일한 많은 기능을 지원하지만 SSD 캐싱 계층이 부족하며 물리적 어플라이언스를 기반으로 하는 경우 Synapse Analytics보다 더 정적으로 크기가 조정됩니다.

Microsoft 분석 플랫폼 시스템(APS)은 제품 포트폴리오의 온-프레미스 측에 속하며 이전에는 SQL Server 병렬 데이터 웨어하우스(PDW)라고 불렀습니다. Azure Synapse Analytics와 동일한 많은 기능을 지원하지만 SSD 캐싱 계층이 부족하며 물리적 어플라이언스를 기반으로 하는 경우 Synapse Analytics보다 더 정적으로 크기가 조정됩니다.

이 탄력성을 통해 Azure Synapse Analytics는 고객의 즉각적인 요구를 수용할 수 있습니다.

Azure Synapse Analytics(Synapse Analytics)는 데이터 웨어하우스 범주에서 Microsoft의 클라우드 도전자로, 최근 독립적으로 수행된 벤치마크에서 가격 및 성능 경쟁에서 극적으로 이겼습니다.

Azure Synapse Analytics 는 OLTP 지향 Azure SQL Database(및 온-프레미스 SQL Server 제품)의 기본이 되는 동일한 기술을 기반으로 하지만, MPP 아키텍처를 준수하고, columnstore 인덱스라는 기능을 통해 열 형식 스토리지를 제공하고, 일괄 처리 모드 기능을 통해 벡터 처리를 구현합니다. 또한 기본 클라우드 스토리지 지속성 계층 위에 SSD(Solid State Drive) 스토리지 캐싱 계층을 사용하여 성능을 강화합니다.

조직은 HDInsight 를 사용하여 Data Lake 최적점을 이용할 수 있습니다.

Azure Synapse Analytics는 클라우드 규모의 분석 기능에서 제공하는 강력한 힘을 효과적으로 보여 줍니다.

Synapse Analytics는 탄력성, 기본 제공 보안 및 데이터 마스킹 개인정보 보호 기능과 광범위한 SQL Server 에코시스템의 멤버십 외에도, 모든 컴퓨팅 리소스를 일시 중지하고 다시 시작할 수 있는 기능을 갖추고 있어 상당한 경제적 효율성을 제공합니다. 따라서 컴퓨팅 중심 비용을 때로 크게 줄일 수 있으며, 동시에 내구성이 뛰어난 클라우드 스토리지의 경제성으로 인해 데이터 손실이 발생하지 않습니다.

Azure Synapse Analytics는 잘 구성되고 부분적으로 요약되며 전체 엔터프라이즈와 관련된 대량의 데이터에 대한 분석 워크로드에서 탁월합니다. 그러나 Synapse Analytics의 다기능성은 이러한 표준 DW 워크로드를 넘어 확장됩니다. 예를 들어 Analytics는 JSON(또는 XML)으로 서식이 지정된 반구조적 데이터를 처리할 수도 있습니다. 또한 Synapse Analytics로 “건초더미에서 바늘 찾기”를 수행하여 트랜잭션 레코드를 찾아내도록 하는 새로운 인덱싱 기능을 통해 흔히 OLTP 데이터베이스와 연결되어 있는 세분화된 데이터를 처리할 수 있습니다.

그 밖에도 Synapse Analytics의 새로운 기능으로 다양한 SLA에 따라 여러 클러스터에 걸쳐 여러 워크로드를 Synapse Analytics 인스턴스 하나로 구현하도록 함으로써 데이터 웨어하우스 및 데이터 마트 요구 사항을 모두 충족시키는 플랫폼으로 만들 수 있습니다.

Data Lake 기술

디스크의 파일이 진정한 데이터 출처입니다. Data Lake를 사용하면 CSV와 같은 형식을 사용하거나 Apache Parquet라는 매우 인기 있는 최신 열 형식을 사용하여 파일 형식으로 데이터를 남길 수 있습니다.

Azure Databricks 및 Azure HDInsight는 스트리밍 빅 데이터 분석, 데이터 엔지니어링, 머신 러닝 및 스트리밍 데이터 처리를 비롯한 수많은 워크로드가 가능한 수평 확장 Data Lake 플랫폼입니다. Azure Databricks는 Apache Spark를 기반으로 합니다. 이 제품은 Databricks(Spark의 제작자가 설립한 회사)에서 개발했지만, Microsoft의 자사 서비스로 제공되고 지원됩니다.

Azure HDInsight

Azure HDInsight는 Apache Hadoop과 YARN 클러스터 리소스 관리자를 사용하여 SQL 액세스를 위한 Apache Hive, 데이터 변환을 위한 Pig, NoSQL 워크로드를 위한 HBase, 스트리밍 데이터 처리를 위한 Storm 및 Kafka 등 다양한 오픈 소스 분석 프로젝트를 호스팅합니다. 이와 함께 데이터 과학 및 AI를 위한 Microsoft Machine Learning 서비스를 제공하며, Apache Spark 의 오픈 소스 구현을 호스팅합니다.

BI(비즈니스 인텔리전스) 를 사용하면 다양한 데이터를 빠르게 분석할 수 있습니다.

 

Data Lake라면 HDInsight 애플리케이션 플랫폼과 함께 에코시스템의 장점도 활용할 수 있습니다. 이 장에서는 이러한 에코시스템 파트너 프로그램으로 타사 제품 및 서비스를 통합하여 HDInsight 기반의 Data Lake를 더욱 강력하게 만드는 사례를 소개합니다.

조직은 HDInsight를 사용하여 클라우드 스토리지에 보관된 데이터 집합의 배열을 구성하고 분석하기 위해 하나 또는 조합된 기술을 선택할 수 있습니다. HADoop, Spark, Hive, Kafka, HBase 및 기타 오픈 소스 엔진의 조합으로 HDInsight는 대량의 반구조화된 데이터에 대한 애자일 분석을 위한 완벽한 플랫폼이 됩니다.

Azure Databricks

Azure Databricks는 Spark를 가장 빠르게 구현하여 비구조화 데이터 및 반구조화 데이터에 대해 데이터 엔지니어링, 스트리밍 데이터 처리, 데이터 분석 및 머신 러닝 워크로드 조합을 믹스 앤 매치 방식으로 수행하고자 하는 고객에게 환상적인 플랫폼입니다. 온-프레미스 데이터센터의 세계에서 곧 출시될 SQL Server 2019는 Hadoop, Spark 및 SQL Server 자체의 조합을 기반으로 자체 Data Lake/빅 데이터 솔루션을 제공할 예정입니다.

SQL Server가 Apache Spark와 동일한 Hadoop 분산 파일 시스템 스토리지 계층에서 동일한 데이터를 쿼리할 수 있도록 허용함으로써 Microsoft는 Data Lake Analytics를 수행할 처리 엔진과 패러다임에 대한 모든 선택권을 제공합니다.

비즈니스 인텔리전스

BI(비즈니스 인텔리전스)를 사용하면 다양한 데이터를 빠르게 분석할 수 있으며, 대부분의 데이터를 구조화할 수 있습니다. BI 플랫폼은 측정값 및 차원으로 구성된 데이터를 중심으로 열 형식 스토리지 리포지토리를 구축하고 신속하게 분석할 수 있습니다. 일부 BI 시스템은 데이터 시각화, 보고서 및 대시보드에 중점을 두는 반면, 다른 시스템은 분석 쿼리에 최적화된 선별된 백 엔드 리포지토리에 중점을 둡니다. 일부 플랫폼은 두 가지 모두에 중점을 둡니다.

Power BI는 개인, 팀 및 엔터프라이즈 차원의 데이터 시각화 및 탐색을 위한 다목적 플랫폼입니다.

Microsoft Power BI

Microsoft Power BI는 업계 최고의 데이터 시각화와 어지러울 정도로 많은 데이터 커넥터 배열을 제공하여 번개같이 빠른 인메모리 쿼리 성능에 적합한 BI 모델을 구성할 수 있도록 합니다. Power BI Desktop은 무료 최종 사용자 애플리케이션이지만, 플랫폼은 Power BI 클라우드 서비스와 결합할 때 가장 잘 작동합니다. 후자는 각각 개인, 부서 또는 엔터프라이즈 기능을 제공하는 무료, 전문가 또는 프리미엄의 세 가지 구독 유형으로 제공됩니다. 프리미엄 구독을 통해 구독자는 전용 인프라를 확보하고 여러 서버와 무제한 소비 사용자로 확장할 수 있습니다.

Power BI 엔진은 온-프레미스 SQL Server Analysis Services 플랫폼 또는 독립 실행형 클라우드 서비스인 Azure Analysis Services에 있는 기술을 기반으로 합니다. Power BI와 Azure Analysis Services는 OLAP(온라인 분석 처리) 기술을 기반으로 하는 이전 다차원 모드가 아니라 Analysis Services의 최신 테이블 형식 모드인 열 형식 BI 엔진에 중점을 둡니다. SQL Server Analysis Services 플랫폼은 두 모드를 모두 지원합니다. 또한 엔진 기술이 일반적이기 때문에 두 모드 모두에 내장된 모델을 Power BI로 쿼리할 수 있으므로 클라우드 기반 BI 보고서 및 대시보드와 온-프레미스 BI 백 엔드 인프라의 강력한 하이브리드 솔루션을 사용할 수 있습니다.

Power BI는 많은 데이터 출처 커넥터에서 사용할 수 있는 DirectQuery라는 기술을 사용하여 분석 시간에 백 엔드 데이터 출처에 대한 직접 연결을 지원하는 데 탁월합니다. 사용자가 DirectQuery 또는 표준 가져오기 모델을 오랫동안 선택해 온 반면, Power BI는 이제 사용자가 믹스 앤 매치할 수 있도록 복합 모델 옵션을 제공합니다. 특히 Azure Synapse Analytics, HDInsight 및 Databricks 등 앞서 소개한 플랫폼과 함께 잘 작동하며, 여기서 집계된 데이터를 복합 모델의 가져오기 부분에 보관할 수 있고 이러한 시스템이 관리하는 방대한 세부 정보 데이터는 DirectQuery를 통해 쿼리 및 집계할 수 있습니다.

Power BI는 개인, 팀 및 엔터프라이즈 차원의 데이터 시각화 및 탐색을 위한 다목적 플랫폼입니다. Synapse Analytics 및 HDInsight의 데이터뿐만 아니라 Azure Storage의 원시 데이터(Blob Storage 및 Azure Data Lake Storage – 아래 세부 정보) 및 Azure SQL DB 및 SQL Server의 트랜잭션 데이터와도 매우 잘 어울립니다. 실제로 Power BI는 클라우드와 온-프레미스 모두에서 거의 모든 Microsoft 데이터 플랫폼 기술의 데이터와 Microsoft를 제외한 수많은 데이터 출처에 연결할 수 있습니다.

워크로드 유연성, 하이브리드 통합 기능 및 에코시스템 파워를 활용하는 클라우드 규모 분석만이 이 모든 것을 실현할 수 있습니다.

 

데이터 가상화 및 하이브리드화 기술

Power BI에서 가져오기, DirectQuery 또는 복합 모델 중 무엇을 사용할지 결정하려면 이 eBook의 시작 부분에서 다룬 사일로화된 데이터의 분석을 위한 병합 및 규정 준수 개념을 고려해야 합니다. 그러한 병합 과정이 데이터의 물리적 이동을 나타내는 것처럼 보일 수 있지만, 반드시 그런 것은 아닙니다. Power BI DirectQuery에서 볼 수 있듯이, 데이터를 그 자리에 둔 채로 마치 로컬에 있는 것처럼 논리적으로 처리할 수 있는 다른 기술도 있습니다.

이러한 기술은 데이터 가상화의 범주에 속하며, 매우 유용하기 때문에 인기가 높아지고 있습니다. 데이터 볼륨이 증가하고 데이터의 출처 수도 늘어남에 따라 모든 출처로부터의 물리적 데이터 이동 및 변환이 금지됩니다. 선택한 데이터의 물리적 이동은 성능을 크게 향상시킬 수 있지만, 가상화된 데이터 기준부터 시작하면 시간과 비용이 절약됩니다. 또한 데이터 가상화 플랫폼은 역할 기반 액세스를 관리하는 한편 개별 데이터 출처의 액세스 제어 규정을 준수할 수 있으므로 보안 및 개인정보 보호를 보장할 수 있는 좋은 방법입니다. 데이터를 그 자리에 두기 때문에 데이터 출처의 보안도 그대로 유지됩니다.

PolyBase 기술

Microsoft의 PolyBase 기술은 Azure Synapse Analytics는 물론 온-프레미스 SQL Server 및 분석 플랫폼 시스템에 대한 데이터 가상화 서비스를 제공합니다. 이 서비스는 메타데이터를 로컬에 두고 실제 데이터는 출처에 그대로 남겨 두는 외부 테이블을 지원합니다. 그러나 이 데이터베이스로 작업하는 개발자는 외부 테이블과 표준 테이블을 동등하게 취급할 수 있으며, 각 유형의 테이블을 쿼리 하나에 조인할 수도 있습니다. PolyBase 는 Azure Blob Storage 및 Azure Data Lake Storage의 데이터를 Synapse Analytics, SQL Server 및 APS에 논리적으로 통합하여 T-SQL(Transact SQL) 언어로 해당 데이터의 쿼리를 가능하게 하는 좋은 방법입니다.

PolyBase는 또한 Cloudera 및 Hortonworks Hadoop 클러스터에서 작동하며, 곧 Oracle, Teradata, MongoDB 및 기타 SQL Server 인스턴스는 물론 ODBC 호환 데이터 출처에 대해서도 작동할 예정입니다. Azure Data Lake Analytics 는 PolyBase 외에도 Azure Blob Storage 및 ADLS의 데이터를 통해 직접 SQL 쿼리 인터페이스를 제공합니다. 또한 HDInsight 애플리케이션

클라우드 개체 스토리지 및 사내 데이터센터 (on-Premises) 분산 스토리지와 결합하여 이러한 파일 또는 파일 그룹이 기본 Data Lake의 토대를 형성할 수 있습니다.

플랫폼은 자체 데이터 가상화 플랫폼에 MPP 쿼리 엔진을 인터페이스로 제공하는 Starburst Presto와 같은 타사 솔루션을 사용할 수 있습니다.
SQL Server, Azure SQL DB 및/또는 Synapse Analytics에서 팀의 T-SQL 기술을 활용하고 외부 데이터를 데이터베이스 또는 웨어하우스에 저장된 데이터와 결합하면서 Lake에서 데이터를 분석하려는 경우 PolyBase를 사용합니다.
워크로드 유연성, 하이브리드 통합 기능 및 에코시스템 파워를 활용하는 클라우드 규모 분석만이 이 모든 것을 실현할 수 있습니다.

스토리지도 클라우드 규모의 기술입니다.

Microsoft의 Azure Data Lake Storage(Azure Blob Storage를 기반으로 하는 ADLS)는 Data Lake를 위한 훌륭한 매체입니다. 임의로 큰 크기의 파일을 처리하도록 제작되었으며 진정한 계층적(폴더 기반) 파일 시스템을 지원합니다. 동일한 폴더 또는 폴더 하위 폴더 계층 구조에 저장된 대규모 파일 그룹이 단일 데이터 집합으로 처리되어야 하는 경우가 많기 때문에 Data Lake 세계에서는 매우 중요합니다. ADLS에서 지원되는 폴더 수준 작업은 이를 용이하게 합니다.

컴퓨터(예: 하드 디스크 또는 Solid State Drive)의 기존 스토리지에 익숙하며 많은 사람들이 공유 엔터프라이즈 스토리지에 익숙합니다. 그러나 이제 데이터, 스토리지 및 클라우드 세계가 개체 스토리지와 분산 스토리지라는 두 가지 트렌드를 주도하도록 조정되었습니다.

개체 스토리지

개체 스토리지는 클라우드에서 게임의 이름입니다. 컨테이너 패러다임은 특정 시점의 요구에 따라 완전히 탄력적인 경제적 스토리지의 개념을 사용자에게 숙지시켰습니다. Azure Blob Storage는 Microsoft의 클라우드 개체 스토리지 제품입니다. 앞서 살펴본 바와 같이 ADLS는 개별 파일, 컨테이너 및 계정의 크기 제한을 초월하고 폴더별 작업을 지원하는 계층적 파일 시스템 서비스를 제공하기 위해 그 위에 빌드됩니다.

분산 스토리지

Hadoop 분산 파일 시스템(HDFS)은 클러스터의 각 서버에서 기존의 디스크를 집계하여 논리적으로 통합되었지만 물리적으로 분산된 파일 시스템을 형성함으로써 온-프레미스 세계에서 비슷한 것을 제공합니다. 클라우드 개체 스토리지와 마찬가지로 HDFS는 탄력적인 확장성을 지원합니다. 또한 클러스터에서 하나의 노드 실패로 데이터 손실이 발생하지 않도록 관리하는 파일의 여러 복제본을 유지 관리하여 내결함성 및 복원력을 지원합니다. 이것이 바로 온-프레미스에서 작동할 수 있는 SQL Server 2019 빅 데이터 클러스터가 스토리지 풀에서 HDFS를 활용하는 이유입니다

ADLS는 Microsoft 고급 분석 스택의 대부분의 구성 요소 간의 공통 스레드입니다.

 

CSV와 같은 간단한 파일 형식은 Data Lake 시나리오에서 사용할 수 있습니다. 클라우드 개체 스토리지 및 온-프레미스 분산 스토리지와 결합하여 이러한 파일 또는 파일 그룹이 기본 Data Lake의 토대를 형성할 수 있습니다.

Parquet

Data Lake 패러다임이 매력적인 진짜 이유는 단순한 “플랫” 파일 스토리지를 넘어 분석 쿼리 시나리오에 최적화된 보다 정교한 파일 형식으로 작업할 수 있기 때문입니다. 앞서 Parquet 파일 형식에 대해 잠깐 언급했습니다. Parquet 파일은 바닥 타일의 나무 칸막이처럼 데이터를 열 형식으로 저장합니다. 보통 열 형식 스토리지는 데이터 웨어하우스 및 BI 기술의 영역이라고 생각하지만, Parquet는 이 데이터베이스 엔진 기술의 상당 부분을 스토리지 및 Data Lake로 가져옵니다. 그 과정에서 Data Lake와 데이터 웨어하우스 플랫폼 간의 구분(기술적 관점)이 약간 흐려지고, Data Lake에 더 유리하게 됩니다.

Parquet 열 형식뿐만 아니라 파일 및 폴더 수준에서 매우 세분화된 분할을 지원하므로 특정 분석 쿼리(예: 특정 기간을 기반으로 하는 쿼리)를 훨씬 더 효율적으로 만들 수 있습니다. Spark, Hive 및 Databricks Delta는 기본적으로 Parquet 파일을 읽을 수 있으므로 이 형식은 Azure Databricks 및 HDInsight 에 특히 적합합니다. SQL Server 2019 데이터베이스 엔진은 Parquet 파일 형식과 플랫폼 수준 호환성을 가지므로 관계형 데이터베이스에 숙련된 전문가에게도 적합합니다.

ADLS와 Parquet의 조합은 데이터 볼륨이 크거나 증가할 것으로 예상되고 다양한 서비스에서 모든 데이터에 액세스하려는 경우 완벽한 스토리지 솔루션입니다. ADLS는 Azure Databricks, HDInsight, Azure Data Factory 및 Power BI를 포함하여 Microsoft 고급 분석 스택의 대부분의 구성 요소 간의 공통 스레드입니다. ADLS의 데이터의 경우, 그러한 서비스 및 다른 서비스 중 하나 또는 그 조합으로 데이터를 처리할 수 있습니다.

데이터를 관리하고 보호하여 적절한 권한이 있는 사람만 중요한 데이터를 볼 수 있도록 합니다.

데이터 통합

데이터 가상화 기술은 편리하고 간결하지만, 규정을 준수하고 다른 출처의 데이터와 제대로 통합하기 위해서 적어도 일부 데이터는 물리적으로 변환해야 합니다. 이 변환 작업을 수행하려면 데이터 엔지니어링, 데이터 준비 및 데이터 파이프라인 기술을 사용해야 합니다.

PowerBI.

Microsoft 스택에는 그러한 기술이 다양하게 구비되어 있습니다. Power BI Desktop의 기본 제공 파워 쿼리 도구는 정교한 데이터 준비 및 프로파일링 기능을 제공합니다. Power BI Premium의 새로운 기능인 Power BI 데이터 흐름은 PowerQuery의 많은 기능(“M”이라는 기본 프로그래밍 언어 포함)을 클라우드에 포팅합니다.Azure Data Factory 및 Databricks. Azure 플랫폼에서 Azure Data Factory 는 정교한 데이터 파이프라이닝 기능을 제공합니다. 또한 Spark는 매우 정교한 데이터 엔지니어링 작업에 매우 적합하기 때문에 Azure Databricks 는 데이터 통합을 위한 훌륭한 플랫폼입니다.

HDInsight.

HDInsight는 몇 가지 이유로 이러한 목적으로도 잘 작동합니다. HDInsight는 Spark를 지원하여 해당 플랫폼의 데이터 엔지니어링 정교함을 제공합니다. 그러나 HDInsight는 “Pig Latin” 언어와 함께 데이터 변환을 위해 특별히 고안된 Apache Pig를 포함한 여러 플랫폼을 지원합니다. 또한 HDInsight 애플리케이션 플랫폼은 Trifacta 및 Datameer와 같은 타사 데이터 준비 및 데이터 엔지니어링 제품을 지원하여 에코시스템의 힘을 한 번 더 작동시킵니다.

Azure Data Factory.

Azure Data Factory(ADF)는 ETL(추출 변환 및 로드), 추출 로드 및 변환(ELT) 또는 간단한 데이터 수집 및 이동 등 모든 유형의 데이터 처리 기능에 적합합니다. Mapping Data Flows와 Wrangling Data Flows를 추가하면 ADF가 Azure Databricks에서 데이터 엔지니어링 워크로드를 실행하기 위한 코드가 없거나 코드가 적은 플랫폼이 될 수 있습니다.

HDInsight는 데이터 통합 작업을 위한 코드를 작성하고 그러한 접근 방식과 함께 제공되는 기능을 활용하고자 하는 사람들을 위한 Data Lake 사용 사례의 훌륭한 솔루션입니다. Databricks는 머신 러닝 애플리케이션을 위한 데이터 통합 파이프라인을 구현하는 이상적인 플랫폼을 제공합니다.

Azure Data Catalog 는 현재 거버넌스 분야에서 기준 기능을 제공합니다.

Data Catalog 및 거버넌스

데이터 큐레이션 및 거버넌스 주제를 다루겠습니다. 이 분석 영역의 기술은 두 가지 방식으로 도움이 됩니다. 데이터 환경 전반에 걸쳐 모든 것을 카탈로그화하여 데이터 웨어하우스, 특히 탐색하기 어려운 Data Lake에서 데이터를 훨씬 더 쉽게 찾을 수 있도록 합니다. 또한 데이터 거버넌스 도구를 사용하면 데이터를 관리하고 보호하여 적절한 권한이 있는 사람만 중요한 데이터를 볼 수 있도록 합니다.

Azure Data Catalog는 현재 거버넌스 분야에서 기준 기능을 제공합니다. 데이터 집합의 메타데이터를 추적하고 검색할 수 있으므로 팀원들이 작업에 필요한 데이터를 보다 쉽게 찾을 수 있습니다. 또한 Azure Data Catalog를 사용하면 데이터 집합 및 열에 “태그”를 지정할 수 있으며, 기본적으로 키워드를 할당하여 더 쉽게 검색할 수 있습니다.

HDInsight 애플리케이션 플랫폼을 통해 Waterline Data 및 Unifi와 같은 타사 제품을 사용하여 개인 식별 정보(PII)의 자동 식별, 데이터 분류 및 머신 러닝 기반 태그 지정 자동화를 포함한 거버넌스 요구를 충족할 수 있습니다. 여기서는 Azure 클라우드 플랫폼에서 핵심 기능과 여러 고급 기능을 가져온 다음, 맨 위에 에코 시스템 솔루션을 통합하여 상황에 꼭 맞는 사용자 지정 솔루션을 완성하는 방법을 다시 살펴봅니다.

실제 의미

이러한 구성 요소를 포괄적으로 이해하면 해당 조직에 알맞은 구현을 지원하고 클라우드 규모 분석의 힘을 활용하여 최신 데이터 웨어하우스 및 실시간 분석을 실현할 수 있습니다.

Secured By miniOrange