[컴퓨터월드] 국내·외 데이터 산업계가 데이터 저장·관리의 혁신을 맞이하고 있다. 그동안 데이터 웨어하우스(DW, Data Warehouse)와 데이터 레이크(DL, Data Lake)를 이용해 데이터를 관리해 온 기업들이 유지·관리의 어려움을 해결할 방안으로 데이터 웨어하우스와 데이터 레이크의 장점을 결합한 ‘데이터 레이크하우스(Data Lakehouse)’에 주목하고 있는 것이다.저렴한 비용과 고도화된 관리 기능 갖춰 데이터 관리 혁신으로 부상
데이터 기술의 핵심축, 데이터 웨어하우스와 레이크
1980년대 후반은 데이터 웨어하우스의 시대라고 해도 과언이 아니었다. 비즈니스의 의사결정을 돕기 위해 사용되는 데이터 웨어하우스는 여러 데이터베이스(DB)에 있는 데이터를 통합한 정형 데이터 분석 시스템으로 오랫동안 기업의 BI(Bussiness Intelligence) 프로세스에서 핵심적인 부분을 담당했다. 개별 시스템에 종속된 DB와 달리 목적과 필요에 따라 특정한 데이터들을 통합하고 정제해 목적에 맞게 활용할 수 있기 때문이다.
여러 곳에 산재된 데이터를 찾아 하나로 통합하는 작업에 많은 인력과 시간, 비용이 투입됐다. 전통적인 BI 프로세스에서는 데이터 웨어하우스 구축에만 약 80%의 시간과 비용이 들어갔다. 하지만 당시에는 데이터 웨어하우스만큼 효과적인 데이터 관리 방법론이 없었기 때문에 많은 기업들이 데이터 웨어하우스 구축에 너도나도 뛰어들었다.
그러나 2000년대 후반에 들어서면서 데이터 웨어하우스로는 대응할 수 없는 문제들이 나타나기 시작했다. 가장 큰 문제는 기업의 데이터의 양과 종류가 기하급수적으로 증가하고 있다는 점이었다. 기업의 데이터가 모두 유용한 가치를 갖고 있는 것이 아니었다. 구축에 엄청난 비용이 들어가는 데이터 웨어하우스에 마냥 투자를 할 수도, 그렇다고 데이터를 그대로 방치할 수도 없는 애매한 상황에 직면하게 됐다. 데이터웨어 하우스는 특히 조직 내 데이터가 특정 부서에서만 공유되고 타 부서에서는 접근할 수 없는 ‘사일로(Silo)’도 발생하기도 했다.
이를 해결할 수 있는 방안으로 떠오른 것이 바로 데이터 레이크다. 데이터 레이크는 다양한 환경에서 수집한 데이터를 가공되지 않은 원래의 형태, 즉 로우 데이터(Raw Data)로 저장 및 공유하는 공통 데이터 저장소를 의미한다. 정형, 비정형, 반정형 데이터 등 모든 데이터가 흘러드는 호수와 같다고 하여 데이터 레이크로 불린다.
데이터 저장 변천 (출처: 스노우플레이크)
특히 데이터를 저장하는 과정에서 별다른 처리를 하지 않기 때문에 빠르게 증가하는 데이터들을 쉽게 그리고 신속하게 저장할 수 있었다. 또한 데이터를 저장할 때 스키마를 정의하지 않고(Schema less) 우선 모아두었다가, 필요한 데이터를 가져올 때 스미카를 정의한다(Schema on read)는 점에서 매우 효율적이었다. 데이터 웨어하우스의 경우 데이터를 저장할 때 특정 스키마를 정의한다.
데이터 웨어하우스는 별도의 전용 시스템을 요구하지만, 데이터 레이크는 범용 하드웨어(HW) 장비로 구축이 가능해 시간과 비용을 모두 절약할 수 있다.
클루커스 심종성 컨설턴트는 “데이터 레이크는 데이터를 모으는 곳, 데이터 웨어하우스는 데이터를 깔끔하게 정리하는 곳”이라는 말로 두 기술의 차이점을 정리했다.
사실 지난 10년간 데이터에 대한 기업들의 본질적인 요구는 크게 변하지 않았다. 기하급수적으로 늘어나고 있는 다양한 데이터를 저장하고 통합해 분석하면서 유용한 인사이트를 찾아내는 것이었다. 대부분 기업들은 목적에 맞게 구축한 여러 개의 데이터 웨어하우스와 모든 데이터를 날것 그대로 모아두는 데이터 레이크라는 두 가지 체계를 동시에 운영하고 있는 이유다. 그러나 데이터 웨어하우스와 데이터 레이크는 사용자들을 충분히 만족시키기 어려웠다.
복잡하고 관리 어려운 이중 데이터 아키텍처
데이터 웨어하우스와 데이터 레이크는 모두 뚜렷한 장점을 갖고 있다. 반면 단점도 명확했다. 데이터 레이크는 폭발적으로 늘어나는 데이터들을 빠르게 수집하는 데에는 유리하지만, 원천 데이터를 그대로 저장하다 보니 이를 활용하는 데에는 문제가 있을 수밖에 없었다.
또 데이터 레이크에 저장된 데이터는 로우 데이터로 가공하는 데 많은 시간과 기술이 필요하다. 특히 데이터가 분류되지 않았을 경우 원하는 데이터를 찾는 데에만 많은 시간이 소요된다.
사용자가 원천 데이터를 다룰 수 있을 정도의 역량을 보유하지 못했거나 원천 데이터를 목적에 맞게 가공하는 데에 너무 많은 시간이 소요된다면 데이터 레이크는 잘못된 선택일 수밖에 없다. 이 경우 데이터 레이크는 그저 데이터만 모아 놓은 데이터 쓰레기장, 데이터 늪(Swamp)이 되기도 한다.
아울러 데이터 레이크는 주로 데이터의 저장을 목적으로 하며, 원시 데이터를 그대로 저장하기 때문에 메타데이터 관리 측면에서 어려움이 있을 수 있다. 데이터의 출처, 형식, 업데이트 빈도 등에 대한 정보 부족으로 인해 데이터 검색과 신뢰성이 감소할 수 있고 데이터에 대한 접근 역시 힘들다.
데이터 웨어하우스는 데이터 사용에는 장점이 있지만 데이터 저장에 많은 공수가 들어간다. 데이터 웨어하우스의 경우 실시간으로 생성되는 데이터들을 활용할 수 없고, 정형 데이터에 최적화돼 있어서 최신 트렌드인 머신러닝이 요구하는 비정형 데이터 처리에는 적합하지 않다.
또한 대량의 데이터 저장과 관련해 비용 효율적이지도 않다. 많은 시간과 비용이 들어갔음에도 데이터 웨어하우스는 당초 예상했던 일 외에 다른 용도로 사용하기 어렵다. 설계 과정에서 필요한 데이터만을 선택적으로 통합하기 때문에 처음에 의도한 것 이상의 가치를 얻어내기 어렵다. 새로운 분석 요구가 발생할 때마다 그에 맞는 새로운 데이터 웨어하우스를 구축해 사용해야 한다. 데이터 웨어하우스의 숫자가 늘어날수록 데이터 아키텍처가 복잡해지고 운영 비용이 증가하는 것도 이런 이유 때문이다.
데이터 웨어하우스와 데이터 레이크를 사용할 경우 관리자 입장에서도 큰 부담이다. 데이터 레이크에서 원하는 데이터를 찾아 이를 데이터 웨어하우스 등으로 복제해 사용할 경우 적지 않은 비용이 들고 같은 데이터를 이중으로 저장하게 되면서 관리 포인트가 복잡해지는 문제가 발생한다. 한 번 구축한 데이터 웨어하우스를 쓸모없게 만들지 않으려면 지속적으로 새로운 데이터를 업데이트해야 하니, 이 또한 비용과 관리 부담으로 작용한다.
데이터브릭스 장정욱 한국지사장은 “데이터 레이크와 데이터 웨어하우스 두 가지의 데이터 플랫폼으로 분산돼 있으면 여러 비효율과 문제점들이 발생하게 된다. 먼저 데이터 관리의 일관성이 부재하고 비효율적인 중복이 발생할 수 있다. 여러 데이터 소스로부터 수집된 데이터가 일부는 데이터 레이크에, 일부는 데이터 웨어하우스에서 관리되고, 분석 필요에 따라 서로 중복 관리되기도 한다. 이는 중복 저장과 변환에 따른 비용 증가는 물론 도출된 KPI가 어느 버전의 데이터에 기반한 것인지 알기 어려운 경우로 이어지기도 한다”고 말했다.
그는 이어 “데이터 거버넌스 측면에서도 문제가 발생한다. 데이터 레이크는 파일 또는 폴더 단위의 데이터 권한 관리가 일반적이다. 하지만 데이터 웨어하우스는 행 또는 컬럼 기반의 엑세스 관리가 가능하다. 이는 한 사용자가 두 시스템을 이용할 때, 데이터 접근 권한의 정밀도를 정확하게 관리할 수 없다는 의미다. 이러한 문제 외에도 두 가지의 서로 다른 데이터 관리 체계를 이용할 경우 일관된 데이터 거버넌스 정책을 유지하기도 쉽지 않다”며 두 플랫폼을 동시에 이용할 때 발생하는 문제점을 짚었다.
또한 장정욱 지사장은 “이외에 협업 측면에서도 어려움이 존재할 수 있다. 기업 경쟁력 향상을 위해서는 데이터 분석을 통한 혁신이 필수적이다. 그러나 데이터 레이크를 이용하는 데이터 과학자와 데이터 웨어하우스를 주로 이용하는 BI 분석가들 사이의 협업은 쉽지 않고 이를 통한 혁신적인 유즈케이스 발굴 또한 기대하기 어렵다. 이 두 집단을 지원하는 데이터 엔지니어의 관점에서도 각기 서로 다른 데이터 시스템을 지원하고 협력하는 것이 쉽지 않다”고 덧붙였다.
장점만 결합한 데이터 레이크하우스
데이터 웨어하우스와 데이터 레이크는 위에서 언급한 것처럼 장점도 있지만 한계도 있다. 데이터 웨어하우스와 데이터 레이크의 장점은 살리면서 한계를 극복하는 방법으로 떠오는 것이 바로 데이터 레이크하우스다. 데이터 레이크하우스의 아키텍처는 데이터 레이크 위에 데이터 웨어하우스 역할을 하는 계층을 통합하는 것이다. 쉽게 말해 단점을 해결하고 장점은 살리는 방법이다. 데이터 레이크하우스는 데이터 웨어하우스가 가진 고품질의 데이터 관리와 구조화 기능을 구현하지만, 이를 별도의 값비싼 데이터 웨어하우스 스토리지가 아닌 데이터 레이크의 유연하고 저렴한 스토리지 위에서 실현한다.
데이터 레이크하우스는 기존에 운영하고 있던 아마존웹서비스(AWS), 마이크로소프트(MS) 애저, 구글 클라우드 등에 구축된 데이터 레이크 계층 위에 새로운 레이크하우스가 운영된다. 데이터는 여전히 데이터 레이크에 저장되기 때문에 저장이 쉽고 저렴한 스토리지 비용 등의 장점을 그대로 유지할 수 있다. 다른 저장소로 데이터를 복제하지 않더라도 데이터 레이크에 있는 원천 데이터를 직접 BI 도구들과 연결할 수 있어, 데이터 웨어하우스의 단점이었던 데이터의 중복 저장이나 최신화가 어렵다는 문제도 해결한다.
데이터 레이크하우스는 데이터 정합성과 일관성이 유지되고 있음을 보장하는 ACID(Atomic, Isolated, Consistent, Durable) 트랜잭션 기능 및 데이터 관리 기능부터 파일 수준으로 저장되는 비정형 데이터들을 ‘아파치 아이스버그(Apache Iceberg)’나 ‘델타 레이크(Delta lake)’ 등을 이용해 논리적 테이블 수준으로 변환해 관리할 수 있는 기능 등을 갖고 있다.
이에 대해 클루커스 심종성 컨설턴트는 “스타(Star) 스키마나 스노우플레이크(Snowflake) 스키마와 같은 주요 스키마들에 대한 지원이 가능하다. 심지어 정형 데이터에만 적용되던 ACID 트랜잭션이나 별도의 제품으로 구현되던 데이터 계보관리 기능을 비정형 데이터에도 모두 적용할 수 있다”면서 “데이터 레이크하우스는 데이터 포맷이나 API 등에서 오픈소스 기반의 개방형 아키텍처로 구축된다”고 말했다.
데이터 레이크하우스의 핵심 기술로는 메타데이터 레이어, 새로운 쿼리 엔진 설계, 데이터 과학 및 머신러닝 도구에 최적화된 오픈 데이터 형식 채용 등이 꼽힌다. 먼저 델타 레이크와 같은 오픈소스 메타데이터 레이어는 ACID 트랜잭션과 같은 데이터 관리 기능을 제공하는 기술이다. 스트리밍 I/O지원, 과거 테이블 버전으로 회귀, 스키마 강제 적용 및 데이터 유효성 검사 등과 같은 기능도 갖고 있다.
다음으로 데이터 레이크하우스를 가능하게 하는 기술로는 바뀐 쿼리 엔진 디자인을 들 수 있다. 과거에는 저렴한 객체 저장소를 사용해 데이터 레이크에 접근하는 속도가 느렸다. 하지만 데이터 레이크하우스는 최신 CPU에서 벡터화돼 실행되기 때문에 고성능 SQL 분석을 가능하게 한다. 마지막으로는 아파치 파케이(Apache Parquet)와 같은 오픈 데이터 형식을 이용한다는 점이다. 파케이와 같은 오픈 데이터 형식은 데이터 과학자와 머신러닝 엔지니어가 액세스할 수 있는 도구인 텐서플로우(Tensorflow), 파이토치(Pytorch) 등과 호환되기 때문에 접근성이 용이하다. 특히 스파크 데이터프레임(Spark Dataframes)은 오픈 데이터 형식에 대한 선언적 인터페이스를 제공해 추가 I/O를 최적화할 수도 있다.
이에 대해 클라우데라코리아 김호중 전무는 “오늘날 많은 빅데이터 프로젝트에서는 컬럼 기반 개방형 데이터 포맷인 파케이가 사용되고 있는데, 특정 언어에 종속되지 않고 대부분의 분산형 쿼리 엔진이나 ETL 도구들이 파케이 포맷을 지원하기 때문에 손쉽게 데이터를 내보내고 공유할 수 있다. 데이터 레이크하우스는 데이터 포맷이나 API 등에서 오픈소스 기반의 개방형 아키텍처로 구축된다. 따라서 상대적으로 단일 기업에 친화적이고 일견 폐쇄적으로 구성되는 데이터 웨어하우스에 비해 다양한 기능들을 효과적으로 사용할 수 있다”고 부연했다.
데이터 인텔리전스 플랫폼으로 데이터 관리 혁신
데이터브릭스는 데이터 레이크하우스를 가장 강조하는 업체 중 하나다. 데이터브릭스는 오픈소스 빅데이터 플랫폼 생태계에서 빼놓을 수 없는 아파치 스파크(Apache Spark)의 창시자가 창업한 기업으로, 데이터 레이크하우스 플랫폼으로 세계 7,000개 이상의 고객을 보유하고 있다. 국내에는 2022년 4월 지사를 설립했다.
데이터브릭스는 현재 비즈니스 전면에 ‘데이터 인텔리전스 플랫폼(Data Intelligence Platform)’을 내세우고 있다. 데이터 인텔리전스 플랫폼은 AI 모델을 사용해 엔터프라이즈 데이터의 시맨틱(Semantics)을 심층적으로 이해함으로써 데이터 관리를 혁신한다. 데이터 인텔리전스 플랫폼은 기업의 모든 데이터를 쿼리하고 관리하는 통합 시스템인 레이크하우스를 기반으로 구축되지만, 데이터(콘텐츠 및 메타데이터)와 데이터 사용 방식(쿼리, 보고서, 계보 등)을 자동으로 분석해 필요에 따라 새로운 기능을 추가할 수 있다.
데이터브릭스의 데이터 인텔리전스 플랫폼 아키텍처 (출처: 데이터브릭스)
데이터브릭스 장정욱 한국지사장은 “데이터브릭스는 레이크하우스의 기존 기능을 기반으로 데이터와 AI를 아우르는 통합 거버넌스 레이어와 ETL, SQL, 머신러닝 및 BI를 아우르는 단일 통합 쿼리 엔진을 갖춘 데이터 플랫폼을 구축했다. 최근 인수한 모자이크ML(MosaicML)을 통해 플랫폼의 모든 부분을 구동하는 데이터 인텔리전스 엔진인 ‘데이터브릭스IQ(DatabricksIQ)’에서 AI 모델을 생성했다”면서 “데이터 플랫폼은 엔드유저가 접근하거나 데이터 팀이 관리 및 통제하기 어려운 대상이었다. 데이터브릭스의 데이터 인텔리전스 플랫폼은 데이터를 훨씬 더 쉽게 쿼리, 관리 및 제어할 수 있게 지원함으로써 이러한 문제를 해결하고 전반적인 환경을 변화시킬 것으로 기대한다. 데이터 인텔리전스 플랫폼이 데이터와 데이터 사용에 대한 깊은 이해를 갖추고 있다는 점은 데이터를 기반으로 작동하는 엔터프라이즈 AI 애플리케이션의 기반이 될 것이라고 생각한다”고 강조했다.
이어 그는 “오늘날 AI가 SW 업계를 재편함에 따라 데이터와 AI를 깊이 있게 활용해 조직을 강화하는 기업만이 경쟁에서 이길 수 있을 것이다. 데이터 인텔리전스 플랫폼은 이들 조직이 품질, 속도, 민첩성을 갖춘 차세대 데이터 및 AI 애플리케이션을 개발할 수 있도록 지원하는 초석이 될 것”이라고 부연했다.
[클루커스 인터뷰] “데이터 레이크하우스로 단순 저장 아닌 비즈니스 가치 창출”
Q. 클루커스는 데이터 레이크하우스와 관련해 어떠한 사업을 영위하는가.
A. 클루커스는 데이터브릭스의 데이터 레이크하우스 플랫폼을 공급하고 있다. 데이터브릭스의 플랫폼의 경우 데이터를 효과적으로 저장, 관리, 분석할 수 있는 솔루션이다.
데이터 레이크하우스의 특징인 데이터의 통합 관리, 대규모 데이터 처리, ML/DL의 통합, 데이터 무결성 및 메타데이터 관리, 실시간 처리 등 특장점들을 모두 제공할 수 있는 솔루션이다.
클루커스의 데이터브릭스 고객인 H사와 E사는 영수증 데이터 분석부터 시작해 예측 서비스 및 다양한 분석 작업에 효과적으로 활용하고 있다. 또한 데이터 처리 부분에도 뛰어난 성능을 제공한다. 실시간 데이터를 처리해 ML옵스 구성을 완벽하게 지원한다.
클루커스 심종성 컨설턴트
A. 현재 다양한 데이터 레이크하우스 플랫폼이 있다. 그러나 몇 가지 솔루션은 데이터 웨어하우스 플랫폼에서 데이터 레이크하우스로 진화하는 과정에 있고, 또 다른 솔루션은 데이터 레이크 플랫폼에서 데이터 레이크하우스로 진화하고 있다. 각각의 솔루션들은 고유한 장점과 단점이 존재한다. 각 솔루션은 장점을 강화하고 단점을 극복하는 방향으로 발전할 것이다.
개인적으로 데이터 레이크하우스를 사용하는 과정을 더 간편하게 하고, AI 기술을 접목해 데이터 분석에 대한 진입 장벽을 낮추길 기대한다. 그래야 데이터 분석을 위한 코드 작성에 어려움을 겪는 사용자도 효과적으로 분석을 수행할 수 있을 것이다. 앞으로의 솔루션들은 데이터를 보다 쉽게 활용할 수 있게 하고, AI 기술을 통해 데이터 분석의 접근성을 높이는 방향으로 발전해야 한다고 생각한다.
Q. 생성형 AI가 각광받고 있는데, 데이터 레이크하우스가 여기에도 적합한가.
A. 생성형 AI를 위한 기능과 관련해 데이터 처리 측면에서는 도움이 될 수 있다고 본다. 먼저 대규모 데이터 처리 능력은 생성형 AI 및 데이터 분석 작업에 필수적이다. 빠른 데이터 처리를 위해 실시간 및 고성능의 데이터 처리가 중요하다. 대용량 데이터 세트를 처리하고 저장하면서 효율적으로 작업할 수 있는 데이터 처리 능력이 필요하다. 데이터 레이크하우스를 통해 데이터를 효과적으로 AI 모델에 공급하고 저장소에 저장할 수 있다.
Q. 데이터 레이크하우스를 도입하려는 기업 및 기관에 조언한다면.
A. 데이터 레이크하우스를 통해 데이터를 분석하고 활용함으로써 조직은 비즈니스 인사이트를 발견하고, 고객의 행동을 예측하며, 효율성을 향상시키는 등 다양한 비즈니스 목표를 달성할 수 있다. 데이터는 레이크하우스에 저장돼 있는데, 이 데이터를 활용하지 않으면 그 가치를 충분히 끌어내지 못한다. 데이터를 활용해 인사이트를 얻고 전략적인 결정을 내리는 것이 레이크하우스의 목적 중 하나다.
데이터를 사용하는 목적을 명확히 하는 것은 데이터 전략의 핵심이다. 어떤 질문에 답하려는지, 어떤 분석을 수행하려는지, 어떤 비즈니스 목표를 달성하려는지를 정의하고, 그에 따라 데이터를 수집, 저장 및 처리해야 한다. 이러한 데이터 중심의 접근 방식을 설계하고 수립해야만 더 효율적이고 효과적으로 데이터 자산을 활용할 수 있다.
‘데이터 플랫폼’ 강조, 생성형 AI에 투자 확대
노우플레이크 역시 데이터 레이크하우스 시장의 대표 주자다. 오라클 출신의 데이터 전문가들이 모여 공동 창업했으며, 지난 2020년 미국 뉴욕증권거래소(NYSE)에 상장하는 과정에서 워렌 버핏이 공모주 투자에 나서면서 유명세를 얻었다. 국내에는 2021년 11월 지사를 설립했다.
스노우플레이크는 SQL을 중심으로 하는 클라우드 데이터 웨어하우스에서 시작했다. 데이터 웨어하우스 기업이니만큼 기존에 구축된 데이터 레이크에 데이터 레이크하우스를 추가하는 것이 아니라, 데이터 웨어하우스를 기반으로 데이터 레이크로 확장하는 것을 의미한다.
데이터 레이크를 기반으로 하는 데이터브릭스와의 방법과는 다소 차이가 있지만, 기업 내 모든 데이터에 접근 가능하면서 데이터 웨어하우스의 강력한 기능들을 활용할 수 있다는 장점이 있다. 스노우플레이크는 데이터 레이크하우스라는 용어보다는 클라우드 데이터 플랫폼(Cloud Data Platform)이라는 용어를 강조하고 있다.
스노우플레이크의 CDP 솔루션은 크게 △사용 용이성 △비용 효율성 △연결된 그리드 기능 △세분화된 거버넌스 등 4가지 장점을 갖고 있다. 먼저 사용 용이성이다. 스노우플레이크의 CDP는 플랫폼 구축, 업그레이드, 스토리지 유지 관리, 실행 엔진 프로비저닝와 같은 다양한 관리 작업이 자동화된 서비스로 제공되는 완전 관리형 서비스다. 이용자는 사용만 하고 관리를 스노우플레이크 측에 맡길 수 있다.
다음은 높은 성능과 비용 효율성이다. 파이썬, SQL, 자바, 스칼라를 사용해 정형, 반정형 및 비정형 데이터를 대규모 데이터 볼륨으로 처리가 가능하며, 동시에 다중 사용자의 요청을 성능 저하 없이 지원한다. 내장된 성능 최적화 기능을 통해 지속적으로 성능 개선 및 비용 최적화를 제공하고 있다.
세 번째는 전 세계에 연결된 그리드 기능을 갖고 있다는 점이다. 실행 환경이 AWS, MS 애저, GCP 등 어떤 CSP라도 하나의 일관된 사용자 경험을 제공한다. 멀티-클라우드 및 크로스-클라우드 환경에서 안전하게 데이터를 연결해 비즈니스 사일로 현상을 제거할 수 있으며, 새로운 비즈니스 모델을 만들 수 있다.
마지막은 세분화된 거버넌스를 지정할 수 있다는 점이다. 데이터 민감도, 사용량, 관계를 전체적으로 이해하고 세분화된 접근 제어 정책을 통해 데이터를 보호할 수 있다.
구체적으로 데이터 분류 체계를 통해 민감한 데이터와 PII 데이터를 감지하고 식별할 수 있고, 객체 태그를 지정해 규정 준수, 검색, 보호 및 리소스 사용에 대한 민감한 데이터를 모니터링할 수 있다. 또한 다이나믹 데이터 마스킹 정책을 통해 데이터를 안전하게 보호할 수 있으며 태그 기반 마스킹 정책을 통해 데이터를 안전하게 보호할 수 있다.
스노우플레이크의 데이터 레이크하우스 아키텍처(출처: 스노우플레이크)
아울러 스노우플레이크 역시 생성형 AI를 지원하는 기능을 지원한다. 스노우플레이크 측 관계자는 “우리는 기업이 데이터 사일로를 허물고 더욱 다양한 기능을 적용할 수 있도록 지원하고 있다. 현재 스노우플레이크가 집중·투자하고 있는 분야가 바로 기업 환경에 생성형 AI를 쉽고 안전하게 적용해 새로운 서비스를 제공하는 것이다. 여기에는 다양한 LLM 모델을 스노우플레이크의 CDP 환경에서 제공해 새로운 가치를 제공하고, 내장된 LLM을 기반으로 새로운 사용자 경험을 제공하며, 사용자 경험과 생산성을 높이는 기능들이 포함돼 있다”고 설명했다.
스노우플레이크의 생성형 AI 관련 아키텍처 (출처: 스노우플레이크)
개방형 데이터 레이크하우스 ‘클라우데라 데이터 플랫폼’ 제공
아파치 하둡과 아파치 스파크 기반 SW를 지원하는 서비스를 제공하는 미국 기업인 클라우데라 역시 데이터 레이크하우스 시장에서 주목받는 기업 중 하나다. 현재 클라우데라는 하이퍼스케일러와 동일하게 고객의 25엑사바이트 규모의 데이터를 관리하고 있다. 클라우데라의 데이터 레이크하우스 핵심 전략은 기업이 안전하고 신뢰할 수 있는 AI를 이용할 수 있도록 개방형 데이터 레이크하우스인 ‘클라우데라 데이터 플랫폼(Cloudera Data Platform)’을 제공하는 것이다.
클라우데라 CDP의 구조 (출처: 클라우데라)
클라우데라코리아 김호중 전무는 “클라우데라가 제공하는 개방형 데이터 레이크하우스 플랫폼인 CDP는 구성요소인 아파치 아이스버그를 통해 기업들은 어떤 형태의 데이터든 LLM에 적용할 수 있으며, 조직 전체의 더 많은 사용자가 더 많은 데이터를 더 많은 방법으로 활용할 수 있도록 지원한다”면서 “또한 타 퍼블릭 클라우드 전용 공급기업과 달리 최신 데이터 아키텍처를 위한 유일한 하이브리드 데이터 플랫폼이다”라고 소개했다.
아이스버그는 아파치 소프트웨어 재단에서 개발한 개방형 테이블 포맷으로 사용자가 공급업체에 종속되지 않는다는 장점이 있다. 공식 버전은 CDP의 데이터 서비스인 ‘클라우데라 데이터 웨어하우스(CDW)’, ‘클라우데라 데이터 엔지니어링(CDE)’, ‘클라우데라 머신러닝(CML)’ 등에서 사용할 수 있다.
CDP는 개방형 데이터 레이크하우스를 제공하는 하이브리드 데이터 플랫폼으로서 여러 클라우드와 온프레미스에서 개방형 클라우드 네이티브 스토리지 포맷을 통해 스트리밍과 저장된 데이터에 대한 다기능 분석을 제공한다. 이를 통해 사용자는 선호하는 분석 도구를 자유롭게 선택할 수 있다. 아울러 통합 보안과 거버넌스도 확보할 수 있다.
개방형 데이터 레이크하우스를 도입한 기업은 데이터 스케일링에 대한 걱정 없이 온프레미스나 퍼블릭 클라우드 간의 애플리케이션 상호운용성과 휴대성을 확보할 수 있다. 또한 기업은 CDP에 기본 내장된 SDX(Shared Data Experience)를 통해 모든 데이터에서 공통 메타데이터와 보안, 그리고 거버넌스 모델을 활용할 수 있다.
대표 고객사례로 LG유플러스가 있다. 클라우데라는 LG유플러스의 5G 네트워크 서비스 품질 확보를 위한 실시간 빅데이터 분석 플랫폼 구축을 지원했다. LG유플러스는 고객에게 5G 네트워크 기반 서비스를 제공하고 네트워크 작업자들의 업무 효율성을 높이기 위해 클라우데라의 제품과 솔루션을 통해 네트워크 실시간 분석 플랫폼인 ‘NRAP’를 구축했다. 이를 통해 통신 네트워크 서비스 단에서 발생하는 수백 개 종류, 수백 테라의 데이터를 기반으로 유무선 통합 2천만 명 대상의 서비스를 제공하는 발판을 마련했다.
LG유플러스 NRAP는 통신사의 네트워크 서비스에 관계된 모든 모바일 단말부터 서비스 장비에 이르기까지 다양한 빅데이터를 수집해 의미 있는 데이터로 활용할 수 있게 제공하는 인프라를 포함한 시스템 전체를 의미한다. NRAP는 데이터 레이크와 데이터 웨어하우스 목적을 맞게 분석 정확도를 높였으며, 최대 수초 내 테라바이트 단위의 데이터를 처리하고 통합 네트워크 관리 시스템인 NMS로 전송할 수 있어 데이터의 활용도도 높다. NRAP의 실시간 데이터 처리로 고객센터의 고객 품질 대응과 서비스 기반의 네트워크 품질감시 수준을 실시간에 준하는 수준으로 개선하고, 고객 만족도 향상과 현장의 작업을 감소시키는 등 성과를 얻을 수 있었다.
해외사례로는 일본의 라인이 있다. 라인은 아파치 아이스버그 개방형 데이터 레이크하우스를 사용하고 CDP로 워크로드를 마이그레이션함으로써 플랫폼의 안정성을 유지하면서 운영상의 문제를 70%까지 줄일 수 있었다.
클라우데라코리아 김호중 전무는 “오늘날 디지털 경제는 어느 때보다 더 많은 소스에서 더 많은 양과 더 많은 유형의 데이터를 생성하고 있다. 다양한 데이터 소스와 하이브리드 환경을 다루는 기업들이 증가함에 따라, 안전하게 서로 다른 데이터 세트를 운영하고 데이터를 민주화하기 위해 데이터 패브릭을 구현해야 할 필요성이 높아졌다”면서 “클라우데라는 기업들이 여러 환경에서 데이터를 신속하게 데이터를 옮겨 실시간 인사이트에 활용할 수 있도록 데이터 메시, 데이터 패브릭, 데이터 레이크하우스와 같은 최신의 데이터 기술을 지원해 고객의 데이터 기반 디지털 혁신을 돕겠다”고 강조했다.
관련 기사 보기 : [기획특집] DW와 DL 장점 결합한 ‘데이터 레이크하우스’