[아이티데일리] 데이터 활용 없이 기업의 경쟁력 향상은 불가능하다. 이는 곧 기업의 성장은 상당부분 데이터 활용에 달려있다는 것을 의미한다. 기업들이 데이터 분석 환경을 갖추기 위해 IT자원에 투자를 아끼지 않는 것도 데이터 활용을 통한 경쟁력 향상을 위해서다.
최근 들어 기업 경쟁력과 직결되는 데이터 분석 플랫폼의 인프라가 바뀌고 있다. 그동안 직접 서버를 구매해 데이터 분석 환경을 구축하던 형태에서 벗어나 클라우드 인프라 상에서 데이터 분석할 수 있는 플랫폼을 구현하기 시작한 것이다. 이러한 수요에 대응하고자 클라우드 서비스 제공사(CSP)와 클라우데라와 같은 플랫폼 기업들은 클라우드 기반으로 데이터 플랫폼을 제공하거나, 각 서비스들을 모아 데이터 분석 프로세스를 만들어주는데 집중하고 있다. 1부에서는 AWS, 2부에서는 네이버클라우드, 3부에서는 구글 클라우드와 MS, 클라우데라, 클루커스의 전략 및 솔루션을 게재한다.
고객이 직면한 문제, ‘클루커스 DAaaS’로 해결한다
클루커스는 클라우드 관리 서비스 기업(MSP)으로, MS 애저의 서비스를 컨설팅, 구축, 관리해주는 기업이다. 클루커스는 고객들의 문제해결에 초점을 맞춘 데이터 플랫폼 구축 서비스인 ‘클루커스 DAaaS’를 공급하고 있다. 많은 기업들이 데이터 플랫폼을 구축하기 위해 수집, 저장, 통합, 분석 등의 각 단계에서 별도의 오픈소스를 활용하고 있다. 클루커스는 오픈소스를 별도로 사용하기보다 클라우드 기반의 플랫폼 형태로 제안하고 있다.
김신영 클루커스 데이터 애널리틱스 그룹 컨설턴트는 단일한 클라우드 데이터 플랫폼을 적용하는 것이 아닌 CSP 별로 강점을 갖는 데이터 분석 서비스를 연동해야 한다는 점을 강조한다. 김신영 컨설턴트는 “일반적인 웹서비스나 게임 등의 서비스는 클라우드에 한번 종속되면 다른 클라우드로 이관하는데 상당한 어려움이 따른다. 하지만 데이터 분석의 경우 서비스에 영향을 주지 않기 때문에 클라우드 이관에 크게 어려움이 없다”면서, “그럼에도 멀티 클라우드 환경을 고려한 데이터 플랫폼을 구성해야 하는 이유는 바로 CSP별로 특화 솔루션을 보유하고 있기 때문”이라고 설명했다.
특히, 클루커스는 전체 데이터 플랫폼을 구성하는 각 단계 중에서도 분석 앞단인 수집 단계와 저장 단계, 전처리 단계에 집중하고 있다. 이 각각의 단계에선 특정한 CSP에 종속되지 않도록 다양한 솔루션들과 오픈소스 연구 개발 등을 병행하며 플랫폼을 완성해나가고 있다. 이와 관련, 김신영 리더는 “물론 어느 한 클라우드 벤더의 리소스를 선택해 플랫폼에 적용하다보면 종속될 수 있다. 하지만 이 경우 다른 CSP 벤더에도 해당 리소스는 API 형태로 호출해서 적용할 수 있기 때문에 이 같은 점도 신경써야 한다”고 말했다.
이어 그는 “고객이 사용 중인 A클라우드에서는 지원하지 않지만 B클라우드에서 강력한 기능을 제공한다고 판단되면 B클라우드에서 제공하는 기능을 활용하기 위해 일부 데이터를 옮겨서 분석하는 것도 충분히 가능하다”면서, “고객이 원하는 기능과 상황에 따라 알맞은 클라우드를 선택해 멀티 클라우드 환경을 구성하는 것이 가장 이상적인 클라우드 활용 방안이다. 이를 돕기위해 클루커스에서는 클라우드 벤더별 다양한 분석 기능 및 AI 솔루션들을 다양한 데이터로 테스트하고 있고, 각각의 클라우드의 장단점을 수집하고 있다”고 설명했다.
클루커스는 클라우드 기반의 데이터 플랫폼을 구축해주는 ‘클루커스 DAaaS(Data Analytics as a Service)’라는 서비스를 제공하고 있다. 이 서비스는 클라우드 벤더사와 상관없이 데이터를 분석할 수 있는 환경을 제공하며, 데이터 수집, 저장, 처리, 분석, 인사이트까지 데이터 분석 플랫폼의 전 과정을 제공한다. 클루커스의 ‘DAaaS’로 사용할 수 있는 DB는 ‘카산드라’, ‘MySQL’, ‘포스트그레SQL’, ‘MS SQL 서버’, ‘오라클 DB’, ‘레디스’, ‘몽고DB’ 등이다. 현재 AWS와 MS, 구글 클라우드, 네이버클라우드 등의 데이터 분석 서비스를 고객의 환경에 맞게 제공하기 위해 업무협약을 맺은 상태다. 아울러, 데이터브릭스, 스파크비욘드 등과 같은 서드파티 솔루션과도 협력을 맺고 있다.
클루커스는 이 같은 클라우드 기반 데이터 플랫폼을 구축하기 위해 데이터 분석 그룹을 운영하고 있다. 클루커스의 데이터 분석 그룹은 데이터 엔지니어(DE) 그룹과 데이터 플랫폼(DP) 그룹, 데이터 사이언티스트(DS) 그룹으로 나눠졌다. 각각의 분야에 맞는 전문 컨설턴트를 보유하고 있다.
[인터뷰] “클라우드로 데이터 플랫폼 구축은 필수”
Q. 클라우드 기반 데이터 플랫폼과 구축형 데이터 플랫폼의 핵심 차이는.
A. 크게 3가지다. 클라우드 기반 데이터 플랫폼은 ‘자동 확장’을 할 수 있다. 이 기능을 활용해 사용하지 않을 때 과금되지 않게 할 수 있고, 트래픽이 몰리거나 대규모 분석 작업을 할 때는 병렬로 여러 컴퓨팅 노드를 확장해 분산저장 후 분석할 수 있다. 그리고 ‘오토ML’ 기능을 통해 모델을 직접 코드로 개발하지 않고, GUI로 손쉽게 환경만 구성해 자동으로 모델을 개발하고 배포할 수도 있다. 마지막으로 NW 및 HW, SW 설치 등 환경 구성을 시스템 엔지니어 등을 거치지 않고 손쉽게 할 수 있다. 플랫폼이나 라이브러리에 대한 버전 관리를 자동으로 제공하기에 데이터 과학자, 분석가들의 업무 부담이 크게 줄어든다.
Q. 데이터 분석 결과 값에 대한 품질 차이는 없는지.
A. 클라우드와 온프레미스로 데이터 플랫폼을 구성, 분석한 결과 값의 품질차이는 대동소이하다. 활용하는 알고리즘이나 분석에 사용되는 도구는 비슷하기 때문이다. 다만, 확장성 부분이나 더 빠르게 분석하고 예측하는 측면에서는 클라우드 환경의 데이터 플랫폼이 압도적이라고 할 수 있다.
Q. 저장되는 데이터양에 따라 비용도 바뀌는지.
A. 데이터양이 늘어나면 비용도 증가한다. 하지만 이는 온프레미스에서도 마찬가지다. 그렇기 때문에 온프레미스 기반 데이터 플랫폼의 경우 데이터가 어느 정도 쌓이면 테이프를 활용해 데이터를 백업한다. 클라우드에도 테이프 백업과 유사하게 수동 혹은 자동 설정으로 ‘아카이브 스토리지’로 데이터를 보내거나, 저렴한 스토리지 서비스로 데이터를 보낼 수 있다.
비용을 절감할 수 있는 또 다른 방법으로는 전처리를 확실하게 하면 된다. 음성, 영상, 사진, 텍스트 등 수많은 종류의 데이터가 쌓일 경우 분석에 불필요한 데이터도 그 안에는 존재할 것이다. 전처리 작업을 통해 데이터 분석에 필요한 데이터만 남기게 되면, 데이터양도 줄고 비용도 절감된다.
Q. 멀티·하이브리드 환경을 강조했는데, 실제로 그렇게 구축하려는 고객이 있는지.
A. 보험사와 멀티 클라우드 기반의 데이터 플랫폼을 구성하는 작업을 진행 중이다. 고객의 데이터 레이크는 온프레미스에 두고, 데이터 분석만 MS 애저 서비스를 활용하려는 경우다. 보험사에서 취급하는 데이터는 주로 보안에 민감한 데이터라서 네트워크 암호화, 마스킹 등이 돼야 한다. 데이터 분석을 위해 개인정보가 담긴 데이터를 써야하는 경우도 있다. 하지만 이는 식별할 수 없도록 사전에 데이터를 처리하고, 클라우드로 옮긴다.
현재 금융권에서 이 같은 하이브리드 환경으로 데이터 플랫폼을 구축하기 위해 고민하고 있다. 금융권의 경우 개인정보보호법과 관련된 규정이 많아서 데이터 활용이 원활하지 않다. 최근 어떤 곳은 클라우드 데이터 플랫폼을 쓰기 위해 온프레미스 환경을 구축한 경우도 있다. 또한 금융 및 공공 등 규제 산업군의 경우 법 테두리 안에서 데이터를 최대한 분석하고 활용하고 있다.
Q. 전문성이 꽤 필요할 것으로 보이는데, 관련 팀에 대해 소개해달라.
A. 클루커스는 데이터 애널리틱스 그룹을 보유하고 있다. DA그룹은 데이터 엔지니어 그룹(DE)과 데이터 플랫폼 그룹(DP), 데이터 사이언티스트 그룹(DS)으로 구성돼 있다. 먼저 DE 그룹의 경우 MSSQL, 오라클, MySQL과 같은 RDBMS부터 몽고DB, 카산드라와 같은 NoSQL 등 DB 솔루션을 제공하고 있다. DP 그룹의 경우 모든 클라우드 데이터 플랫폼의 아키텍처를 설계하고 구축하는 서비스를 제공한다. 클라우드 데이터 플랫폼에는 주로 MS의 데이터 팩토리, 이벤트 허브, ADLS, 시냅스, DW 등을 적용하고 있다.
마지막으로 DS 그룹의 경우 AI 기반으로 고객 맞춤형 데이터 분석 및 모델 개발, 시각화 등의 서비스를 제공하고 있다. 데이터 분석의 경우 스파크비욘드, 데이터브릭스, 애저ML, 시냅스 등의 서비스를 제공하며, 데이터 시각화 측면에서는 파워BI, 데이터브릭스 대시보드, 인사이트 리포트 등이 있다. 우리는 아키텍처 설계와 데이터 분석 결과를 시각화하기까지 데이터 플랫폼의 전 단계를 지원하고 있다.
Q. 고객들의 만족도는 어떠한지.
A. 우리는 고객들이 만족할 때까지 서비스를 지원하기 때문에 고객 만족도가 높다고 할 수 있다. 최근 한 사례로 데이터 엔지니어가 없던 고객이 있었다. 그때 우리는 솔루션을 제안하기보다 플랫폼을 제안했다. 플랫폼을 어떻게 배포하는지, 데이터는 어디에 저장하는지, 분석은 어떻게 하는지에 대해 알려줬다. 클라우드 데이터 플랫폼은 사실 반드시 수작업으로 해줘야 하는 부분이 있다. 하지만 이 고객은 엔지니어가 없었다. 이에 우리가 실제로 엔지니어처럼 작업을 수행해주기도 했었다.
마지막으로, 우리는 고객들이 직면한 문제를 ‘데이터’를 통해 해결하고자 한다. ‘클루커스 DAaaS’로 데이터 분석 플랫폼을 구축하고,데이터를 더하기만 하면 고객은 비즈니스에 인사이트를 얻을 수 있을 것이다.