Almost-Native

Data Lake 용어 짧고 쉬운 설명, 데이터 레이크, DW, 빅데이터 본문

Java 프로그램 개발, IT

Data Lake 용어 짧고 쉬운 설명, 데이터 레이크, DW, 빅데이터

2020. 9. 16. 12:13

Data Lake 는 "기업(조직)의 데이터를 잔뜩 모아놓은 저장소"라고 할 수 있습니다.

보통 기업의 데이터가 모여있는 곳은 "운영DB"(Production DB) 라고 하고, 분석을 위해 오래된 데이터까지 모아놓은 것을 "DW"(Data Warehouse) 라고 하죠~

규모가 제법되는 대부분의 기업들은 DW 까지는 구축되어 있는 경우가 많습니다.

 

히스토리컬한 데이터까지 모아놓은 것이 DW 인데, Data Lake 는 왜 갑자기 톡튀?

 

DW 시스템은 Oracle DB, Sybase DB 등의 DB 시스템 소프트웨어 안에 데이터가 테이블형태로 들어 있습니다.

DB안에 데이터가 테이블형태로 들어갈 수 있다는 것은 "정형데이터"를 의미합니다.

 

그런데, 대량으로 발생하는 로그데이터들, 이미지/오디오 데이터들, 특수 형태의 파일데이터들... 이런 것들은 DB안에 집어넣기가 좀 지랄맞죠? 굳이 넣으려면 넣을 수 있긴 하지만...

이렇게 컬럼과 로우(레코드) 형태로 정형화 시킬수 없거나 힘든 녀석들을 "비정형데이터"라고 합니다.

기존에는 이런 녀석들을 어디 보관해놓고 분석할 생각을 못했었습니다.

 

근데, 빅데이터 기술(하둡)이 나오면서 판새가 바뀌었습니다.

빅데이터 기술로 얘네들도 분석 가능하다보니, 빅데이터 기술이 점차로 부각되면서 Data Lake 개념도 함께 부각되게 된 것입니다.

 

예전에는 업종전문가(Business Analyst)가 사후분석 등을 하기 위해 DW 시스템을 구축하고, 여기에 정형데이터를 잔뜩 쌓았던 것처럼,

이제는 데이터과학자(Data Scientist)가 빅데이터 분석을 하기위해 Data Lake 를 구축하고, 여기에서 정형+비정형 데이터를 잔뜩 쌓아놓는 것이죠~

 

 

Comments