CS/소프트웨어공학
DB 관련 용어
망재이
2024. 1. 10. 17:45
- 빅데이터
- 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 막대한 양의 정형 또는 비정형 데이터 집합
- 스마트 단말의 빠른 확산, 소셜 네트워크 서비스의 활성화, 사물 네트워크의 확대로 데이터 폭발이 더욱 가속화되고 있음
- 빅데이터 3V 정의 특징
- 데이터 분량(Volume), 데이터의 변화 속도(Velocity), 데이터의 다양성(Variety) - 빅데이터 처리 기술
- 데이터 수집, 저장, 분석, 시각화의 4가지 과정을 거침 - 빅데이터 데이터 구분의 기준
- 우선적으로 형태가 있는지 없는지 스키마 형태의 유무를 판단하고, 연산이 가능한지 불가능한지를 구분
▶︎ 정형화(structured)된 데이터
- 일정한 규칙을 갖고 체계적으로 정리된 데이터로 형태가 있고 연산이 가능
- 통계자료, 과학적 데이터 등으로 그 자체로 의미 해석이 가능하며 바로 활용할 수 있는 정보
- RDBMS로 저장
▶︎ 반정형화(semi-structured)된 데이터
- 형태는 있으나 연산은 불가능
- 로그가 대표적인 예
- 표나 그림이 될 수도 있지만 일반적으로 문자로 서술된 정보를 담고 있음
- 파일로 저장
▶︎ 비정형화(unstructured)된 데이터
- 형태가 없으므로 연산은 불가능
- 스마스 기기 등을 통해 형성되는 데이터(텍스트, 영상, 음성 등), SNS를 통해 상호 교류되는 정보(페이스북, 트위터, 카카오)
- NoSQL이라는 저장구조를 가짐
- 빅데이터 3V 정의 특징
- 브로드 데이터
- 다양한 채널에서 소비자와 상호 작용을 통해 생성된, 기업 마케팅에 있어 효율적이고 다양한 데이터
- 이전에 사용하지 않거나 알지 못했던 새로운 데이터나 기존 데이터에 새로운 가치가 더해진 데이터
- 대량의 정보를 뜻하는 빅데이터와는 달리 다양한 정보를 뜻하는 것으로 소비자의 SNS 활동이나 위치 정보 등이 이에 속함 - 메타 데이터
- 일련의 데이터를 정의하고 설명해 주는 데이터 (HTML 문서에서 메타 태그 내의 내용, 데이터 사전의 내용 등)
- 여러 용도로 사용되나 주로 빠르게 검색하거나 내용을 간략하고 체계적으로 하기 위해 사용 - 디지털 아카이빙
- 디지털 정보 자원을 장기적으로 보존하기 위한 작업
- 아날로그 콘텐츠는 디지털로 변환한 후 압축해서 저장하고 디지털 콘텐츠도 체계적으로 분류하고 메타 데이터를 만들어 DB화하는 작업
- 늘어나는 정보 자원의 효율적인 관리와 이용을 위해 필요한 작업 - 하둡 (Hadoop)
- 오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼
- 일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성하고 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임워크
- 하둡과 RDB 간 대용량 데이터를 전송할 때 스쿱(Sqoop)이라는 도구 이용 - 맵리듀스 (MapReduce)
- 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모듈 (오픈 소스 기반 분산 컴퓨팅 플랫폼)
- 흩어져 있는 데이터를 연관성 있는 데이터 분류로 묶는 Map 작업을 수행한 후 중복 데이터를 제거하고 원하는 데이터를 추출하는 Reduce 작업을 수행
- Google에 의해 고안되었으며 대표적인 대용량 데이터 처리를 위한 병렬 처리 기법으로 많이 사용되고 있음 - 타조 (Tajo)
- 하둡 기반의 분산 데이터 웨어하우스 프로젝트로 우리나라가 주도하여 개발하고 있음
- 하둡의 빅데이터를 분석할 때 맵리듀스를 사용하지 않고 SQL를 사용하여 하둡 분산 파일 시스템 파일을 바로 읽어낼 수 있음
- 대규모 데이터 처리와 실시간 상호 분석에 모두 사용할 수 있음 - 데이터 다이어트
- 데이터를 압축하고 중복된 정보를 배제하고 새로운 기준에 따라 나누어 저장하는 작업
- 인터넷과 이동통신 이용이 늘면서 각 기관 기업의 데이터베이스에 쌓인 방대한 정보를 효율적으로 관리하기 위해 대두된 방안 - 데이터 마이닝
- 데이터 웨어하우스에 저장된 데이터 집합에서 사용자의 요구에 따라 유용하고 가능성 있는 정보를 발견하기 위한 기법 - OLAP (Online Analytical Processing)
- 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 분석하여 의사결정에 활용하는 방식
- 데이터의 웨어하우스나 데이터 마트와 같은 시스템과 상호 연관되는 정보 시스템
• OLAP 연산 : Roll-up, Drill-down, Drill-through, Drill-across, Pivoting, Slicing, Dicing
728x90