데이터 자원 관리
데이터란 : 가공되지 않은 기본적인 사실(facts), 그림(figures), 관찰(observations), 측정(measurements) 등으로 정의
데이터의 품질 :
- 데이터의 유용성을 결정할 뿐만 아니라 데이터에 기반한 의사결정에 대한 다양한 형태의 분석을 나타냄
- 데이터가 명확하지 않거나, 원천적인 데이터 손실, 부주의한 데이터 추출로 인하여 나타나는 손실은 이루 말할 수 없이 많은 비용이 발생함
→ 결론 : 의사결정의 가장 기본은 데이터이고, 데이터의 품질은 의사결정의 정확성을 향상시킨다.
부연설명 ) 왜 좋은 데이터를 넣어야 하는가 : garbage in garbage out , 쓰레기를 넣으면 쓰레기가 나온다. 데이터의 품질이 안 좋으면 아무리 좋은 정보시스템이라 한들 아무 소용이 없다.
❓ 효과적인 정보시스템은 어때야 할까?
|
파일 구성의 개념

- 필드(field): 데이터가 정보의 의미를 가지기 위해 필요로 하는 최소의 데이터 단위
- 레코드(record): 필드들이 모여서 구성
- 파일(file): 동일한 형식으로 구성된 레코드들
- 데이터베이스(database): 관련 파일들이 모여 구성
그러나 이런 체계를 처음부터 썼을리가. 그렇다면 뭔가 문제가 있어서 썼을 것이다.
과거에는 데이터베이스 대신 파일을 사용했었다.
전통적 파일 환경의 문제점(파일들이 여러 부서들에서 개별적으로 보유됨)
- 데이터 중복(data redundancy): 여러 데이터 파일들에서 데이터들이 중복적으로 나타남
- 데이터 불일치(data inconsistency): 같은 속성이 다른 값을 가짐
- 프로그램-데이터 의존성(program-data dependence): 프로그램의 변화가 있을 때 프로그램이 접근하는 데이터의 변화를 요구함
- 유연성 부족
- 부실한 보안성
- 데이터 공유 및 가용성 결여
💡 결론 전통적인 파일 처리 방식은 기업의 기능 영역들로 하여금 자신에 특화된 애플리케이션의 개발을 부추긴다. 각각의 애플리케이션 은 마스터 파일의 일부분이 될 가능성이 높은 나름대로의 고유한 데이터 파일을 필요로 한다. 이런 파일들은 데이터의 중복 및 불 일치, 처리 유연성의 저하, 저장 자원의 낭비를 초래한다. |
데이터베이스관리시스템
데이터베이스(database)
- 데이터의 중복을 최소화하기 위해 데이터를 통합해둠으로써 모든 응용프로그램들이 공유할 수 있도록 조직화된 데이터의 집합체
- 조직의 구성원들이 보다 일관된 데이터를 효과적으로 공유할 수 있게 해 주는 것이 특징
1) DBMS(Database Management System)
- 개별적인 응용프로그램들로 하여금 데이터에 접근하는 것을 가능하게 해 주는 소프트웨어. DB 생성 / 처리 / 관리 가능
- ex : Microsoft Access, DB2, Oracle Database, Microsoft SQL Server, MYSQL
- SQL(Structured Query Language) : 데이터베이스를 구축하고 활용하기 위해 사용하는 언어
따라서 데이트베이스관리시스템으로 다음과 같은 방식으로 전통적 파일 환경의 문제점 해결했다.
- 중복에 대한 통제
- 불일치 제거
- 프로그램과 데이터의 분리
- 조직은 중앙에서 데이터와 데이터 보안을 관리할 수 있음
2) 관계형 DBMS(relational DBMS)
- 데이터들을 2차원의 테이블(관계(relation)라 부름)들로 표현함
테이블(table): 행과 열로 구성됨
- 행(터플(tuples)): 레코드
- 필드(열, 컬럼(columns)): 개체의 속성
- 키(key)
- 주키(primary key): 레코드 각각을 고유하게 식별하는 값
- 외래키(foreign key): 원본 테이블과 연결된 레코드들을 식별하기 위하여 외래 테이블에서 색인 필드로 사용되는 주키
💡 부연설명 하나의 관계형 데이터베이스는 데이터들을 2차원 테이블 형태로 구성한다. 여기서 설명된 공급자와 부품 개체들에 대한 테이블들은 각각의 개체와 그것의 속성들이 어떻게 표현되는지를 보여준다. 공급자_번호는 공급자 테이블에 대해서는 주키이고, 부품 테이블에 대해서는 외래키이다. |
3) 비관계형 데이터베이스: “NoSQL”
- 보다 유연한 데이터 모델
- 다수의 하드웨어에 분산되어 있는 대규모 데이터
- 용이한 데이터 규모 확장성
- 대용량의 구조적, 반구조적 데이터들을 다룸 (웹, 소셜 미디어, 그래픽)
4) 클라우드 데이터베이스
- Amazon Relational Database Service, Microsoft SQL Azure
- 사설 클라우드
DB 도구 및 기술
디바이스 : 스마트폰 : 개인 정보 + 위치 정보
센서 데이터 :
- 사물인터넷(IoT)
- M2M (Machine to Machine) : 사물이 감지장치를 통해 정보를 전달
- 차량 센서, 스마트 가전, 헬스/의료 모니터링 기기, 건축물 진동 센서 등
공공/기업 데이터 :
- 공공 데이터 : 건강, 환경, 교통, 세금, 교육, 범죄 등
- 기업 데이터 : 생산, 회계, 고객 관련 데이터 등
인터넷/소셜미디어 :
빅데이터란?
- 2011년 10월 가트너가 발표한 ‘2012년 전략기술 톱10’에 포함
- 일반적인 DB SW의 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 (McKinsey, 2011)
- DB는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 (IDC, 2011)
수업에서는 정의를 다음 같이 한다 :
기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합으로, 데이터로부터 가치를 추출하고 결과를 분석하는 기술
빅데이터의 3대 특징 :
- 데이터 양(volume), 다양한 형태(variety), 생성 속도(velocity)라는 의미를 함축할 뿐만 아니라 데이터가 가지고 있는 가치에 초점을 둠

2. 데이터의 양 : 2022년에는 80 제타바이트로 증가할 것으로 예측
3. 1제타바이트는 1조 1000억 기가바이트에 해당, MP3 음악(1곡 3MB 기준) 281조 5000억 곡을 저장할 수 있는 용량.
이런 빅데이터의 흐름에 따른 변화는 다음과 같다.
기업 경쟁력의 무게중심 이동
- 하드웨어 -> 소프트웨어 -> 데이터
“ 데이터는 소프트웨어 인프라가 대부분 오픈소스화 또는 범용품화 되는 시스템에서 (가치의) 유일한 원천 요소이다.” (Tim O’Reilly, 오라일리 미디어 CEO)
- 기업 데이터는 조직 경험의 집합체이자 고객과 나눈 상호작용 역사이기 때문에 값으로 따질 수 없는 중요한 전략적 자산
- 고객의 반응이나 무반응, 구매 의사결정, 고객 유지 및 이탈, 부정행위, 신용 부도, 제품 결함에 대한 불만 등은 기업에 학습 경험을 제공
→ 문제해결, 의사결정 향상, 새로운 가치 창출
빅데이터는 전략적 의사결정의 중요 도구
- 매출증가 : 아마존, 넥플릭스 등은 수년간 축적된 데이터를 분석 한 고객 추천서비스를 개발하여 수익 극대화
- 품질개선 : 볼보와 GM은 자동차, 생산 데이터, 운전자 데이터를 수집ᆞ분석하여 제품 품질 개선에 활용
- 미래전략 : IBM은 사내에 200명 이상 수학자들이 분석해 도출한 핵심분야를 집중 연구함으로써 500개 이상의 관련 특허를 취득하고 미래 사업을 준비
빅데이터 처리 프로세스
💡 데이터 수집 > 데이터 저장 및 처리 > 데이터 분석 > 데이터 표현 |
빅데이터는 성과와 의사결정 향상을 위한 도구
- 데이터웨어하우스(data warehouse) : 창고
- 다수의 핵심적인 거래처리시스템들로부터 현재 및 과거 데이터들을 저장함
- 전사적인 사용을 위해 정보를 통합하고 표준화하지만, 변경은 할 수 없음
- 데이터마트(data mart)
- 데이터웨어하우스의 일부분
- 특정 사용자 집단이 사용할 수 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분
- 초점은 일반적으로 단일 주제 영역이나 업무 영역에 맞춤
- 하둡(Hadoop)
- 저렴한 컴퓨터들에 걸쳐 있는 방대한 양의 데이터들을 분산병행처리 방식으로 다룰 수 있게 해줌
- 핵심 서비스• 하둡 분산 파일 시스템(Hadoop Distributed File System: HDFS): 데이터 저장소• 맵리듀스(MapReduce): 데이터들을 처리 작업 그룹들로 분할함 • Hbase: NoSQL 데이터베이스
- Facebook, Yahoo, NextBio 등이 사용하고 있음
- 분석 도구: 관계성, 패턴, 추세
- 비즈니스 의사결정을 더 잘 할 수 있도록 대용량의 데이터를 통합하고 분석하는 도구
- 다차원 데이터 분석 (OLAP)
- 데이터마이닝
- 텍스트마이닝
- 웹마이닝
- 비즈니스 의사결정을 더 잘 할 수 있도록 대용량의 데이터를 통합하고 분석하는 도구
- 온라인분석처리(OnLine Analytical Processing: OLAP)
- 다차원(multidimensional) 데이터 분석 지원
- 여러 개의 기준을 이용하여 데이터를 다차원 데이터를 보여줌
- 각각의 차원은 정보에 대한 각 측면(제품, 가격, 비용, 지역, 또는 기간)을 의미함
- 다차원(multidimensional) 데이터 분석 지원
- 데이터마이닝(data mining)
- 데이터베이스에 숨겨진 데이터의 패턴과 관계들을 찾아냄 (예:고객들의구매패턴)
- 미래의 행위를 예측하기 위한 규칙들을 추론함
- 데이터마이닝을 통해 얻을 수 있는 정보들의 유형
- 연관(association)
- 순차(sequence)
- 분류(classification)
- 군집화(clustering)
- 예측(forecasting)
- 텍스트마이닝(text mining)
- 대용량의 비구조적 데이터세트로부터 중요한 요소들을 추출함
- 이메일
- 콜센터 상담 녹취록
- 고소장특허 기술(descriptions)
- 서비스 보고서 등등
- 감정 분석(sentiment analysis) 소프트웨어
- 이메일, 블로그, 소셜 미디어를 분석하여 의견(우호적/비우호적)들을 파악함
- 대용량의 비구조적 데이터세트로부터 중요한 요소들을 추출함
- 웹마이닝(web mining)
- 웹으로부터 유용한 패턴과 정보들을 발견해내고 분석하는 것
- 고객 행위 이해
- 웹사이트의성과평가등등
- 웹콘텐츠마이닝(web content mining) : 웹 페이지들의 콘텐츠들을 분석함
- 웹구조마이닝(web structure mining) : 웹 페이지와 관련된 링크들을 분석함
- 웹사용마이닝(web usage mining) : 웹 서버에 기록된 사용자 상호작용 데이터들을 분석
- 웹으로부터 유용한 패턴과 정보들을 발견해내고 분석하는 것
빅데이터 활용 사례
- 서울시 올빼미 버스
- 구글 트렌드
DBMS 진화
File 기반 Data 모델에서 출발하여 RDBMS를 거쳐 Bigdata 처리 기술로 발전
- Data 저장/처리에서 출발하여, 실시간 데이터 처리와 분석요건의 만족을 위한 방향으로 진화 중에 있음
'공부 일지 (기타) > 경영정보시스템' 카테고리의 다른 글
| 전사적 애플리케이션 (1) (0) | 2023.10.10 |
|---|---|
| 정보통신, 인터넷과 무선기술 (1) | 2023.10.05 |
| IT 기반 구조 및 최신 기술 (0) | 2023.09.07 |
| 경쟁우위 일반 전략과 가치 사슬 (0) | 2023.09.05 |
| 조직과 경제세력모델 (0) | 2023.08.21 |