데이터베이스와 정보관리

데이터 자원 관리

데이터란 : 가공되지 않은 기본적인 사실(facts), 그림(figures), 관찰(observations), 측정(measurements) 등으로 정의

데이터의 품질 :

데이터의 유용성을 결정할 뿐만 아니라 데이터에 기반한 의사결정에 대한 다양한 형태의 분석을 나타냄
데이터가 명확하지 않거나, 원천적인 데이터 손실, 부주의한 데이터 추출로 인하여 나타나는 손실은 이루 말할 수 없이 많은 비용이 발생함

→ 결론 : 의사결정의 가장 기본은 데이터이고, 데이터의 품질은 의사결정의 정확성을 향상시킨다.

부연설명 ) 왜 좋은 데이터를 넣어야 하는가 : garbage in garbage out , 쓰레기를 넣으면 쓰레기가 나온다. 데이터의 품질이 안 좋으면 아무리 좋은 정보시스템이라 한들 아무 소용이 없다.

❓ 효과적인 정보시스템은 어때야 할까?

정확하고 : 데이터에 오류가 없음
시의적절하며 : 데이터가 의사결정자가 원하는 시점에 사용될 수 있음
적합한 데이터를 제공한다 : 데이터가 필요한 작업이나 의사결정에 대해 유용하고 적절함

파일 구성의 개념

필드(field): 데이터가 정보의 의미를 가지기 위해 필요로 하는 최소의 데이터 단위
레코드(record): 필드들이 모여서 구성
파일(file): 동일한 형식으로 구성된 레코드들
데이터베이스(database): 관련 파일들이 모여 구성

그러나 이런 체계를 처음부터 썼을리가. 그렇다면 뭔가 문제가 있어서 썼을 것이다.

과거에는 데이터베이스 대신 파일을 사용했었다.

전통적 파일 환경의 문제점(파일들이 여러 부서들에서 개별적으로 보유됨)

데이터 중복(data redundancy): 여러 데이터 파일들에서 데이터들이 중복적으로 나타남
데이터 불일치(data inconsistency): 같은 속성이 다른 값을 가짐
프로그램-데이터 의존성(program-data dependence): 프로그램의 변화가 있을 때 프로그램이 접근하는 데이터의 변화를 요구함
유연성 부족
부실한 보안성
데이터 공유 및 가용성 결여

💡 결론
전통적인 파일 처리 방식은 기업의 기능 영역들로 하여금 자신에 특화된 애플리케이션의 개발을 부추긴다. 각각의 애플리케이션 은 마스터 파일의 일부분이 될 가능성이 높은 나름대로의 고유한 데이터 파일을 필요로 한다. 이런 파일들은 데이터의 중복 및 불 일치, 처리 유연성의 저하, 저장 자원의 낭비를 초래한다.

데이터베이스관리시스템

데이터베이스(database)

데이터의 중복을 최소화하기 위해 데이터를 통합해둠으로써 모든 응용프로그램들이 공유할 수 있도록 조직화된 데이터의 집합체
조직의 구성원들이 보다 일관된 데이터를 효과적으로 공유할 수 있게 해 주는 것이 특징

1) DBMS(Database Management System)

개별적인 응용프로그램들로 하여금 데이터에 접근하는 것을 가능하게 해 주는 소프트웨어. DB 생성 / 처리 / 관리 가능
ex : Microsoft Access, DB2, Oracle Database, Microsoft SQL Server, MYSQL
SQL(Structured Query Language) : 데이터베이스를 구축하고 활용하기 위해 사용하는 언어

따라서 데이트베이스관리시스템으로 다음과 같은 방식으로 전통적 파일 환경의 문제점 해결했다.

중복에 대한 통제
불일치 제거
프로그램과 데이터의 분리
조직은 중앙에서 데이터와 데이터 보안을 관리할 수 있음

2) 관계형 DBMS(relational DBMS)

데이터들을 2차원의 테이블(관계(relation)라 부름)들로 표현함

테이블(table): 행과 열로 구성됨

행(터플(tuples)): 레코드
필드(열, 컬럼(columns)): 개체의 속성
키(key)
- 주키(primary key): 레코드 각각을 고유하게 식별하는 값
- 외래키(foreign key): 원본 테이블과 연결된 레코드들을 식별하기 위하여 외래 테이블에서 색인 필드로 사용되는 주키

💡 부연설명
하나의 관계형 데이터베이스는 데이터들을 2차원 테이블 형태로 구성한다.
여기서 설명된 공급자와 부품 개체들에 대한 테이블들은 각각의 개체와 그것의 속성들이 어떻게 표현되는지를 보여준다.
공급자_번호는 공급자 테이블에 대해서는 주키이고,
부품 테이블에 대해서는 외래키이다.

3) 비관계형 데이터베이스: “NoSQL”

보다 유연한 데이터 모델
다수의 하드웨어에 분산되어 있는 대규모 데이터
용이한 데이터 규모 확장성
대용량의 구조적, 반구조적 데이터들을 다룸 (웹, 소셜 미디어, 그래픽)

4) 클라우드 데이터베이스

Amazon Relational Database Service, Microsoft SQL Azure
사설 클라우드

DB 도구 및 기술

디바이스 : 스마트폰 : 개인 정보 + 위치 정보

센서 데이터 :

사물인터넷(IoT)
M2M (Machine to Machine) : 사물이 감지장치를 통해 정보를 전달
- 차량 센서, 스마트 가전, 헬스/의료 모니터링 기기, 건축물 진동 센서 등

공공/기업 데이터 :

공공 데이터 : 건강, 환경, 교통, 세금, 교육, 범죄 등
기업 데이터 : 생산, 회계, 고객 관련 데이터 등

인터넷/소셜미디어 :

빅데이터란?

2011년 10월 가트너가 발표한 ‘2012년 전략기술 톱10’에 포함
일반적인 DB SW의 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 (McKinsey, 2011)
DB는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 (IDC, 2011)

수업에서는 정의를 다음 같이 한다 :

기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합으로, 데이터로부터 가치를 추출하고 결과를 분석하는 기술

빅데이터의 3대 특징 :

데이터 양(volume), 다양한 형태(variety), 생성 속도(velocity)라는 의미를 함축할 뿐만 아니라 데이터가 가지고 있는 가치에 초점을 둠

2. 데이터의 양 : 2022년에는 80 제타바이트로 증가할 것으로 예측

3. 1제타바이트는 1조 1000억 기가바이트에 해당, MP3 음악(1곡 3MB 기준) 281조 5000억 곡을 저장할 수 있는 용량.

이런 빅데이터의 흐름에 따른 변화는 다음과 같다.

기업 경쟁력의 무게중심 이동

하드웨어 -> 소프트웨어 -> 데이터

“ 데이터는 소프트웨어 인프라가 대부분 오픈소스화 또는 범용품화 되는 시스템에서 (가치의) 유일한 원천 요소이다.” (Tim O’Reilly, 오라일리 미디어 CEO)

기업 데이터는 조직 경험의 집합체이자 고객과 나눈 상호작용 역사이기 때문에 값으로 따질 수 없는 중요한 전략적 자산
고객의 반응이나 무반응, 구매 의사결정, 고객 유지 및 이탈, 부정행위, 신용 부도, 제품 결함에 대한 불만 등은 기업에 학습 경험을 제공

→ 문제해결, 의사결정 향상, 새로운 가치 창출

빅데이터는 전략적 의사결정의 중요 도구

매출증가 : 아마존, 넥플릭스 등은 수년간 축적된 데이터를 분석 한 고객 추천서비스를 개발하여 수익 극대화
품질개선 : 볼보와 GM은 자동차, 생산 데이터, 운전자 데이터를 수집ᆞ분석하여 제품 품질 개선에 활용
미래전략 : IBM은 사내에 200명 이상 수학자들이 분석해 도출한 핵심분야를 집중 연구함으로써 500개 이상의 관련 특허를 취득하고 미래 사업을 준비

빅데이터 처리 프로세스

💡 데이터 수집 > 데이터 저장 및 처리 > 데이터 분석 > 데이터 표현

빅데이터는 성과와 의사결정 향상을 위한 도구

데이터웨어하우스(data warehouse) : 창고
- 다수의 핵심적인 거래처리시스템들로부터 현재 및 과거 데이터들을 저장함
- 전사적인 사용을 위해 정보를 통합하고 표준화하지만, 변경은 할 수 없음
데이터마트(data mart)
- 데이터웨어하우스의 일부분
- 특정 사용자 집단이 사용할 수 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분
- 초점은 일반적으로 단일 주제 영역이나 업무 영역에 맞춤
하둡(Hadoop)
- 저렴한 컴퓨터들에 걸쳐 있는 방대한 양의 데이터들을 분산병행처리 방식으로 다룰 수 있게 해줌
- 핵심 서비스• 하둡 분산 파일 시스템(Hadoop Distributed File System: HDFS): 데이터 저장소• 맵리듀스(MapReduce): 데이터들을 처리 작업 그룹들로 분할함 • Hbase: NoSQL 데이터베이스
- Facebook, Yahoo, NextBio 등이 사용하고 있음
분석 도구: 관계성, 패턴, 추세
- 비즈니스 의사결정을 더 잘 할 수 있도록 대용량의 데이터를 통합하고 분석하는 도구
  - 다차원 데이터 분석 (OLAP)
  - 데이터마이닝
  - 텍스트마이닝
  - 웹마이닝
온라인분석처리(OnLine Analytical Processing: OLAP)
- 다차원(multidimensional) 데이터 분석 지원
  - 여러 개의 기준을 이용하여 데이터를 다차원 데이터를 보여줌
  - 각각의 차원은 정보에 대한 각 측면(제품, 가격, 비용, 지역, 또는 기간)을 의미함
→ 다차원 정보 : 다양한 각도에서 분석될 수 있는 정보를 의미
데이터마이닝(data mining)
- 데이터베이스에 숨겨진 데이터의 패턴과 관계들을 찾아냄 (예:고객들의구매패턴)
- 미래의 행위를 예측하기 위한 규칙들을 추론함
- 데이터마이닝을 통해 얻을 수 있는 정보들의 유형
  - 연관(association)
  - 순차(sequence)
  - 분류(classification)
  - 군집화(clustering)
  - 예측(forecasting)
텍스트마이닝(text mining)
- 대용량의 비구조적 데이터세트로부터 중요한 요소들을 추출함
  - 이메일
  - 콜센터 상담 녹취록
  - 고소장특허 기술(descriptions)
  - 서비스 보고서 등등
- 감정 분석(sentiment analysis) 소프트웨어
  - 이메일, 블로그, 소셜 미디어를 분석하여 의견(우호적/비우호적)들을 파악함
웹마이닝(web mining)
- 웹으로부터 유용한 패턴과 정보들을 발견해내고 분석하는 것
  - 고객 행위 이해
  - 웹사이트의성과평가등등
- 웹콘텐츠마이닝(web content mining) : 웹 페이지들의 콘텐츠들을 분석함
- 웹구조마이닝(web structure mining) : 웹 페이지와 관련된 링크들을 분석함
- 웹사용마이닝(web usage mining) : 웹 서버에 기록된 사용자 상호작용 데이터들을 분석

빅데이터 활용 사례

서울시 올빼미 버스
구글 트렌드

DBMS 진화

File 기반 Data 모델에서 출발하여 RDBMS를 거쳐 Bigdata 처리 기술로 발전

Data 저장/처리에서 출발하여, 실시간 데이터 처리와 분석요건의 만족을 위한 방향으로 진화 중에 있음

'공부 일지 (기타) > 경영정보시스템' 카테고리의 다른 글

전사적 애플리케이션 (1) (0)	2023.10.10
정보통신, 인터넷과 무선기술 (1)	2023.10.05
IT 기반 구조 및 최신 기술 (0)	2023.09.07
경쟁우위 일반 전략과 가치 사슬 (0)	2023.09.05
조직과 경제세력모델 (0)	2023.08.21

Different or Die

데이터베이스와 정보관리

'공부 일지 (기타) > 경영정보시스템' 카테고리의 다른 글

티스토리툴바

데이터베이스와 정보관리

'공부 일지 (기타) > 경영정보시스템' 카테고리의 다른 글

관련글

티스토리툴바