본문 바로가기
공부 일지 (기타)/경영정보시스템

데이터베이스와 정보관리

by 해적왕을 꿈꾸는 사람 2023. 9. 12.

데이터 자원 관리 

 

데이터란 : 가공되지 않은 기본적인 사실(facts), 그림(figures), 관찰(observations), 측정(measurements) 등으로 정의

 

데이터의 품질 :

  • 데이터의 유용성을 결정할 뿐만 아니라 데이터에 기반한 의사결정에 대한 다양한 형태의 분석을 나타냄
  • 데이터가 명확하지 않거나, 원천적인 데이터 손실, 부주의한 데이터 추출로 인하여 나타나는 손실은 이루 말할 수 없이 많은 비용이 발생함

→ 결론 : 의사결정의 가장 기본은 데이터이고, 데이터의 품질은 의사결정의 정확성을 향상시킨다.

 

부연설명 ) 왜 좋은 데이터를 넣어야 하는가 : garbage in garbage out , 쓰레기를 넣으면 쓰레기가 나온다. 데이터의 품질이 안 좋으면 아무리 좋은 정보시스템이라 한들 아무 소용이 없다.

 


 효과적인 정보시스템은 어때야 할까?

  • 정확하고 : 데이터에 오류가 없음
  • 시의적절하며 : 데이터가 의사결정자가 원하는 시점에 사용될 수 있음
  • 적합한 데이터를 제공한다 : 데이터가 필요한 작업이나 의사결정에 대해 유용하고 적절함 

파일 구성의 개념 

 

  • 필드(field): 데이터가 정보의 의미를 가지기 위해 필요로 하는 최소의 데이터 단위
  • 레코드(record): 필드들이 모여서 구성
  • 파일(file): 동일한 형식으로 구성된 레코드들
  • 데이터베이스(database): 관련 파일들이 모여 구성

그러나 이런 체계를 처음부터 썼을리가. 그렇다면 뭔가 문제가 있어서 썼을 것이다.

 

과거에는 데이터베이스 대신 파일을 사용했었다. 

 

전통적 파일 환경의 문제점(파일들이 여러 부서들에서 개별적으로 보유됨)

  • 데이터 중복(data redundancy): 여러 데이터 파일들에서 데이터들이 중복적으로 나타남
  • 데이터 불일치(data inconsistency): 같은 속성이 다른 값을 가짐
  • 프로그램-데이터 의존성(program-data dependence): 프로그램의 변화가 있을 때 프로그램이 접근하는 데이터의 변화를 요구함
  • 유연성 부족
  • 부실한 보안성
  • 데이터 공유 및 가용성 결여

💡 결론
전통적인 파일 처리 방식은 기업의 기능 영역들로 하여금 자신에 특화된 애플리케이션의 개발을 부추긴다. 각각의 애플리케이션 은 마스터 파일의 일부분이 될 가능성이 높은 나름대로의 고유한 데이터 파일을 필요로 한다. 이런 파일들은 데이터의 중복 및 불 일치, 처리 유연성의 저하, 저장 자원의 낭비를 초래한다.


데이터베이스관리시스템

 

 

데이터베이스(database)

  • 데이터의 중복을 최소화하기 위해 데이터를 통합해둠으로써 모든 응용프로그램들이 공유할 수 있도록 조직화된 데이터의 집합체
  • 조직의 구성원들이 보다 일관된 데이터를 효과적으로 공유할 수 있게 해 주는 것이 특징

1) DBMS(Database Management System)

  • 개별적인 응용프로그램들로 하여금 데이터에 접근하는 것을 가능하게 해 주는 소프트웨어. DB 생성 / 처리 / 관리 가능
  • ex : Microsoft Access, DB2, Oracle Database, Microsoft SQL Server, MYSQL
  • SQL(Structured Query Language) : 데이터베이스를 구축하고 활용하기 위해 사용하는 언어

따라서 데이트베이스관리시스템으로 다음과 같은 방식으로 전통적 파일 환경의 문제점 해결했다.

  • 중복에 대한 통제
  • 불일치 제거
  • 프로그램과 데이터의 분리
  • 조직은 중앙에서 데이터와 데이터 보안을 관리할 수 있음

2) 관계형 DBMS(relational DBMS)

  • 데이터들을 2차원의 테이블(관계(relation)라 부름)들로 표현함

테이블(table): 행과 열로 구성됨

  • 행(터플(tuples)): 레코드
  • 필드(열, 컬럼(columns)): 개체의 속성
  • 키(key)
    • 주키(primary key): 레코드 각각을 고유하게 식별하는 값
    • 외래키(foreign key): 원본 테이블과 연결된 레코드들을 식별하기 위하여 외래 테이블에서 색인 필드로 사용되는 주키

💡 부연설명
하나의 관계형 데이터베이스는 데이터들을 2차원 테이블 형태로 구성한다.
여기서 설명된 공급자와 부품 개체들에 대한 테이블들은 각각의 개체와 그것의 속성들이 어떻게 표현되는지를 보여준다.
공급자_번호는 공급자 테이블에 대해서는 주키이고,
부품 테이블에 대해서는 외래키이다.

3) 비관계형 데이터베이스: “NoSQL”

  • 보다 유연한 데이터 모델
  • 다수의 하드웨어에 분산되어 있는 대규모 데이터
  • 용이한 데이터 규모 확장성
  • 대용량의 구조적, 반구조적 데이터들을 다룸 (웹, 소셜 미디어, 그래픽)

4) 클라우드 데이터베이스

  • Amazon Relational Database Service, Microsoft SQL Azure
  • 사설 클라우드

DB 도구 및 기술

 

디바이스 : 스마트폰 : 개인 정보 + 위치 정보

센서 데이터 :

  • 사물인터넷(IoT)
  • M2M (Machine to Machine) : 사물이 감지장치를 통해 정보를 전달
    • 차량 센서, 스마트 가전, 헬스/의료 모니터링 기기, 건축물 진동 센서 등

공공/기업 데이터 :

  • 공공 데이터 : 건강, 환경, 교통, 세금, 교육, 범죄 등
  • 기업 데이터 : 생산, 회계, 고객 관련 데이터 등

인터넷/소셜미디어 :

 

빅데이터란?

  • 2011년 10월 가트너가 발표한 ‘2012년 전략기술 톱10’에 포함
  • 일반적인 DB SW의 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 (McKinsey, 2011)
  • DB는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 (IDC, 2011)

수업에서는 정의를 다음 같이 한다 :

기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의 집합으로, 데이터로부터 가치를 추출하고 결과를 분석하는 기술

 

빅데이터의 3대 특징 :

  1. 데이터 양(volume), 다양한 형태(variety), 생성 속도(velocity)라는 의미를 함축할 뿐만 아니라 데이터가 가지고 있는 가치에 초점을 둠

 

  2. 데이터의 양 : 2022년에는 80 제타바이트로 증가할 것으로 예측

  3. 1제타바이트는 1조 1000억 기가바이트에 해당, MP3 음악(1곡 3MB 기준) 281조 5000억 곡을 저장할 수 있는 용량. 


이런 빅데이터의 흐름에 따른 변화는 다음과 같다. 

 

기업 경쟁력의 무게중심 이동

  • 하드웨어 -> 소프트웨어 -> 데이터

“ 데이터는 소프트웨어 인프라가 대부분 오픈소스화 또는 범용품화 되는 시스템에서 (가치의) 유일한 원천 요소이다.” (Tim O’Reilly, 오라일리 미디어 CEO)

  • 기업 데이터는 조직 경험의 집합체이자 고객과 나눈 상호작용 역사이기 때문에 값으로 따질 수 없는 중요한 전략적 자산
  • 고객의 반응이나 무반응, 구매 의사결정, 고객 유지 및 이탈, 부정행위, 신용 부도, 제품 결함에 대한 불만 등은 기업에 학습 경험을 제공

→ 문제해결, 의사결정 향상, 새로운 가치 창출

 

빅데이터는 전략적 의사결정의 중요 도구

  • 매출증가 : 아마존, 넥플릭스 등은 수년간 축적된 데이터를 분석 한 고객 추천서비스를 개발하여 수익 극대화
  • 품질개선 :  볼보와 GM은 자동차, 생산 데이터, 운전자 데이터를 수집ᆞ분석하여 제품 품질 개선에 활용
  • 미래전략 : IBM은 사내에 200명 이상 수학자들이 분석해 도출한 핵심분야를 집중 연구함으로써 500개 이상의 관련 특허를 취득하고 미래 사업을 준비

빅데이터 처리 프로세스


💡 데이터 수집 > 데이터 저장 및 처리 > 데이터 분석 > 데이터 표현

 

 

빅데이터는 성과와 의사결정 향상을 위한 도구

  • 데이터웨어하우스(data warehouse) : 창고
    • 다수의 핵심적인 거래처리시스템들로부터 현재 및 과거 데이터들을 저장함
    • 전사적인 사용을 위해 정보를 통합하고 표준화하지만, 변경은 할 수 없음
  • 데이터마트(data mart)
    • 데이터웨어하우스의 일부분
    • 특정 사용자 집단이 사용할 수 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분
    • 초점은 일반적으로 단일 주제 영역이나 업무 영역에 맞춤
  • 하둡(Hadoop)
    • 저렴한 컴퓨터들에 걸쳐 있는 방대한 양의 데이터들을 분산병행처리 방식으로 다룰 수 있게 해줌
    • 핵심 서비스• 하둡 분산 파일 시스템(Hadoop Distributed File System: HDFS): 데이터 저장소• 맵리듀스(MapReduce): 데이터들을 처리 작업 그룹들로 분할함 • Hbase: NoSQL 데이터베이스
    • Facebook, Yahoo, NextBio 등이 사용하고 있음
  • 분석 도구: 관계성, 패턴, 추세
    • 비즈니스 의사결정을 더 잘 할 수 있도록 대용량의 데이터를 통합하고 분석하는 도구
      • 다차원 데이터 분석 (OLAP)
      • 데이터마이닝
      • 텍스트마이닝
      • 웹마이닝
  • 온라인분석처리(OnLine Analytical Processing: OLAP)
    • 다차원(multidimensional) 데이터 분석 지원
      • 여러 개의 기준을 이용하여 데이터를 다차원 데이터를 보여줌
      • 각각의 차원은 정보에 대한 각 측면(제품, 가격, 비용, 지역, 또는 기간)을 의미함
    → 다차원 정보 : 다양한 각도에서 분석될 수 있는 정보를 의미
  • 데이터마이닝(data mining)
    • 데이터베이스에 숨겨진 데이터의 패턴과 관계들을 찾아냄 (예:고객들의구매패턴)
    • 미래의 행위를 예측하기 위한 규칙들을 추론함
    • 데이터마이닝을 통해 얻을 수 있는 정보들의 유형
      • 연관(association)
      • 순차(sequence)
      • 분류(classification)
      • 군집화(clustering)
      • 예측(forecasting)
  • 텍스트마이닝(text mining)
    • 대용량의 비구조적 데이터세트로부터 중요한 요소들을 추출함
      • 이메일
      • 콜센터 상담 녹취록
      • 고소장특허 기술(descriptions)
      • 서비스 보고서 등등
    • 감정 분석(sentiment analysis) 소프트웨어
      • 이메일, 블로그, 소셜 미디어를 분석하여 의견(우호적/비우호적)들을 파악함
  • 웹마이닝(web mining)
    • 웹으로부터 유용한 패턴과 정보들을 발견해내고 분석하는 것
      • 고객 행위 이해
      • 웹사이트의성과평가등등
    • 웹콘텐츠마이닝(web content mining) : 웹 페이지들의 콘텐츠들을 분석함
    • 웹구조마이닝(web structure mining) : 웹 페이지와 관련된 링크들을 분석함
    • 웹사용마이닝(web usage mining) : 웹 서버에 기록된 사용자 상호작용 데이터들을 분석

빅데이터 활용 사례

  • 서울시 올빼미 버스
  • 구글 트렌드

DBMS 진화

 

File 기반 Data 모델에서 출발하여 RDBMS를 거쳐 Bigdata 처리 기술로 발전

  • Data 저장/처리에서 출발하여, 실시간 데이터 처리와 분석요건의 만족을 위한 방향으로 진화 중에 있음