[데이터분석전문가가이드(ADP,ADSP)] 1.1 데이터와 정보
1.1 데이터와 정보
1.1.1 데이터와 정보
1. 데이터의 정의
데이터란, 추론과 추정의 근거를 이루는 사실
구분 |
형태 |
예 |
정성적 데이터(qualitative data) |
언어, 문자 등 |
회사 매출이 증가함 |
정량적 데이터(quantitative data) |
수치, 도형, 기호 등 |
30(나이), 48.4(kg) |
[표 1-1-1] 데이터 유형
- 정성적 데이터 : 수치로 명확하게 표현되는 데이터로써 데이터 관리 시스템(ex)DBMS)에 저장·검색·분석하여 활용하기가 용이.
- 정량적 데이터 : 비정형 데이터라 불리우며, 트위터나 페이스북, 블로그 등에 올린 글 등과 같은 글.
암묵지 |
형식지 |
공통화(Socialization) |
표출화(Externalization) |
내면화(Internalization) |
연결화(Combination) |
[표 1-1-2] 암묵지와 형식지의 상호작용
- 암묵지 : 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식으로 개인에게 체화되어 있기 때문에 외부에 표출되어 다른 사람에게 공유되기 어렵다.
ex) 김장김치 담그기, 자전거 타기
- 형식지 : 유형의 지식으로 지식의 전달과 공유 가능하다.
ex) 교과서, 매뉴얼, DB
암묵지 -> 형식지 : 개인의 내면화를 공통화하고 연결화하여 객관적인 데이터로 가공·분석하는 과정을 거쳐 표출화한다.
2. 데이터와 정보의 관계
지혜(Wisdom) |
근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 ex) A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단 |
지식(Knowledge) |
상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다. |
정보(Infromation) |
데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 ex) A마트의 연필가격이 더 싸다. |
데이터(Data) |
존재형식을 불문하고 타 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 ex) A마트 100원에, B마트는 200원에 연필을 판매 |
1.1.2 데이터베이스 정의와 특징
1. 용어의 연역
데이터베이스(Database) : 데이터(data)의 기지(base), 수집된 자료를 일컫는 말.
2. 데이터베이스의 정의
[EU 데이터베이스의 법적 보호에 관한 지침] 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물.
[국내 저작권 법] 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것.
[정보통신용어사전, TTA] 관련된 레코드의 집합, 소프트웨어로는 데이터베이스관리시스템(DBMS : Database Management System)을 의미.
- 데이터베이스 = 통합된 데이터(intergrated data) : 중복 존재하지 않음.
- 데이터베이스 = 저장된 데이터(stored data) : 저장매체에 저장 되는 것.
- 데이터베이스 = 공용 데이터(shared data) : 데이터를 공동으로 사용 가능.
- 데이터베이스 = 변화하는 데이터 : 삽입·삭제·갱신으로 항상 변화하며 정확한 데이터로 유지.
- 정보의 축적 및 전달 측면 : 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기가 읽고 쓸 수 있도록 하는 기계가독성과 다양한 방법으로 필요한 정보를 검색할 수 있는 검색가능성, 그리고 정보통신망을 통하여 원거리에서도 즛기 온라인으로 이용할 수 있는 원격조작성을 갖음.
- 정보 이용 측면 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음.
- 정보 관리 측면 : 정보를 일정한 질서와 구조에 따라 정리·저장하고 검색·관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이.
- 정보 기술 발전 측면 : 데이터베이스는 정보처리, 검색·관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인 할 수 있음.
- 경제·산업적 측면 : 데이터베이스는 다양한 정보를 필요에 따라 신속하게 제공·이용할 수 있는 인프라로서 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로서 의미를 갖음.
2. 사회기반구조로서의 데이터베이스
가. 물류부분
- CVO 서비스(Commercial Vehicle Operation System, 화물운송정보), EDI 서비스, 데이터베이스 서비스(물류정보), 부가서비스로 구성.
- 기업 물류정보(이삿짐, 택배, 정책, 법령, 물류시설, 장비), 해양수산 데이터베이스(항만정보, 물류관련 정책 정보) 개발.
- 현대 택배의 HYDEX(택배정보시스템), 한진의 GIOVAN(물류정보서비스, 물류비즈니스 서비스), 등등
나. 지리부분
- GIS, RS(Remote Sensing), GPS(Global Positioning System), ITS(Intelligent Transport System) 기술을 통합하여 새로운 GIS 응용에 활용하는 4S 통합기술, LBS(Location Based Service) 기술, SIM(Spartial Information Management), 공간 DBMS 등 GIS 개발.
다. 교통부분
- 실시간 교통정보 : 지능형교통시스템(ITS, Intelligent Transport System), 방송매체 등에서 교통소통을 목적으로 운전자에게 제공되는 정보
- 비실시간 교통정보 : 교통정책 및 계획 수립 등에 필요한 교통 분야별 기초자료 및 통계를 제공하는 데이터베이스
라. 의료부분
- 처방전달시스템, 임상병리, 전자의무기록, 영상처리시스템 PACS(Picture Archiving and Communications System), 병원의 멀티미디어, 원격의료, 지식정보화
- u 헬스(ubiquitous-Health) 등장
마. 교육부분
- 에뉴넷(Edunet)과 16개 시·도 교육청 홈페이지 어느 곳에서나 전국의 교육자료를 원스톱 검색 가능.
- 교육행정정보시스템(NEIS, National Education Information System) 개발.