본문 바로가기
정보처리기사/실기

정보처리기사 실기 2장 - 데이터 입출력 구현 (1)

by 애기 개발자 2024. 6. 14.
반응형

29. 데이터베이스 개요 (A)

1. 데이터저장소

  • 데이터 저장소는 데이터들을 논리적인 구조로 조직화하거나, 물리적인 공간에 구축한 것
  • 논리 데이터저장소는 데이터 및 데이터 간의 연관성, 제약조건을 식별하여 논리적인 구조로 조직화한 것
  • 물리 데이터저장소는 논리 데이터저장소를 소프트웨어가운용될 환경의 물리적 특성을 고려하여 실제 저장장치에 저장한 것

2. 데이터베이스(Database)

  • 공동으로 사용될데이터를 중복을 배제하여 통합하고, 쉽게 접근하여 처리할 수 있도록 저장장치에 저장하여 항상 사용할 수 있도록 운영하는 운영 데이터
  • 데이터베이스 구분
    • 통합된 데이터(Integrated Data) : 자료의 중복을 배제한 데이터의 모임
    • 저장된 데이터 (Stored Data) : 컴퓨터가 접근할 수 있는 저장 매체에 저장된 자료
    • 운영 데이터 (Operational Data) : 조직의 고유한 업무를 수행하는 데 반드시 필요한 자료
    • 고용 데이터 (Shared Data) : 여러 응용 시스템들이 공동으로 소유하고 유지하는 자료

3. DBMS(DataBase Management System; 데이터베이스 관리 시스템)

  • 사용자의 요구에 따라 정보를 생성해주고, 데이터베이스를 관리해 주는 소프트웨어
  • DBMS의 필수 기능 3가지
    • 정의(Definition) 기능 : 데이터의 형(Type)과 구조에 대한 정의, 이용 방식, 제약 조건 등을 명시하는 기능
    • 조작(Manipulation) 기능 : 데이터 검색, 갱신, 삽입, 삭제 등을 위해 인터페이스 수단을 제공하는 기능
    • 제어(Control) 기능 : 데이터의 무결성, 보안, 권한 검사, 병행제어를 제공하는 기능

4. 데이터의 독립성

  • 논리적 독립성 : 응용 프로그램과 데이터베이스를 독립시킴으로써, 데이터의 논리적 구조를 변경시키더라도 응용 프로그램은 영향을 받지 않음
  • 물리적 독립성 : 응용 프로그램과 보조기억장치 같은 물리적 장치를 독립시킴으로써, 디스크를 추가/변경하더라도 응용 프로그램은 영향받지 않음

5. 스키마(schema)

  • 데이터베이스의 구조와 제약조건에 관한 전반적인 명세를 기술한 것
  • 외부스키마
    • 사용자나 응용 프로그래머가 각 개인의 입장에서 필요로 하는 데이터베이스의 논리적 구조를 정의한 것
  • 개념 스키마
    • 데이터베이스의 전체적인 구조
    • 모든 응용 프로그램이나사용자들이 필요로 하는 데이터를 종합한 조직 전체의 데이터베이스로, 하나만 존재함
  • 내부 스키마
    • 물리적 저장장치의 입장에서 본 데이터베이스 구조
    • 실제로 저장될 레코드의 형식, 저장 데이터 항목의 표현 방법, 내부 레코드의 물리적 순서 등을 나타냄

30. 데이터베이스 설계 (A)

2. 데이터베이스 설계 시 고려사항

  • 무결성
    • 삽입, 삭제, 갱신 등의 연산 후에도 데이터베이스에 저장된 데이터가 정해진제약 조건을 항상 만족해야 함
  • 일관성
    • 데이터베이스에 저장된 데이터들 사이나, 특정 질의에 대한 응답이 처음부터 끝까지 변함없이 일정해야 함
  • 회복
    • 시스템에 장애가 발생했을 때 장애 발생 직전의 상태로 복수할 수 있어야 함
  • 보안
    • 불법적인 데이터의 노출 또는 변경이나 손실로부터 보호할 수 있어야 함
  • 효율성
    • 응답시간의 단축, 시스템의 생산성, 저장 공간의 최적화 등이 가능해야 함
  • 데이터베이스 확장
    • 데이터베이스 운영에 영향을 주지 않으면서 지속적으로 데이터를 추가할 수 있어야 함

3. 데이터베이스 설계 순서

  1. 요구 조건분석 : 요구 조건 명세서 작성
  2. 개념적 설계 : 개념 스키마, 트랜잭션 모델링, E-R 모델
  3. 논리적 설계 : 목표 DBMS에 맞는 논리 스키마 설계, 트랜잭션 인터페이스 설계
  4. 물리적 설계 : 목표 DBMS에 맞는 물리적 구조의 데이터로 변환
  5. 구현 : 목표 DBMS의 DDL(데이터 정의어)로 데이터베이스 생성, 트랜잭션 작성

4. 요구 조건 분석

  • 요구 조건 분석은 데이터베이스를 사용할 사람들로부터 필요한 용도를 파악하는 것
  • 수집된 정보를 바탕으로 요구 조건 명세를 작성

5. 개념적 설계 (정보 모델링, 개념화)

  • 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
  • 개념 스키마 모델링과 트랜잭션 모델링을 병행 수행한다.
  • 요구 분석에서 나온 요구 조건 명세를 DBMS에 독립적인 E-R 다이어그램으로 작성
  • DBMS에 독립적인 개념 스키마 설계

6. 논리적 설계 (데이터 모델링)

  • 현실세계에서 발생하는 자료를 컴퓨터가 이해하고 처리할 수 있는 물리적 저장장치에 저장할 수 있도록 변화하기 위해 특정 DBMS가 지원하는 논리적 자료 구조로 변환(mapping)시키는 과정
  • 논리 스키마 설계, 트랜잭션 인터페이스 설계

 7. 물리적 설계 (데이터 구조화)

  • 논리적 구조로 표현된 데이터를 물리적 구조의 데이터로 변환하는 과정

8. 데이터베이스 구현

  • 논리적 설계와 물리적 설계에서 도출된 데이터베이스 스키마를 파일로 생성하는 과정
  • DDL(데이터 정의어)를 이용하여 데이터베이스 스키마를 기술한 후 컴파일하여 빈 데이터베이스 파일을 생성한다.
  • 응용 프로그램을 위한 트랜잭션을 작성

31. 데이터 모델의 개념

1. 데이터 모델

  • 데이터 모델은 현실 세계의 정보들을 컴퓨터에 표현하기 위해 단순화, 추상화하여 체계적으로 표현한 개념적 모형
  • 데이터 모델 구성 요소 : 개체, 속성, 관계
  • 데이터 모델 종류 : 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델
  • 데이터 모델에 표시할 요소 : 구조, 연산, 제약 조건

2. 개념적 데이터 모델

  • 현실 세계에 대한 인간의 이해를 돕기 위해 현실세계에 대한 인식을 추상적 개념으로 표현하는 과정
  • 인간이 이해할 수 있는 정보 구조로 표현하기 때문에 정보 모델이라고도 함
  • E-R 모델

3. 논리적 데이터 모델

  • 개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터가 읽을 수 있도록 변환하는 과정
  • 데이터 모델 = 논리적 데이터 모델을 의미

4. 데이터 모델에 표시할 요소

  • 구조 (Structure) : 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질 표현
  • 연산 (Operation) : 데이터베이스에 저장된 실제 데이터를 처리하는 작업에 대한 명세로서 데이터베이스를 조작하는 기본 도구
  • 제약 조건 (Constraint) : 데이터베이스에 저장될 수 있는 실제 데이터의 논리적 제약 조건

32. 데이터 모델의 구성 요소 (D)?

 

 

1. 개체 (Entity)

  • 데이터베이스에 표현하려는 것. 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
  • 다른 개체와 하나 이상의 관계가 있다.

2. 속성 (Attribute)

  • 데이터베이스를 구성하는 가장 작은 논리적 단위
  • 속성은 개체를 구성하는 항목으로 개체의 특성을 기술
  • 속성의 수를 차수(Degree)라고 한다.

3. 속성의 특성에 따른 분류

  • 기본 속성 (Basic Attribute)
    • 업무 분석을 통해 정의한 속성
    • 속성 중 가장 많고 일반적
    • 업무로부터 분석한 속성이라도 업무상 코드로 정의한 속성은 기본 속성에서 제외
  • 설계 속성 (Designed Attirbute)
    • 원래 업무상 존재하지 않고 설계 과정에서 도출해 내는 속성
    • 업무에 필요한 데이터 외에 데이터 모델링을 위해 업무를 규칙화하려고 속성을 새로 만들거나 변형하여 정의하는 속성
  • 파생 속성 (Derived Attribute)
    • 다른 속성으로부터 계산이나 변형 등의 영향을 받아 발생하는 속성
    • 파생 속성은 되도록 적은 수를 정의하는 것이 좋음

4. 속성의 개체 구성 방식에 따른 분류

  • 기본키 속성 (Primary Key Attribute)
    • 개체를 유일하게 식별할 수 있는 속성
  • 외래키 속성 (Foreign Key Attribute)
    • 다른 개체와의 관계에서 포함된 속성
  • 일반 속성
    • 개체에 포함되어 있고 기본키, 외래키에 포함되지 않는 속성

5. 관계 (Relationship)

  • 관계는 개체와 개체 사이의 논리적인 연결을 의미
  • 관계에는 개체 간의 관계와 속성 간의 관계가 있다.

6. 관계의 형태

  • 일대일(1:1)
  • 일대다(1:N)
  • 다대다(N:M)

7. 관계의 종류

  • 종속 관계 (Dependent Relationship)
    • 두 개체 사이의 주종관계를 표현
    • 식별 관계와 비식별 관계가 있음
  • 중복 관계 (Redundant Relationship)
    • 두 개체 사이에 2번 이상의 종속 관계가 발생하는 관계
  • 재귀 관계 (Recursive Relationship)
    • 개체가 자기 자신과 관계를 갖는 것으로, 순환 관계라고도 함
  • 배타 관계 (Exclusive Relationship)
    • 개체의 속성이나 구분자를 기준으로 개체의 특성을 분할하는 관계로, 배타 AND관계와 배타 OR 관계로 구분

33. E-R (개체-관계) 모델 (B)

1. E-R (Entity-Relationship, 개체-관계) 모델

  • E-R 모델은 개체와 개체 간의 관계를 기본 요소로 이용하여 현실 세계의 무질서한 데이터를 개념적인 논리 데이터로 표현하기 위한 방법
  • 개념적 데이터 모델의 가장 대표적
  • 개체타입 (Entity Type)과 이들 간의 관계 타입 (Relationship Type)을이용해 현실 세계를 개념적으로 표현
  • 데이터를 개체, 관계, 속성으로 묘사

2. E-R 다이어그램

 


34. 관계형 데이터베이스

1. 관계형 데이터베이스

  • 2차원적인 표(Table)를 이용해 데이터 상호 관계를 정의하는 데이터베이스
  • 개체와 관계를 모두 릴레이션이라는 표로 표현하기 때문에 개체를 표현하는 개체 릴레이션과 관계를 표현하는 관계 릴레이션이 존재
  • 장점: 간결하고 보기 편리하며, 다른 데이터베이스로의 변환이 용이하다.
  • 단점: 성능이 다소 떨어짐

2. 관계형 데이터베이스의 릴레이션 구조

3. 튜플(Tuple)

  • 릴레이션을 구성하는 각각의 행
  • 속성의 모임으로 구성됨
  • 튜플의 수를 카디널리티 또는 기수, 대응수하고 함

4. 속성 (Attribute)

  • 속성은 데이터베이스를 구성하는 가장 작은 논리적 단위
  • 속성은 개체의 특성을 기술
  • 속성의 수를 디그리 또는 차수라고 함

5. 도메인 (Domain)

  • 도메인은 하나의 속성이 취할 수 있는 같은 타입의 원자값들의 집합

6. 릴레이션의 특징

  • 한 릴레이션에는 똑같은 튜플이 포함될 수 없으므로 릴레이션에 포함된 튜플들은 모두 상이하다
  • 한 릴레이션에 포함된 튜플 사이에는 순서가 없다
  • 튜플들의 삽입, 삭제 등의 작업으로 인해 릴레이션은 시간에 따라 변한다.
  • 릴레이션 스키마를 구성하는 속성들 간의 순서는 중요하지 않다
  • 속성의 유일한 식별을 위해 속성의 명칭은 유일해야 하지만, 속성을 구성하는 값은 동일한 값이 있을 수 있다.
  • 릴레이션을 구성하는 튜플을 유일하게 식별하기 위해 속성들의 부분집합을 키(Key)로 설정한다.
  • 속성의 값은 논리적으로 더 이상 쪼갤 수 없는 원자값만을 저장한다

7. 관계형 데이터 모델 (Relational Data Model)

  • 관계형 데이터 모델은 2차원적인 표(Table)를 이용해서 데이터 상호 관계를 정의하는 DB 구조
  • 가장 널리 사용되는 데이터 모델
  • 기본키와 이를 참조하는 외래키로 데이터 간의 관계를 표현
  • 1:1, 1:N, N:M 관계를 자유롭게 표현할 수 있다.

35. 관계형 데이터베이스의 제약조건 - 키(Key) (A)

1. 키 (Key)

  • 키의 종류
    • 후보키
    • 기본키
    • 대체키
    • 슈퍼키
    • 외래키

2. 후보키 (Candidate Key)

  • 후보키는 릴레이션을 구성하는 속성들 중에서 튜플을 유일하게 식별하기 위해 사용되는 속성들의 부분집합
  • 기본키로 사용할 수 있는 속성들
  • 후보키는 유일성과 최소성을 모두 만족
    • 유일성 : 하나의 키 값으로 하나의 튜플만을 유일하게 식별할 수 있어야 함
    • 최소성 : 키를 구성하는 속성 하나를 제거하면 유일하게 식별할 수 없도록 꼭 필요한 최소의 속성으로 구성

3. 기본키(Primary Key)

  • 기본키는 후보키 중에서 특별히 선정된 주키(Main Key)
  • 기본키는 중복된 값을 가질 수 없다.
  • 기본키는 한 리렐이션에서 특정 튜플을 유일하게 구별할 수 있는 속성
  • 기본키는 NULL이 안됨

4. 대체키 (Alternate Key)

  • 대체키는 후보키가 둘 이상일 때 기본키를 제외한 나머지 후보키
  • 대체키를 보조키라고도함

5. 슈퍼키(Super Key)

  • 슈퍼키는 한 릴레이션 내에 있는 속성들의 집합으로 구성된 키
  • 릴레이션을 구성하는 모든 튜플 중 슈퍼키로 구성된 속성의 집합과 동일한 값은 나타나지 않는다.
  • 슈퍼키는 릴레이션을 구성하는 모든 튜플에 대해 유일성은 만족하지만, 최소성은 만족하지 못한다.

6. 외래키(Foreign Key)

  • 외래키는 다른 릴레이션의 기본키를 참조하는 속성 또는 속성들의 집합
  • 외래키로 지정되면 참조 릴레이션의 기본키에 없는 값은 입력할 수 없다.

36. 관계형 데이터베이스의 제약 조건 - 무결성 (Integrity) (B)

1. 무결성 (Integrity)

  • 무결성은 데이터베이스에 저장된 데이터 값과 그것이 표현하는 현실 세계의 실제값이 일치하는 정확성

2. 무결성의 종류

  • 개체 무결성
    • 기본 테이블의 기본키를 구성하는 어떤 속성도 Null 값이거나 중복값을 가질 수 없다는 규정
  • 참조 무결성
    • 외래키 값은 Null이거나 참조 릴레이션의 기본키 값과 동일해야 함. 즉 릴레이션은 참조할 수 없는 외래키 값을 가질 수 없다는 규정
  • 도메인 무결성
    • 주어진 속성 값이 정의된 도메인에 속한 값이어야 한다는 규정
  • 사용자 정의 무결성
    • 속성 값들이 사용자가 정의한 제약조건에 만족되어야 한다는 규정
  • NULL 무결성
    • 릴레이션의 특정 속성 값이 Null이 될 수 없도록 하는 규정
  • 고유 무결성
    • 릴레이션의 특정 속성에 대해 각 튜플이 갖는 속성값들이 서로 달라야 한다는 규정
  •   키 무결성
    • 하나의 릴레이션에는 적어도 하나의 키가 존재해야 한다는 규정
  • 관계 무결성
    • 릴레이션에 어느 한 튜플의 삽입 가능 여부 또는 한 릴레이션과 다른 릴레이션의 튜플들 사이의 관계에 대한 적절성 여부를 지정한 규정

37. 관계대수 및 관계해석 (A)

1. 관계대수

  • 관계대수는 DB에서 원하는 정보와 그 정보를 검색하기 위해서 어떻게 유도하는가를 기술하는 절차적인 언어
  • 순수 관계 연산자와 일반 집합 연산자가 있음

2. 순수 관계 연산자

  • Select
    • 릴레이션에 존재하는 튜플 중에서 선택 조건을 만족하는 튜플의 부분 집합을 구하여 새로운 릴레이션을 만드는 연산
    • 릴레이션의 행에 해당하는 튜플을 구하는 것이므로 수평 연산이라고도 함
    • σ (시그마)
  • Project
    • 주어진 릴레이션에서 속성 리스트(Attribute List)에 제시된 속성 값만을 추출하여 새로운 릴레이션을 만드는 연산
    • 연산 결과에 중복이 발생하면 중복 제거
    • 릴레이션의 열에 해당하는 속성을 추출하는 것이므로 수직 연산자라고도 함
    • π (파이)
  • Join
    •  공통 속성을 중심으로 두 개의 릴레이션을 하나로 합쳐서 새로운 릴레이션을 만드는 연산
    • Join의 결과는 Cartesian Product(교차곱)를 수행한 다음 Select를 수행한 것과 같음
  • Division
    • X ⊃ Y 인 두 개의 릴레이션 R(X)와 S(Y)가 있을 때 R의 속성이 S의 속성값을 모두 가진 튜플에서 S가 가진 속성을 제외한 속성만을 구하는 연산
    • ÷

3. 일반 집합 연산자

  • 수학적 이론에 사용하는 연산자
  • 합집합(Union), 교집합(Intersection), 차집합(Difference)을 처리하기 위해 합병 조건을 만족해야 한다.
  • 합병 가능한 두 릴레이션 R과 S가 있을 때 각 연산의 특징을 요약하면 다음과 같다. 
연산자 기능 및 수학적 표현 카디널리티
합집합 (UNION)
연산 기호 : 
- 두 릴레이션에 존재하는 튜플의 합집합을 구하는 연산
- 결과로 생성된 릴레이션에서 중복되는 튜플은 제거된다.
- R∪S={t|t∈R  t∈S}
t는 릴레이션 R 또는 S에 존재하는 튜플
|R∪S|  |R| + |S|
합집합의 카디널리티는 두 릴레이션 카디널리티의 합보다 크지 않다.
교집합 (INTERSECTION)
연산 기호 : 
- 두 릴레이션에 존재하는 튜플의 교집합을 구하는 연산
- R∩S={t|t∈R  t∈S}
t는 릴레이션 R과 S에 동시에 존재하는 튜플
|RS|  Min{|R|, |S|}
교집합의 카디널리티는 두 릴레이션 중 카디널리티가 적은 릴레이션의 카디널리티보다 크지 않다.
차집합 (DIFFERENCE)
연산 기호 : -
- 두 릴레이션에 존재하는 튜플의 차집합을 구하는 연산
- R-S={t|t∈R  tS}
t는 릴레이션 R에만 존재하고 S에는 존재하지 않는 튜플
|R-S|  |R|
차집합의 카디널리티는 릴레이션 R의 카디널리티보다 크지 않다.
 
교차곱 (CARTESIAN PRODUCT)
연산 기호 : ×
- 두 릴레이션에 존재하는 튜플들의 결합된 정보를 구하는 연산
- R×S={r · s|r∈R ∧ s∈S}
r · s는 R에 존재하는 튜플 r과 S에 존재하는 튜플 s를 결합한 튜플
|R×S| = |R|×|S|
카티시언 프로덕트의 카디널리티는 두 릴레이션 카디널리티를 곱한 것과 같다

 

 

4. 관계해석 (Relational Calculus)

  • 관계해석은 관계 데이터의 연산을 표현하는 방법
  • 관계해석은 원하는 정보가 무엇이라는 것만 정의하는 비절차적 특성
  • 원하는 정보를 정의할 때는 계산 수식을 사용

38. 이상/함수적 종속 (A)

1. 이상(Anomaly)

  • 테이블에서 일부 속성들의 종속으로 인해 데이터의 중복이 발생하고, 이 중복(Redundancy)으로 인해 테이블 조작 시 문제가 발생하는 현상
  • 이상의 종류에는 삽입 이상, 삭제 이상, 갱신이상이 있다.

  • 삽입 이상 (Insertion Anomaly)
    • 의도와 상관없이 원하지 않은 값들로 인해 삽입할 수 없는 현상
    • 학번이 600인 학생의 학년이 2라는 정보만 삽입하려 할 때, 과목번호가 없기 때문에 삽입 불가  
  • 삭제 이상 (Deletion Anomaly)
    • 한 튜플을 삭제하고자 할 때 다른 값들도 함께 삭제되는, 즉 연쇄 삭제가 발생하는 현상
    • 학번이 200인 학생의 과목번호 C123을 취소하고 싶어 삭제하면 B성적과 3학년 정보도 삭제됨
  • 갱신 이상 (Update Anomaly)
    • 튜플의 속성 값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보에 불일치성이 생기는 현상
    • 400 학번 학생의 학년을 일부만 3학년으로 변경하면 3학년과 4학년이 동시에 존재하게 되어 정보에 불일치성 발생

2. 함수적 종속 (Functional Dependency)

  • 어떤 테이블 R에서 X와 Y를 각각 R의 속성 집합의 부분집합이라 하자. 속성 X의 값 각각에 대해 시간에 관계없이 항상 속성 Y의 값이오직 하나만 연관되어 있을 때 Y는 X에 함수적 종속 또는 X가 Y를 함수적으로 결정한다고 한다.
  • X → Y로 표기

 

위 테이블에서 이름, 학년, 학과는 학번에 함수적 종속이다.

학번   이름, 학년, 학과

 


 

39. 정규화 (Normalization) (B)

도부이결다조

1. 정규화

  • 테이블의 속성들이 상호 종속적인 관계를 갖는 특성을 이용하여 테이블을 무손실 분해하는 과정
  • 목적은 가능한 한 중복을 제거하여 삽입, 삭제, 갱신 이상의 발생 가능성을 줄이는 것
  • 제 1정규형, 제 2정규형, 제 3정규형, BCNF, 제 4정규형, 제 5정규형
  • 순서대로 정규화의 정도가 높아짐

 

2. 정규화 과정

2-1. 제 1정규형

  • 테이블에 속한 모든 속성의 도메인이 원자값으로만 되어있는 정규형

 

주문번호, 제품번호 → 고객번호, 주소, 주문수량

주문번호 → 고객번호, 주소

고객번호 → 주소

함수적 종속이 존재함 

 

 

2-2. 제 2정규형

  • 테이블이 제 1정규형이고, 기본키가 아닌 모든 속성이 기본키에 대하여 완전 함수적 종속을 만족하는 정규형
  • 위의 경우 <제품> 테이블은 완전 함수적 종속
  • <제품주문> 테이블은 기본키인 (주문번호, 제품번호)에 완전 함수적 종속이 되지 않는 속성이 존재함
  • <제품주문>은 제 2정규형이 아님

 

주문번호 → 고객번호, 주소

고객번호 → 주소

함수적 종속 존재

 

2-3. 제 3정규형

  • 테이블이 제 2정규형이고, 기본키가 아닌 모든 속성이 기본키에 대해 이행적 함수적 종속을 만족하지 않는 정규형
  • <제품주문> 테이블이 <주문목록>과 <주문> 테이블로 제 2정규형이 되었으나 <주문> 테이블에 고객번호가 주문번호에 함수적 종속이고, 주소가 고객번호에 함수적 종속이므로 주소는 기본키인 주문번호에 대해 이행적 함수적 종속을 만족
  • <주문> 테이블은 제 3정규형이 아님

 

<주문> 테이블에서 이행적 함수적 종속 (주문번호  → 주소)을 제거하여 제 3정규형인 <주문>과 <고객> 테이블 생성

 

2-4. BCNF

  • 테이블에서 모든 결정자가 후보키인 정규형
  • 제 3정규형에 후보키가 여러 개 존재하고, 이러한 후보키들이 서로 중첩되어 나타나는 경우 적용가능

 

2-5. 제 4정규형

  • 테이블에 다중 값 종속 (MVD; Multi Valued Dependency) A → → B가 존재할 경우 테이블의 모든 속성이 A에 함수적 종속 관계를 만족하는 정규형

2-6. 제 5정규형

  • 테이블의 모든 조인 종속 (JD; Join Dependency)이 테이블의 후보키를 통해서만 성립되는 정규형

40. 반정규화 (Denormalization) (A)

1. 반정규화(=비정규화)

  • 시스템의 성능을 향상하고 개발 및 운영의 편의성 등을 높이기 위해 정규화된 데이터 모델을 의도적으로 통합, 중복, 분리하여 정규화 원칙을 위배하는 행위
  • 반정규화를 하면 성능이 향상되고 관리 효율성은 증가하지만 데이터의 일관성 및 정합성이 저하됨
  • 과도한 반정규화는 오히려 성능을 저하시킴
  • 반정규화 방법
    • 테이블 통합
    • 테이블 분할
    • 중복 테이블 추가
    • 중복 속성 추가

2. 테이블 통합

  • 두 개의 테이블이 Join 되어 자주 사용될 때 성능 향상을 위해 하나로 합치는 것
  • 테이블 통합을 고려하는 경우
    • 두 개의 테이블에서 발생하는 프로세스가 동일하게 자주 처리될 경우
    • 항상 두 개의 테이블을 이용하여 조회하는 경우
  • 테이블 통합의 종류
    • 1:1 관계 테이블 통합
    • 1:N 관계 테이블 통합
    • 슈퍼타입/서브타입 테이블 통합

3. 테이블 분할

  • 수평분할
    • 레코드(Record)를 기준으로 테이블을 분할하는 것
    • 레코드별로 사용 빈도의 차이가 큰 경우 사용 빈도에 따라 테이블을 분할함
  • 수직 분할
    • 하나의 테이블에 속성이 너무 많을 경우 속성을 기준으로 테이블을 분할
    • 종류 : 갱신 위주의 속성 분할, 자주 조회되는 속성 분할, 크기가 큰 속성 분할, 보안을 적용해야 하는 속성 분할

4. 중복 테이블 추가

  • 작업의 효율성을 향상시키기 위해 테이블을 추가하는 것 
  • 중복 테이블을 추가하는 경우
    • 여러 테이블에서 데이터를 추출해서 사용해야 할 경우
    • 다른 서버에 저장된 테이블을 이용해야 하는 경우
  • 중복 테이블 추가 방법
    • 집계 테이블 추가 : 집계 데이터를 위한 테이블을 생성하고, 각 원본 테이블에 트리거를 설정하여 사용
    • 진행 테이블 추가 : 이력 관리 등의 목적으로 추가하는 테이블
    • 특정 부분만을 포함하는 테이블 추가 : 데이터가 많은 테이블의 특정 부분만을 사용하는 경우 해당 부분만으로 새로운 테이블을 생성

5. 중복 속성 추가

  • Join 해서 데이터를 처리할 때 데이터를 조회하는 경로를 단축하기 위해 자주 사용하는 속성을 하나 더 추가하는 것
  • 중복 속성을 추가하면 데이터의 무결성 확보가 어렵고, 디스크 공간이 필요하다
  • 중복 속성을 추가하는 경우
    • Join이 자주 발생하는 속성인 경우
    • 접근 경로가 복잡한 속성인 경우
    • 액세스의 조건으로 자주 사용되는 속성인 경우
    • 기본키의 형태가 적절하지 않거나 여러 개의 속성으로 구성된 경우

41. 시스템 카탈로그 (C)

1. 시스템 카탈로그 (System Catalog)

  • 시스템 카탈로그는 시스템 그 자체에 관련이 있는 다양한 객체에 관한 정보를 포함하는 시스템 DB
  • 시스템 카탈로그 내의 각 테이블은 사용자를 포함하여 DBMS에서 지원하는 모든 데이터 객체에 대한 정의나 명세에 관한 정보를 유지 관리하는 시스템 테이블
  • 카탈로그들이 생성되면 데이터 사전(Data Dictionary)에 저장되기 때문에 카탈로그를 데이터 사전이라고도 함

2. 메타 데이터 (Meta-Data)

  • 메타 데이터는 시스템 카탈로그에 저장된 정보
  • 메타 데이터 유형
    • 데이터베이스 객체 정보 : 테이블, 인덱스, 뷰 등의 구조 및 통계 정보
    • 사용자 정보 : 아이디, 패스워드 접근 권한 등
    • 테이블의 무결성 제약 조건 정보 : 기본키, 외래키, null값 허용 여부 등
    • 함수, 프로시저, 트리거 정보

3. 데이터 디렉터리 (Data Directory)

  • 데이터 디렉터리는 데이터 사전에 수록된 데이터에 접근하는데 필요한 정보를 관리 유지하는 시스템
  • 시스템 카탈로그는 사용자와 시스템 모두 접근 가능
  • 데이터 디렉터리는 시스템만 접근 가능

42. 트랜잭션 분석 / CRUD 분석 (A)

1. 트랜잭션 (Transaction)

  • DB의 상태를 변환시키는 논리적 기능을 수행하기 위한 작업의 단위 도는 한꺼번에 모두 수행되어야 할 일련의 연산
  • DB에서 병행 제어 및 회복 작업 시 처리되는 작업의 논리적 단위

2. 트랜잭션의 특성

  • 원자성 (Atomicity)
    • 트랜잭션의 연산은 DB에 모두 반영되도록 완료(Commit)되든지 아니면 전혀 반영되지 않도록 복구(Rollback)되어야 함
  • 일관성 (Consistency)
    • 트랜잭션이 그 실행을 성공적으로 완료하면 언제나 일관성 있는 DB 상태로 변환함
  • 독립성 (Isolation)
    • 둘 이상의 트랜잭션이 동시에 병행 실행되는 경우 어느 하나의 트랜잭션 실행 중에 다른 트랜잭션의 연산이 끼어들 수 없음
  • 지속성, 영속성 (Drability)
    • 성공적으로 완료된 트랜잭션의 결과는 시스템이 고장 나더라도 영구적으로 반영되어야 함

3. CRUD 분석

  • 프로세스와 테이블 간에 CRUD 매트릭스를 만들어서 트랜잭션을 분석하는 것
  • CRUD분석을 통해 많은 트랜잭션이 몰리는 테이블을 파악할 수 있으므로 디스크 구성시 유용한 자료로 활용

4. 트랜잭션 분석

  • CRUD 매트릭스를 기반으로 테이블에 발생하는 트랜잭션 양을 분석하여 테이블에 저장되는 데이터 양을 유추하고 이를 근거로 DB의 용량 산정 및 구조의 최적화를 목적으로 함

43. 인덱스 (C)

1. 인덱스 (Index)

  • 데이터 레코드를 빠르게 접근하기 위해 <키, 포인트> 쌍으로 구성되는 데이터 구조
  • 인덱스를 통해 파일의 레코드에 빠르게 액세스 가능
  • 레코드의 삽입과 삭제가 수시로 일어나는 경우 인덱스의 개수를 최소로 하는 것이 효율적

2. 인덱스 종류

  • 트리 기반 인덱스 : 인덱스를 저장하는 블록들이 트리 구조
  • 비트맵 인덱스 : 인덱스 컬럼의 데이터를 Bit 값인 0 또는 1로 변환하여 인덱스 키로 사용
  • 함수 기반 인덱스 : 컬럼 값대신 컬럼에 특정 함수나 수식을 적용하여 산출된 값을 사용
  • 비트맵 조이 인덱스 : 다수의 조인된 객체로 구성된 인덱스
  • 도메인 인덱스 : 개발자가 직접 만드는 것

3. 클러스터드/넌클러스터드 인덱스

  • 클러스터드 인덱스
    • 인덱스 키의 순서에 따라 데이터가 정렬되어 저장되는 방식
    • 실제 데이터가 순서대로 저장되어 있어 인덱스를 검색하지 않아도 빠르게 검색 가능
  • 넌클러스터드 인덱스
    • 인덱스의 키 값만 정렬되어 있고 실제 데이터는 정렬되지 않음
    • 데이터 삽입, 삭제 발생 시 순서 유지를 위한 데이터 정렬이 필요 없어 속도가 빠름

44. 뷰 / 클러스터

1. 뷰 (View)

  • 뷰는 사용자에게 접근이 허용된 자료만을 제한적으로 보여주기 위해 하나 이상의 기본 테이블로부터 유도된 가상 테이블
  • 저장장치 내에 물리적으로 존재하지 않음, 사용자에게는 있는 것처럼 보임
  • 뷰는 CREATE문, 제거할 때는 DROP 사용

 2. 뷰의 장단점

  • 장점
    • 논리적 데이터 독립성 제공
    • 동일 데이터에 대해 동시에 여러 사용자의 상이한 응용이나 요구를 지원
    • 사용자의 데이터 관리를 간단하게 해 줌
    • 접근 제어를 통한 자동 보안제공
  • 단점
    • 독립적인 인덱스를 가질 수 없음
    • 뷰의 정의를 변경할 수 없음
    • 뷰로 구성된 내용에 대한 삽입, 삭제, 갱신 연산에 제약이 따름

3. 클러스터

  • 클러스터는 데이터 저장 시 데이터 엑세스 효율을 향상시키기 위해 동일한 성격의 데이터를 동일한 데이터 블록에 저장하는 물리적 저장 방법
  • 클러스터링 된 테이블은 데이터 조회 속도를 향상시키지만 입력, 수정, 삭제에 대한 성능 저하
  • 클러스터는 데이터 분포도가 넓을수록 유리
  • 처리 범위가 넓은 경우 단일 테이블 클러스터링, 조인이 많이 발생하는 경우 다중 테이블 클러스터링

45. 파티션 (B)

1. 파티션 (Partition)

  • 대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것
  • 대용량 DB의 경우 몇 개의 중요 테이블만 집중되어 데이터가 증가되므로, 이런 테이블들을 작은 단위로 나눠 분산시키면 성능 저하를 방지할 뿐만 아니라 데이터 관리도 쉬워짐
  • 데이터 처리는 테이블 단위, 데이터 저장은 파티션별

2. 파티션의 장단점

  • 장점
    • 테이터 접근 시 액세스 범위를 줄여 쿼리성능 향상
    • 데이터가 분산되어 디스크 성능 향상
    • 파티션별로 백업 및 복구를 수행하여 속도가 빠름
    • 시스템 장애 시 데이터 손상 최소화
    • 데이터 가용성 향상
  • 단점
    • 하나의 테이블을 세분화하여 관리하므로 세심한 관리 요구
    • 테이블 간 조인에 대한 비용 증가
    • 용량이 작은 테이블에 파티셔닝하면 성능 저하

3. 파티션의 종류

  • 범위 분할 (Range Partitioning)
    • 지정한 열의 값을 기준으로 분할
  • 해시 분할 (Hash Partitioning)
    • 해시 함수를 적용한 결과 값에 따라 데이터 분할
    • 특정 파티션에 데이터가 집중되는 범위 분할의 단점을 보완, 데이터를 고르게 분산할 때 유용함
    • 특정 데이터가 어디에 있는지 파악 불가능
    • 고객번호, 주민번호 등과 같이 데이터가 고른 컬럼에 효과적
  • 조합분할  (Composite Partitioning)
    • 범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할
    • 범위 분할한 파티션이 너무 커서 관리가 어려울 때 사용

46. 분산 데이터베이스 설계 (C)

1. 데이터베이스 용량 설계

  • 용량 설계를 할 때는 테이블에 저장될 양과 인덱스, 클러스터 등이 차지할 공간을 예측해서 반영
  • 목적
    • 용량을 정확히 산정하여 디스크 저장 공간을 효과적으로 사용하고 확장성 및 가용성을 높임
    • 디스크 특성을 고려하여 설계함으로써 디스크의 입출력 부하를 분산시키고 채널의 병목현상 최소화

2. 분산 데이터베이스 설계

  • 논리적으로는 하나의 시스템에 속하지만 물리적으로는 네트워크를 통해 연결된 여러 개의 사이트(Stie)에 분산된 데이터베이스

3. 분산 데이터베이스의 목표

  • 위치 투명성 : 액세스하려는 데이터베이스의 실제 위치를 알 필요 없음.
  • 중복 투명성 : 동일 데이터가 여러 곳에 중복되어 있더라도 사용자는 마치 하나의 데이터만 존재하는 것처럼 사용
  • 병행 투명성 : 분산 데이터베이스와 관련된 다수의 트랜잭션이 동시에 실현되더라도 그 트랜잭션의 결과는 영향을 받지 않음
  • 장애 투명성 : 트랜잭션, DBMS, 네트워크, 컴퓨터 장애에도 불구하고 트랜잭션을 정확하게 처리한다.

4. 분산 설계 방법

  • 테이블 위치 분산
    • 데이터베이스의 테이블을 각기 다른 서버에 분산시킴
  • 분할
    • 테이블의 데이터를 분할하여 분산
    • 분할 규칙 : 완전성, 재구성, 상호 중첩 배제
    • 주요 분할 방법 : 수평분할, 수직 분할
  • 할당
    • 동일한 분할을 여러 개의 서버에 생성하여 분산
    • 중복이 없는 할당과 중복이 있는 할당으로 나뉨

47. 데이터베이스 이중화 / 서버 클러스터링 (B)

1. 데이터베이스 이중화

  • 동일한 DB를 복제하여 관리하는 것

2. DB 이중화의 분류

  • Eager 기법
    • 트랜잭션 수행 중 데이터 변경이 발생하면 이중화된 모든 DB에 즉시 전달하여 변경 내용이 즉시 적용되는 기법
  • Lazy 기법
    • 트랜잭션의 수행이 종료되면 변경 사실을 새로운 트랜잭션에 작성하여 각 DB에 전달되는 기법
    • DB마다 새로운 트랜잭션이 수행되는 것으로 간주됨

3. DB 이중화 구성 방법

  • 활동-대기 (Active - Standby) 방법
    • 한 DB가 액티브면 다른 DB는 스탠바이로 있다가 액티브가 장애 발생하면 스탠바이가 자동으로 올라옴
    • 구성 방법과 관리가 쉬워 많은 기업에서 활용
  • 활동-활동 (Active - Active) 방법
    • 두 개의 DB가 서로 다른 서비스를 제공하다가 둘 중 하나가 죽으면 나머지 DB가 서비스 제공
    • 두 DB가 모두 처리를 하기 때문에 처리율이 높지만 복잡함

4. 클러스터링

  • 두 대 이상의 서버를 하나의 서버처럼 운영하는 기술
  • 클러스터링은 서버 이중화 및 공유 스토리지를 사용하여 서버의 고가용성을 제공
  • 종류
    • 고가용성 클러스터링 : 하나의 서버에 장애가 발생하면 다른 서버가 받아 처리하여 서비스 중단을 방지함, 일반적으로 사용
    • 병렬 처리 클러스터링 : 전체 처리율을 높이기 위해 하나의 작업을 여러 개의 서버에서 분산 처리하는 방식

5. RTO/RPO

  • RTO (Recovery Time Objective, 목표 복구 시간)
    • 비상사태 또는 업무 중단 시점으로부터 복구되어 가동될 때까지 소요 시간
  • RPO (Recovery Point Objective, 목표 복구 시점)
    • 비상사태 또는 업무 중단 시점으로부터 데이터를 복구할 수 있는 기준점

48. 데이터베이스 보안 (A)

1. 데이터베이스 보안

  • DB의 일부 또는 전체에 대해서 권한이 없는 사용자가 액세스하는것을 막기 위해 사용되는 기술
  • 보안을 위한 데이터 단위는 테이블 전체부터 특정 테이블의 특정 행과열에 있는 데이터값까지 다양함

2. 암호화 (Encryption)

  • 암호화는 데이터를 보낼 때 송신자가 지정한 수신자 이외에는 그 내용을 알 수 없도록 평문을 암호문으로 변환하는 것
  • 암호화 과정 : 평문을 암호문으로
  • 복호화 과정 : 암호문을 평문으로
  • 암호화 기법
    • 개인키 암호화 방식
    • 공개키 암호화 방식

3. 접근 통제

  • 접근통제는 데이터가 저장된 객체와 이를 사용하려는 주체 사이의 정보 흐름을 제한하는 것
  • 접근통제 3요소
    • 접근통제 정책
    • 접근통제 메커니즘
    • 접근통제 보안모델
  • 접근통제 기술
    • 임의 접근통제 (DAC, Discretionary Access Control)
      • 데이터에 접근하는 사용자의 신원에 따라 접근 권한 부여
      • 데이터 소유자가 접근통제 권한을 지정하고 제어함
      • 객체를 생성한 소유자가 생성된 객체에 대한 모든 권한을 부여받고, 부여된 권한을 다른 사용자에게 허가할 수 있음
    • 강제 접근통제 (MAC, Mandatory Access Control)
      • 주체와 객체의 등급을 비교하여 접근 권한을 부여
      • 시스템이 접근 통제 권한을 지정
      • DB 객체별로 보안 등급을 부여 가능
      • 사용자별로 인가 등급을 부여 가능
    • 역할기반 접근통제 (RBAC, Role Based Access Control)
      •  사용자의 역할에 따라 접근 권한을 부여
      • 중앙관리자가 접근통제 권한 지정
      • 임의 접근통제와 강제 접근통제의 단점을 보완
      • 다중 프로그래밍 환경에 최적화

4. 접근통제 정책

  • 접근통제 정책은 어떤 주체(Who)가 언제(When), 어디서(Where), 어떤 객체(What)에게, 어떤 행위(How)에 대한 허용 여부 정의
  • 접근통제 정책의 종류
    • 신분 기반 정책
      • 주체나 그룹의 신분에 근거하여 객체의 접근하는 방법, IBP와 GBP가 있음
      • IBP (Individual-Based Policy) : 최소 권한 정책으로, 단일 주체에게 하나의 객체에 대한 허가 부여
      • GBP (Group-Based Policy) : 복수 주체에 하나의 객체에 대한 허가 부여
    • 규칙 기반 정책
      • 주체가 갖는 권한에 근거하여 객체의 접근을 제한, MLP와 CBP가 있음
      • MLP (Multi-Level Policy) : 사용자나 객체별로 지정된 기밀 분류에 따른 정책
      • CBP (Compartment-Based Policy) : 집단별로 지정된 기밀 허가에 따른 정책
    • 역할 기반정책
      • GBP의 변형으로 주체의 신분이 아닌 주체가 맡은 역할에 근거하여 객체의 접근을 제한

5. 접근통제 매커니즘

  • 정의된 접근통제 정책을 구현하는 기술적인 방법
  • 접근통제 매커니즘에는 접근통제 목록, 능력 리스트, 보안 등급, 패스워드, 암호화 등

6. 접근통제 보안 모델

  • 보안 정책을 구현하기 위한 정형화된 모델
  • 접근통제 보안 모델의 종류
    • 기밀성 모델
      • 군사적인 목적으로 개발된 최초의 수학적 모델
      • 기밀성 보장이 최우선
    • 무결성 모델
      • 기밀성 모델에서 발생하는 볼법적인 정보 변경을 방지하기 위해 무결성을 기반으로 개발됨 
    • 접근통제 모델
      • 접근통제 매커니즘을 보안 모델로 발전시킨 것
      • 대표적은 접근통제 행렬 (Access Control Matrix)이 있음
      • 접근통제 행렬 : 임의적인 접근통제를 관리하기 위한 보안모델, 행은 주체, 열은 객체로 행과 열로 주체와 객체의 권한 유형을 나타냄

7. 접근통제 조건

  • 접근통제 매커니즘의 취약점을 보완하기 위해 접근통제 정책에 부가하여 적용할 수 있는 조건
  • 값 종속 통제 (Value-Dependent Control) : 일반적으로는 객체에 저장된 값에 상관없이 접근통제를 동일하게 허용하지만, 값 종속 통제는 객체에 저장된 값에 따라 다르게 접근통제를 허용해야 하는 경우에 사용
  • 다중 사용자 통제 (Multi-User Control) : 지정된 객체에 다수의 사용자가 동시에 접근을 요구하는 경우에 사용
  • 컨텍스트 기반 통제 (Context-Based Control)
    • 특정 시간, 네트워크 주소, 접근 경로, 인증 수준 등에 근거하여 접근을 제어
    • 다른 보안 정책과 결합하여 보안 시스템의 취약점을 보완할 때 사용

49. 데이터베이스 백업 (B)

1. DB백업

  • 전산 장애에 대비하여 데이터를 보호하고 복 구하기 위한 작업
  • 정기적으로 백업해야 함

2. 로그 파일

  • 로그 파일은 DB의 처리 내용이나 상황 등 상태 변화를 시간의 흐름에 다라 모두 기록한 파일
  • 로그를 기반으로 복구(UNDO)하거나 현재 상태로 재생(REDO)시킨다.

3. DB복구 알고리즘

  • NO-UNDO / REDO
    • DB 버퍼의 내용을 비동기적으로 갱신한 경우 복구 알고리즘
    • NO-UNDO : 트랜잭션 완료 전에는 변경 내용이 DB에 기록되지 않으므로 취소할 필요 없음
    • REDO : 트랜잭션 완료 후 DB버퍼에는 기록되어 있고, 저장매체에는 기록되지 않으므로 트랜잭션 내용을 다시 실행해야 함
  • UNDO / NO-REDO
    • DB버퍼의 내용을 동기적으로 갱신한 경우
    • UNDO : 트랜잭션 완료 전에 시스템이 파손되면 변경된 내용을 취소함
    • NO-REDO : 트랜잭션 완료 전에 DB버퍼 내용을 이미 저장매체에 기록했으므로 트랜잭션 다시 실행할 필요 없음
  • UNDO / REDO
    • DB버퍼의 내용을 동기/비동기적으로 갱신한 경우
    • DB기록 전에 트랜잭션이 완료될 수 있으므로 완료된 트랜잭션이 DB에 기록되지 못했다면 다시 실행
  • NO-UNDO / NO-REDO
    • DB버퍼의 내용을 동기적으로 저장 매체에 기록하지만, DB와는 다른 영역에 기록한 경우
    • NO-UNDO : 변경 내용은 DB와 다른 영역에 기록되어 있으므로 취소할 필요 없음
    • NO-REDO : 다른 영역에 이미 기록되어 있으므로 트랜잭션 다시 실행할 필요 없음

4. 백업 종류

  • 물리 백업
    • DB 파일을 백업
    • 백업속도 빠름, 단순, 문제 발생 시 원인 파악 및 해결 어려움
  • 논리 백업
    • DB내의 논리적 객체들을 백업
    • 복원 시 데이터 손상을 막고 문제 발생 시 원인 파악 및 해결이 수월, 백업/복원 시 오래 걸림

50. 스토리지 (B)

1. 스토리지 (Storage)

  • 대용량 데이터를 저장하기 위해 서버와 저장장치를 연결하는 기술
  • DAS, NAS, SAN

2. DAS (Direct Attached Storage)

  • 서버와 저장장치를 전용 케이블로 직접 연결하는 방식
  • 쉬움, 흔함, 저렴, 빠름
  • 확장성 및 유연성 낮음

3. NAS (Network Attached Storage)

  • 서버와 저장장치를 네트워크를 통해 연결
  • 장소에 구애받지 않고 저장장치에 접근 가능
  • DAS에 비해 확장성 및 유연성 좋음

4. SAN (Storage Area Network)

  • DAS의 속도와 NAS의 파일 공유 장점 혼합, 서버와 저장장치를 연결하는 전용 네트워크를 별도로 구성
  • 광 채널(FC) 스위치를 이용하여 네트워크 구성
  • 저장장치를 공유하여 여러 개의 저장장치나 백업 장비를 단일화시킬 수 있음
  • 확장성, 유연성, 가용성 뛰어남

 

 

반응형

댓글