본문 바로가기

카테고리 없음

CS 지식 - 데이터에 대하여

반응형

컴퓨터와 사람 간의 소통은 컴퓨터의 언어, 즉 이진수를 통해 이루어집니다. 이진수는 0과 1로만 구성된 수 체계로, 컴퓨터가 데이터를 이해하고 처리하는 데 사용됩니다. 이를 이해하기 위해서는 다음과 같은 주요 개념들을 알아야 합니다.

이진수와 데이터 처리

  1. 이진수의 기본: 컴퓨터는 모든 데이터를 이진수, 즉 0과 1의 조합으로 처리합니다. 이는 문자, 숫자, 그 외 다양한 데이터 유형을 포함합니다.
  2. 인코더와 디코더:
    • 인코더: 고급 언어(사람이 사용하는 언어)로 된 명령어를 컴퓨터가 이해할 수 있는 0과 1로 변환합니다.
    • 디코더: 이진수로 표현된 데이터를 다시 고급 언어로 번역합니다.
  3. 데이터의 단위:
    • 기본 단위는 비트(bit)로, 하나의 0 또는 1입니다.
    • 8비트가 모이면 바이트(byte)가 됩니다.
    • 데이터의 크기 단위는 바이트, 킬로바이트(KB), 메가바이트(MB), 기가바이트(GB), 테라바이트(TB) 등으로 표현됩니다.
    • 일반적으로 1000바이트를 1KB로 표기하지만, 빅데이터 시대의 정확한 계산을 위해 1024바이트를 1Kib(키비바이트)로 구분하여 사용하기도 합니다.

숫자의 이진 표현

  1. 이진법: 0과 1로만 이루어진 진법으로, 1 이상의 단위에서는 올림을 합니다.
  2. 음수의 표현 - 보수법:
    • 컴퓨터는 '-' 기호를 사용할 수 없으므로 음수를 표현하기 위해 보수법을 사용합니다.
    • 보수법은 해당 숫자를 뒤집고 1을 더하는 방식으로, 두 번 적용하면 원래 숫자로 돌아옵니다.
  3. 음수와 양수의 구분:
    • 컴퓨터는 플래그 레지스터를 사용하여 음수와 양수를 구분합니다.
    • 이진수에서 음수와 양수는 플래그에 따라 구분되며, 코드상에서는 2진수임을 나타내는 접두어 0b를 사용합니다.

문자의 이진 표현

  1. 아스키 코드:
    • 가장 기본적인 문자 인코딩 방식으로, 각 문자에 7비트 코드를 할당합니다.
    • 아스키 코드는 128가지 문자만 표현할 수 있어 한계가 있습니다.
  2. 언어별 인코더:
    • 다양한 언어를 지원하기 위해 나라별로 다른 인코딩 체계가 개발되었습니다.
    • 한국어는 EUC-KR과 같은 인코딩 방식을 사용합니다.
  3. 유니코드:
    • 모든 언어와 특수 문자를 표현할 수 있는 국제적인 인코딩 방식입니다.
    • UTF-8, UTF-16, UTF-32와 같은 다양한 인코딩 방식을 지원하여 다양한 문자와 기호를 표현할 수 있습니다.

16진법의 사용

16진법은 2진법과 호환성이 좋아 컴퓨터 과학에서 자주 사용됩니다. 2진수를 16진수로 변환하거나 그 반대로 변환하는 것이 상대적으로 간단합니다. 16진수는 숫자 0-9와 문자 A-F를 사용하여 표현되며, 코드상에서는 0x 접두어를 사용하여 16진수임을 나타냅니다.

결론적으로, 컴퓨터와 인간 간의 소통을 위해서는 이진수로 표현된 데이터를 이해하고 사용할 수 있어야 합니다. 인코더와 디코더는 이 과정을 돕는 도구로, 다양한 데이터 형식을 이진수로 변환하거나 그 반대로 수행합니다. 유니코드와 같은 국제적인 인코딩 시스템은 다양한 언어와 문자를 표현하는 데 필수적인 역할을 합니다.

반응형