data 변환
Data conversiondata 변환 |
---|
개념 |
변환 언어 |
기술과 변환 |
적용들 |
관련된 |
데이터 변환은 컴퓨터 데이터를 한 형식에서 다른 형식으로 변환하는 것입니다.컴퓨터 환경 전체에서 데이터는 다양한 방식으로 인코딩됩니다.예를 들어, 컴퓨터 하드웨어는 패리티 비트 검사 등의 데이터를 포함하는 특정 표준을 기반으로 구축됩니다.마찬가지로 운영체제는 특정 데이터 및 파일 처리 표준을 기반으로 합니다.또, 각 컴퓨터 프로그램은 다른 방법으로 데이터를 취급한다.이러한 변수 중 하나가 변경될 때마다 데이터를 다른 컴퓨터, 운영 체제 또는 프로그램에서 사용하기 전에 어떤 방식으로든 변환해야 합니다.이러한 요소의 다른 버전도 일반적으로 다른 데이터 구조를 포함합니다.예를 들어, 어떤 형식에서 다른 형식으로 비트를 변경하는 것은 일반적으로 애플리케이션 상호 운용성 또는 새로운 기능을 사용할 수 있도록 하기 위해 데이터 변환에 불과합니다.데이터 변환은 문자 인코딩 시스템 간에 텍스트 파일을 변환하는 것만큼 간단하거나 오피스 파일 형식의 변환이나 이미지 형식 및 오디오 파일 형식의 변환처럼 더 복잡할 수 있습니다.
컴퓨터 환경 내에서 데이터를 변환하는 방법은 여러 가지가 있습니다.이것은, 컴퓨터 프로그램의 새로운 버전으로 업그레이드하는 경우와 같이, 심리스하게 실시할 수 있습니다.또는 변환은 특별한 변환 프로그램을 사용하여 처리를 요구하거나 중간 단계를 거치는 복잡한 프로세스를 수반하거나 탭 구분 또는 쉼표로 구분된 텍스트 파일과의 변환을 포함할 수 있다.경우에 따라서는 프로그램은 데이터 입력 단계에서 여러 데이터 파일 형식을 인식하고 출력 데이터를 여러 다른 형식으로 저장할 수도 있다.이러한 프로그램을 사용하여 파일 형식을 변환할 수 있습니다.소스 포맷 또는 타깃 포맷이 인식되지 않으면 중간 포맷으로 변환할 수 있는 세 번째 프로그램을 사용할 수 있습니다.이 프로그램은 첫 번째 프로그램을 사용하여 다시 포맷할 수 있습니다.생각할 수 있는 시나리오는 여러 가지가 있습니다.
정보의 기초
데이터 변환을 수행하기 전에 사용자 또는 애플리케이션 프로그래머는 컴퓨팅 및 정보 이론의 몇 가지 기본 사항을 염두에 두어야 합니다.여기에는 다음이 포함됩니다.
- 정보는 컴퓨터에 의해 쉽게 폐기될 수 있지만, 정보를 추가하는 것은 노력이 필요합니다.
- 컴퓨터는 규칙 기반 [citation needed]방식으로만 정보를 추가할 수 있습니다.
- 데이터를 업샘플링하거나 기능이 풍부한 형식으로 변환해도 정보가 추가되는 것이 아니라 보통 사람이 해야 하는 추가 공간을 확보할 수 있습니다.
- 전자 형식으로 저장된 데이터를 신속하게 수정하고 분석할 수 있습니다.
예를 들어, 실제 색상은 그레이스케일로 쉽게 변환할 수 있지만, 반대로 변환하는 것은 번거로운 프로세스입니다.Microsoft(DOS/Windows)텍스트 파일에 유닉스 텍스트 파일 변환 캐릭터를 추가하는 것을 했으나 rule-based 있는 반면에, 흑백으로 출력된 이미지에 색 정보의 추가 프로그래밍 방식으로 이루어져서는 안 될 수 있는 human[표창 필요한]는 색이 그림을 각 절에 필요합니다 잘 알고 있고 이를;, 애당초에 엔트로피가 올라가지 않는다는 것을 포함한다.e–there이 없r다프로세스를 자동화하는 데 사용할 수 있습니다.24비트 PNG를 48비트 PNG로 변환해도 정보가 추가되지 않고 기존 RGB 화소값을 0으로[citation needed] 패딩할 뿐이므로 예를 들어 FFC3 56의 화소가 FF00 C300 5600이 된다.변환에 의해, 예를 들면 FF80 C340 56A0 의 값을 가지는 픽셀을 변경할 수 있지만, 변환 자체는 그렇게 하지 않고, 화상을 한층 더 조작할 수 있습니다.손실 형식(JPEG 나 Vorbis 등)의 이미지 또는 오디오 파일을 손실 형식(PNG 나 FLAC 등) 또는 비압축 형식(BMP 나 WAV 등)으로 변환하면 원래 정보가 손실된 동일한 이미지(손실 압축의 아티팩트)가 타깃이 되기 때문에 공간만 낭비됩니다.JPEG 이미지는 사용자가 이미지 조작 프로그램의 "JPEG 아티팩트 제거" 기능을 아무리 시도해도 원래 이미지의 품질로 복원할 수 없습니다.
손실 압축 과정을 통해 손실된 정보를 자동으로 복원하려면 아마도 인공지능의 중요한 발전이 필요할 것이다.
이러한 컴퓨팅과 정보 이론의 현실 때문에 데이터 변환은 종종 복잡하고 오류가 발생하기 쉬운 프로세스로 전문가의 도움을 필요로 합니다.
중추적 변환
데이터 변환은 한 형식에서 다른 형식으로 직접 발생할 수 있지만 여러 형식 간에 변환하는 많은 응용 프로그램에서는 소스 형식이 대상으로 [1]변환되는 방식으로 중간 표현을 사용합니다.예를 들어 두 인코딩 사이의 룩업 테이블을 사용하여 키릴 문자를 KOI8-R에서 Windows-1251로 변환할 수 있지만, 현대적 접근 방식은 KOI8-R 파일을 먼저 Unicode로 변환한 후 Windows-1251로 변환하는 것입니다.이는 보다 관리하기 쉬운 접근법입니다.가능한 모든 문자 인코딩 쌍의 룩업 테이블을 필요로 하는 것이 아니라 Unicode로 변환하거나 Unicode에서 변환하는 데 사용하는 룩업 테이블을 각 문자 세트에 1개만 필요로 하기 때문에 테이블 수를 수백 개에서 수십 [citation needed]개로 줄일 수 있습니다.
Pivotal 변환은 다른 영역에서도 마찬가지로 사용됩니다.사무실 응용 프로그램은 사무실 파일 형식을 변환하기 위해 사용할 때 내부 기본 파일 형식을 피벗으로 사용합니다.예를 들어 워드프로세서는 RTF를 OpenDocument로 변환한 다음 WordPerfect 형식으로 변환하여 RTF 파일을 WordPerfect 파일로 변환할 수 있습니다.화상 변환 프로그램은 PCX 화상을 직접 PNG로 변환하는 것이 아니라 PCX 화상을 로드할 때 메모리에서 내부용으로 간단한 비트맵 포맷으로 디코딩하고 PNG로 변환하도록 명령하면 해당 메모리 이미지를 타깃 포맷으로 변환한다.FLAC에서 AAC로 변환하는 오디오 컨버터는 소스 파일을 먼저 메모리 내의 원시 PCM 데이터로 디코딩한 후 해당 메모리 이미지에 손실 AAC 압축을 실행하여 타깃 파일을 생성합니다.
손실된 부정확한 데이터 변환
데이터 변환의 목적은 모든 데이터와 포함된 정보를 가능한 한 많이 유지하는 것입니다.이 작업은 대상 형식이 소스 파일에 있는 동일한 기능 및 데이터 구조를 지원하는 경우에만 수행할 수 있습니다.워드프로세서 문서를 플레인 텍스트 파일로 변환하는 경우 플레인 텍스트 형식은 단어를 굵은 글씨로 표시하는 등의 워드프로세서 구조를 지원하지 않기 때문에 반드시 서식 정보의 손실을 수반한다.이러한 이유로 사용자에게 중요한 기능을 지원하지 않는 포맷에서 다른 포맷으로의 변환은 거의 이루어지지 않습니다.다만, 예를 들면, 파일을 Microsoft Word 의 어느 버전에서 이전 버전으로 변환하는 등, 상호 운용성이 필요한 경우가 있습니다.n개의 Word가 컴퓨터에 설치되어 있습니다.
정보의 손실은 대상 포맷의 근사치를 통해 경감할 수 있다.ASCII 표준에는 없기 때문에 to와 같은 문자를 ASCII로 변환할 방법은 없지만, 정보는 문자를 ae로 근사하여 유지할 수 있습니다.물론 이는 최적의 솔루션이 아니며 검색 및 복사와 같은 작업에 영향을 미칠 수 있습니다.또한 언어가 A와 Ae를 구별하는 경우 그 근사치는 정보의 손실을 수반합니다.
데이터 변환은 개념적으로 다른 형식 간에 변환한 결과 부정확한 결과를 초래할 수도 있습니다.WYSIWYG 패러다임은 워드프로세서 및 데스크톱 퍼블리싱 애플리케이션에 존재하는 반면 SGML, XML 및 HTML 및 MathML과 같은 많은 애플리케이션에서 파생된 구조 설명 패러다임이 한 예입니다.WYSIWYG HTML 에디터를 사용하면 두 가지 패러다임이 결합되어 HTML 파일에는 비표준 코드가 아닌 차선이 됩니다.WYSIWYG 패러다임에서 이중 줄 바꿈은 새로운 문단을 의미하는데, 이는 이러한 구문을 위한 시각적 신호이기 때문입니다.그러나 WYSIWYG HTML 에디터는 보통 이러한 시퀀스를 구조적으로 새로운 문단이 전혀 없는 <BR> <BR>로 변환합니다.예를 들어 PDF에서 편집 가능한 워드프로세서 포맷으로 변환하는 것은 어려운 일이다.PDF는 각 문자가 고정된 위치 및 줄바꿈을 하드코딩하여 돌에 새기는 것과 같은 텍스트 정보를 기록하기 때문이다.PDF는 단어 공백 문자를 인식하지 않습니다. 두 글자 사이의 공백과 두 단어 사이의 공백은 양만 다릅니다.따라서 효과를 위해 충분한 문자 간격이 있는 제목은 보통 워드프로세서 파일 내에 공백으로 끝나게 됩니다.예를 들어 I N T R O D U C T O N으로1 em 띄어쓰기가 됩니다.
오픈 사양과 시크릿 사양
데이터 변환에 성공하려면 소스 형식과 타깃 형식 모두에 대한 자세한 지식이 필요합니다.포맷의 사양을 알 수 없는 경우 변환을 수행하기 위해 리버스 엔지니어링이 필요합니다.리버스 엔지니어링에서는 원래 사양에 가까운 근사치를 얻을 수 있지만 오류나 기능 누락이 발생할 수 있습니다.
일렉트로닉스
데이터 포맷 변환은 전자통신 시스템의 물리층에서도 발생할 수 있다.필요에 따라서, NRZ 나 RZ 등의 회선 코드간의 변환을 실시할 수 있습니다.
「 」를 참조해 주세요.
- 문자 부호화
- 프로그래밍 언어 비교(기본 지침)#데이터 변환
- 데이터 이행
- data 변환
- 데이터 경합
- 트랜스코딩
- 분산 데이터 관리 아키텍처(DDM)
- 코드 변환(컴퓨팅)
- 소스 투 소스 변환
- 프레젠테이션 레이어
레퍼런스
- ^ Dragos-Anton Manolescu; Markus Voelter; James Noble (2006). Pattern Languages of Program Design 5. Addison-Wesley Professional. pp. 271–. ISBN 978-0-321-32194-7.
Manolescu, FirstName (2006). Pattern Languages of Program Design 5. Upper Saddle River, NJ: Addison-Wesley. ISBN 0321321944.