핵산 설계에 대한 코딩 이론 접근법

Coding theory approaches to nucleic acid design

DNA 코드구축DNA 기반 연산 분야에 대한 핵산 시스템 설계코딩이론을 적용하는 것을 말한다.

소개

DNA 서열은 살아있는 세포에서 일련의 수소 결합을 통해 하나의 DNA 가닥이 그것의 보완적인 가닥으로 교배되는 이중 나선 형태로 나타나는 것으로 알려져 있다.이 항목의 목적을 위해, 우리는 오직 올리고뉴클레오티드에만 초점을 맞출 것이다.DNA 컴퓨팅합성 올리고뉴클레오티드 가닥이 연산을 수행하는 방식으로 혼합되도록 하는 것을 포함한다.DNA 컴퓨팅은 올리고뉴클레오티드 가닥의 자가조립이 연산 목표와 양립할 수 있는 방식으로 발생하도록 요구한다.

DNA 컴퓨팅 분야는 레오나드 M에서 확립되었다.아델만의 세미날짜 논문.[1]그의 작품은 여러 가지 이유로 의미가 크다.

  • 전통적인 방법으로 해결하기 어렵거나 거의 불가능한 문제를 해결하기 위해 DNA에 의해 수행되는 계산의 고도로 평행한 성격을 어떻게 사용할 수 있었는지를 보여준다.
  • 나노 입력을 기준으로 한 분자 수준의 연산 사례로, 저장 매체의 정보 밀도가 고려되는 한, 반도체 산업에서는 결코 도달할 수 없는 큰 이점이 잠재적으로 있다.
  • 그것은 데이터 구조로서의 DNA의 독특한 측면을 보여준다.

DNA 컴퓨팅에서 대규모 병렬 컴퓨팅을 위한 이 기능은 암 진단 및 치료를 위한 세포 기반 계산 시스템, 초고밀도 저장 매체와 같은 엄청나게 큰 규모의 많은 컴퓨팅 문제를 해결하는 데 이용될 수 있다.[2]

이러한 암호어(DNA 올리고뉴클레오티드의 순서)의 선택은 그 자체로 2차 구조 형성 현상(이차적 구조 형성 과정에서 DNA 가닥이 스스로 접히는 경향이 있어 향후의 계산에서 무용지물이 되는 경향이 있기 때문에 그 자체로 주요한 장애물이다.이것을 자기 교배라고도 한다.누시노프-자콥슨[3] 알고리즘은 2차 구조를 예측하고 암호어로 2차 구조 형성 가능성을 줄이는 특정 설계 기준을 식별하는 데 사용된다.본질적으로 이 알고리즘은 DNA 코드에 순환 구조의 존재가 이차 구조에 대한 암호문 테스트 문제의 복잡성을 어떻게 감소시키는지 보여준다.

그러한 코드의 새로운 구성에는 순환 가역형 확장 고파 코드, 일반화된 Hadamard 행렬 및 이진 접근법이 포함된다.이러한 구조에 대해 조사하기 전에, 우리는 어떤 기본적인 유전적 용어를 다시 살펴봐야 한다.이 글에서 제시된 이론의 동기는 순환 구조의 존재가 복잡성을 감소시켜 2차 구조 형성을 방지한다는 점에서 누시노프 - 제이콥슨 알고리즘과 일치하기 때문이다. 즉, 이러한 알고리즘은 hyb의 시간에 DNA 올리고뉴클레오티드에 대한 설계 요구 조건의 일부 또는 전부를 충족시킨다.제거(DNA 컴퓨팅 프로세스의 핵심)는 자가 교배 문제를 겪지 않는다.

정의들

DNA 코드는 단순히 Q= { {\{\에 대한 시퀀스 집합이다.

각각의 푸린 베이스는 독특한 피리미딘 베이스의 왓슨-크릭(그리고 그 반대의 경우도 마찬가지)이다 – 아데닌과 티민(tymine)은 구아닌과 시토신(cytosine)과 마찬가지로 상호보완적인 쌍을 이룬다.이 페어링은 다음과 같이 설명할 수 있다= = = G G의 =

그러한 짝짓기는 화학적으로 매우 안정적이고 강하다.그러나 생물학적 돌연변이로 인해 일치하지 않는 염기쌍이 발생하는 경우도 있다.

DNA 코딩에 대한 대부분의 초점은 규정된 최소 거리 특성을 가진 대규모의 DNA 코드 단어들을 만드는 데 있었다.이러한 목적을 위해 우리는 더 나아가기 위해 필요한 토대를 마련하게 된다.

Let be a word of length over the alphabet . For , we will use the notation to denote the subsequence . Furthermore, the sequence obtained by reversing will be denoted q 왓슨-크릭 보완물 또는 q의 역완성은 R = - 1}}}}^{{}}}}}}}, where denotes the Watson-Crick complement base pair of .

For any pair of length- words and over , the Hamming distance is the numbe mathit {p}\에서 r. 나아가 역방향 HR, )= H( )로 정의한다. . Similarly, reverse-complement Hamming distance is (서 R 역보완을 의미한다)

올리고뉴클레오티드 혼성화 과정과 연계된 또 다른 중요한 코드 설계 고려사항은 DNA 코드에 있는 시퀀스의 GC 함량과 관련이 있다.The GC-content, , of a DNA sequence is defined to be the number of indices such th, 에서 모든 코드 워드가 동일한 GC-내용 를) 갖는 DNA 코드를 상수 GC-내용 코드라고 한다.

A generalized Hadamard matrix is an square matrix with entries taken from the set of th roots of unity, , that satisfies = 서 I{\{은(는) n {\ {\의 ID 행렬을 나타내며 *는 복합 구성을 나타낸다.We will only concern ourselves with the case for some prime . A necessary condition for the existence of generalized Hadamard matrices is that The exponent matrix, , of is the matrix with the entries in , is obtained by replacing each entry in by the exponent .

Hadamard 지수 행렬의 요소 과(와) 행 벡터는 일반화된 Hadamard 코드라고 해야 하는 코드 단어를 구성한다.

여기서 의 요소는 )}에 있다.

정의상 표준 형태의 일반화된 Hadamard 행렬 는 첫 번째 행과 열에 1초만 있다.The square matrix formed by the remaining entries of is called the core of , and the corresponding submatrix of the exponent matrix is cal건설의 핵심을 이끌었다.따라서, 0번 전체 첫 번째 열 순환 일반화된 Hadamard 코드를 생략함으로써, 그 코드 워드는 펑크 난 행렬의 행 벡터들이다.

또한 그러한 지수 행렬의 행은 다음과 같은 두 가지 특성을 만족시킨다. (i) 지수 행렬의 0이 아닌 각 행에서, 의 각 요소는 n/ 그리고 (i) 해밍 거리를 일정하게 나타난다.2행은 - )/ 입니다[4]

U 속성

Let be the cyclic group generated by , where is a complex primitive th단결의 뿌리, > 은 고정된 프라임이다.Further, let , denote arbitrary vectors over which are of length , where 은(는) 양의 정수다.Define the collection of differences between exponents , where is the multiplicity of element of 에 나타나는 [4]

벡터 (는) 각 요소 Q {\이(가) 인 경우에만 속성 U를 만족한다고 한다.(는) t 나타난다 t =

일반화된 Hadamard 코드를 구축하기 위해서는 다음의 보조정리법이 기본적으로 중요하다.

Lemma. Orthogonality of vectors over – For fixed primes , arbitrary vectors of length , whose elements are from , are orthogonal if the vector satisfies Property U, where is the collection of differences between the Hadamard exponents associated with A},{\B .

M 시퀀스

을(를) 유한 필드 ){\에 있는 길이의 벡터가 되도록 하십시오 서 p 은(는) 프라임이다.벡터 의 원소가 의 주기인 무한 a ) 의 첫 번째 기간을 구성하도록 한다 N이(가) 시퀀스를 구현하는 가장 작은 기간이면 시퀀스 또는 최대 시퀀스라고 부른다. 요소를 반복적으로 허용하여 얻은 최소 주기. 의 요소가 을(를) 생성하도록 임의로 순열될 때마다 시퀀스 ) M-invari)라고 한다M-invariance를 보장하는 현재의 조건을 따르는 정리.다항 계수의 특정 균일성 특성과 함께, 이러한 조건들은 순환 코어를 가진 복잡한 Hadamard 행렬을 구성할 수 있는 간단한 방법을 산출한다.

여기서 목표는 요소들이 () 에 있는 순환 행렬 = {\}을 찾는 것이다 치수는 = n- 1 }- 입니다The rows of will be the nonzero codewords of a linear cyclic code , if and only if there is polynomial with coefficients in , which is a proper divisor of and which generates . In order to have nonzero codewords, must be of degree . Further, in order to generate a cyclic Hadamard core, the vector (of coefficients of) 언제를 갖고 운영하는 순환 교대 작업 기간 N{N\displaystyle}의, E{\displaystyle{\mathit{E}두개의 임의의 행}}의 벡터 차이(0과 증강)Butson,[5]의 균일성 조건에 앞서 N{\displa에 속성 미국 어느 필요한 조건으로 언급을 충족해야 한다.ys - N - = g( ) ( x) 여기서 ( x) ()[6]단일 불가해결함입니다.여기서의 접근방법은 벡터 계수[, g () ( ) 에 균일하게 분포되어 있는 조건으로 마지막 요구조건을 대체하는 것이다. 즉, 각 0 , - 1이(가) 동일한 횟수(Property U)이러한 경험적 접근방식이 항상 순환 코어를 생성한다는 증거는 다음과 같다.

코드 구성의 예

복합 Hadamard 매트릭스를 이용한 코드 구축

시공 알고리즘

{\text에서 단일 unreducable h()을(를) 고려하십시오. of degree having a suitable companion of degree such that , where the vector satisfies Property U. This r) {\text에 대한 긴 분할을 위한 단순한 컴퓨터 알고리즘만 동일하다.. Since , the ideal generated by is a cyclic code . Moreover, Property U guarantees the nonzero codewords form a cyclic matrix, each row of period under cyclic permutation, which serves as a cyclic core for the Hadamard matrix . As an example, a cyclic core for results from the companions and + 2 + + 1} . 의 계수는{ , \{,6(가) 상대 차이 집합, 8임을 나타낸다

정리

Let be a prime and , with a monic polynomial of degree whose extended vector of coefficients ,, N - {c{c{은()의 요소들이다. 다음 조건이 유지된다고 가정한다.

  1. 벡터 =[ c , …, - {\{1이 속성 U를 만족하며,
  2. ( ) ( )= - 1 서 h( x) {\}의 단일 불가역 다항식이다

Then there exists a p-ary linear cyclic code of blocksize , such that the augmented code is the exponent matrix for the Hadamard matrix , with / 서 H 의 코어는 순환 행렬이다.

증명:

First note that is monic and divides with degree . Now, we need to show that the matrix whose rows are nonzero codewords constitutes a cyclic core for some complex Hadamard matrix H

이(가) 속성 U를 만족한다는 점을 감안하면 ){\{\의 모든 0이 아닌 잔류물은 C에 놓여 있다. 의 요소들을 순환적으로 허용함으로써 우리는 원하는 Ec {\ {c}}을 얻는다. 여기서 우리는 번째 워드를 허용함으로써E c {\c}}}}의 모든 코드 워드를 얻을 수 있다.( 을(를) 반복적으로 허용하여 얻은 시퀀스가 M-invariant이기 때문이다.)

또한 선도적인 제로 요소를 추가하여 E 의 각 코드 워드를 확대하면 속성 U를 만족시키는 벡터가 생성됨을 알 수 있다. 또한 코드가 선형이기 때문에 두 임의 코드 워드의 벡터 차이도 코드 워드가 되어 속성 U를 만족시킨다. 따라서강화 코드 의 행 벡터가 Hadamard 지수를 형성한다.따라서 (는) 일부 복합 Hadamard 행렬 {의 표준 형식이다

따라서 위의 속성에서 의 핵심이 첫 번째 행의 N = - 1{\ N 순환변동으로 구성된 순환 행렬임 알 수 있다.Such a core is called a cyclic core where in each element of appears in each row of exactly times, and the Hamming distance between any two rows is exactly ( p- )/ p= (- ) - The rows of the core form a constant-composition code - one consisting of cyclic shifts of some length over the set . Hamm 에 있는 두 코드 단어 사이의 거리는(- 1) k- 이다

위에서 설명한 정리로부터 다음과 같은 것을 유추할 수 있다.(더 자세한 독서를 위해 독자는 헝과 쿡에 의해 논문을 참조한다.)[4]Let for prime and . Let be a monic polynomial over , of degree N − k such that over , for some monic irreducible polynomial . Suppose that the vector (N - k) < i >에 대해 = {i}=을(를) 사용하는 경우 동일한 횟수만큼 의 각 요소를 포함하는 속성을 갖는다. Then, the cyclic shifts of the vector form the core of the exponent matrix of some Hadamard matrix .

일정한 GC 함량을 가진 DNA 코드는 분명히 일정한 구성 코드(k-ary 알파벳 위에 있는 일정한 구성 코드는 각 코드 워드에 대해 k 기호의 발생 횟수가 동일한 속성을 가진다)의 기호를 매핑하여 style {Z}}에 걸쳐 구성될 수 있다. to the symbols of the DNA alphabet, . For example, using cyclic constant composition code of length over 위에서 증명된 정리 및 결과 속성에 의해 보장되며, 0에서 A 까지 에서 까지 걸리는 매핑을 사용하여 에서 {}에서 {}까지 보장한다., we obtain a DNA code with and a GC-content of . Clearly and in fact since and no codeword in contains no symbol , we also have 3 .이것은 다음과 같은 맥락에서 요약된다.[4]

코롤라리

For any , there exists DNA codes with codewords of length , constant GC-content , 여기서 모든 코드 워드는 고정 생성기 코드 g 의 순환 이동입니다

다음 벡터는 H, ) 여기서 N+ = = 의 순환 코어를 생성한다.[4]

( )=( g

( )=( ) g

서, ( x)= 0+ ++ n

따라서 우리는 생성기에서 어떻게 코드를 얻을 수 있는지를 ,2}}, T, G {\ 매핑함으로써 알 수 있다 매핑의 실제 선택은 암호의 2차 구조형성에 큰 역할을 한다.

우리는 그러한 모든 매핑이 본질적으로 동일한 매개변수를 가진 코드를 산출한다는 것을 안다.그러나 지도화의 실제 선택은 암호문의 2차 구조에 큰 영향을 미친다.For example, the codeword illustrated was obtained from via the mapping , while the codeword was obtained from the same generator via the mapping - - - 스타일

이진 매핑을 통한 코드 구성

아마도 DNA 코드 워드를 구축/설계하기 위한 더 간단한 접근법은 코드 워드를 이진 코드로 구성하는 설계 문제를 살펴서 이진 매핑을 하는 것이다. 즉, DNA 코드 워드 알파벳 을(를) 표시된 대로 2비트 길이의 이진 워드 집합에 매핑한다: } T 11 .

우리가 볼 수 있듯이, 이진 이미지의 첫 번째 비트는 그것이 어떤 상호 보완적인 쌍에 속하는지 명확하게 결정한다.

을(를) DNA 시퀀스로 한다.위에 주어진 매핑을 {q에 적용하여 얻은 b( displaystyle {b(q)}}을를) 이진 영상이라고 한다

자, b () = b2 … - 1 mathit{}-1

Now, let the subsequence be called the even subsequence of , and 의 이상열렬이라고 한다

따라서, 를 들어, = A C{\의 경우 () =

그러면 e) = e(=

Let us define an even component as , and an odd component as .

이러한 바이너리 매핑 선택으로부터 DNA 시퀀스 의 GC-함량 q = () 의 해밍 중량

따라서 DNA 코드 은(는) 짝수 성분 상수 가중 코드인 경우에만 상수 GC-내용 코드다.

Let be a binary code consisting of codewords of length and minimum distance , such that implies that

w>0{\displaystyle{\mathit{w}}>0}은 어떤w H(⋅){\displaystyle{w_{H}(\cdot)}}Hamming wei을 나타내는 constant-weight subcode Bw){u∈ B:wH(u))w}{\displaystyle{\mathcal{B_{\mathit{w}}}}=\{u\in{{B\mathcal}}:{\mathit{w_{H}}}(u)={\mathit{w}}년}}일 경우 고려해 보자.ght.Choose such that , and consider a DNA code, , with the following choice for its even and odd components:

,

여기서< 는 사전 편찬 순서를 나타낸다. 의 정의에 < o O{\의 경우, O 즉 O 의 구별되는 코드 워드는 서로 역작용이 될 수 없다.

w}}}은 B w 2 {\ {}}개의 길이 워드와 n 을 갖는다

또한 ) {d_{H}}({\ R w w w min{\{d_{{}}}}}}}}} 워드의 하위 집합이기 때문이다.

Also, .

는) 모두 가 {\displaystyle 인 점에 유의하십시오는 b b d은(는) -w 을(를) 가진다

And due to the weight constraint on , we must have for all ,

따라서 코드 에는 의 코드워드가 있다

여기서 (( ) d d_{\\ 을(를) 확인할 수 있다의 성분 코드 워드는 에서 가져왔기 때문이다

마찬가지로 (( O) d

따라서 DNA 코드는

with , has codewords of length d ) d d R () {d_{{{}}}{{{{}}}}}}}}}}}}}을 만족한다.{\

위에 열거한 사례에서 DNA 기반 컴퓨터의 미래 잠재력이 무엇일지 궁금할 수 있다.

엄청난 잠재력에도 불구하고, 이 방법은 오늘날 컴퓨터에 사용되는 실리콘 칩 기반 장치에 유리한 비용 요소뿐만 아니라 순전히 유연성과 속도 때문에 가정용 컴퓨터나 심지어 사무실 등의 컴퓨터에서도 실행될 가능성이 매우 낮다.[2]

그러나 그러한 방법은 오직 가능한 방법이 이것뿐이고 DNA 복합화 메커니즘과 관련된 정확성이 요구되는 상황에서 사용될 수 있다. 즉 높은 신뢰도로 작업을 수행해야 하는 애플리케이션이다.

현재 비엔나 패키지 등 여러 소프트웨어 패키지가 있는데,[7] 이 패키지는 고립된 단일 DNA(즉, 올리고뉴클레오티드)나 RNA 시퀀스에서의 2차 구조 형성을 예측할 수 있다.

참고 항목

참조

  1. ^ Adleman, L. (1994). "Molecular computation of solutions to combinatorial problem" (PDF). Science. 266 (5187): 1021–4. CiteSeerX 10.1.1.54.2565. doi:10.1126/science.7973651. PMID 7973651. Archived from the original (PDF) on 2005-02-06. Retrieved 2010-05-04.
  2. ^ a b Mansuripur, M.; Khulbe, P.K.; Kuebler, S.M.; Perry, J.W.; Giridhar, M.S.; Peyghambarian, N. (2003). "Information storage and retrieval using macromolecules as storage media". Optical Society of America Technical Digest Series.
  3. ^ Milenkovic, Olgica; Kashyap, Navin (14–18 March 2005). On the Design of codes for DNA computing. International Workshop on Coding and Cryptography. Bergen, Norway. doi:10.1007/11779360_9.
  4. ^ a b c d e Cooke, C. (1999). "Polynomial construction of complex Hadamard matrices with cyclic core". Applied Mathematics Letters. 12: 87–93. doi:10.1016/S0893-9659(98)00131-1.
  5. ^ Adámek, Jiří (1991). Foundations of coding: theory and applications of error-correcting codes, with an introduction to cryptography and information theory. Chichester: Wiley. doi:10.1002/9781118033265. ISBN 978-0-471-62187-4.
  6. ^ Zierler, N. (1959). "Linear recurring sequences". J. Soc. Indust. Appl. Math. 7: 31–48. doi:10.1137/0107003.
  7. ^ "The Vienna RNA secondary structure package".

외부 링크