자동 언어 변환기

IBM의 자동 언어 번역기는 러시아 문서를 영어로 변환한 기계 번역 시스템이었다. 단어와 문장 번역 17만 개를 저장한 광디스크와 사용자 지정 컴퓨터를 이용해 빠른 속도로 조회했다. 미 공군의 외국 기술 부서를 위해 건설된 AN/GSQ-16(또는 XW-2)은 공군에 알려진 대로 주로 소련 기술 문서를 서양 과학자로 전환하는데 사용되었다. 번역기는 1959년에 설치되었고, 1964년에 극적으로 업그레이드되었으며, 결국 1970년에 SYSTRAN을 실행하는 메인프레임으로 대체되었다.

역사

포토스코픽 스토어

번역기는 1953년 6월 미국 해군에서 로스앤젤레스의 국제 텔레미터 주식회사(ITC)로 계약하면서 시작되었다. 이것은 번역 시스템이 아니라 플라스틱 디스크에 내장된 작은 검은색 직사각형으로 구성된 고성능 사진 온라인 저장 매체에 대한 순수한 연구 개발 계약이었다. 초기 계약이 끝나자, 당시 RADC(Roma Air Development Center)였던 것이 1954년 이후 계속 추가 자금을 조달했다.^[1]

이 시스템은 ITC의 엔지니어링 책임자인 길버트 킹이 루이스 리데노어가 포함된 팀과 함께 개발했다. 일련의 미세한 블랙 직사각형이나 투명한 점으로 기록된 데이터를 가진 16인치 플라스틱 디스크로 진화했다. 디스크의 가장 바깥쪽 4인치만이 저장용으로 사용되었고, 이는 접근되는 부분의 선형 속도를 증가시켰다. 디스크가 2,400RPM으로 회전했을 때, 그것은 약 1 Mbit/sec의 액세스 속도를 가지고 있었다. 이 시스템은 총 30 Mbit를 저장해 당대 최고 밀도 온라인 시스템으로 만들었다.^[1]^[1]

마크 1

1954년 IBM은 오늘날 "Georgetown-IBM 실험"으로 알려진 기계번역의 영향력 있는 시범을 보였다. IBM 704 메인프레임에서 실행된 번역 시스템은 유기화학 분야에 한정된 250단어의 러시아어만을 알고 있었고, 그것들을 조합하는 문법규칙은 6개뿐이었다. 그럼에도 불구하고 그 결과는 매우 유망했고, 언론에 널리 보도되었다.^[2]

당시 대부분의 초창기 기계번역 분야 연구자들은 당시의 스토리지 기기가 너무 작고 느려서 이 역할에 유용하지 못했기 때문에 합리적인 번역 제공을 위한 주요 과제는 큰 도서관을 짓는 것이라고 생각했다.^[3] 킹은 포토스코어 매장이 이 문제에 대한 자연스러운 해결책이라고 느꼈고, 포토스토어 기반의 자동 번역 시스템 아이디어를 공군에 던졌다. RADC는 1956년 5월에 연구 보조금을 제공했다. 당시 공군은 프로젝트에 최적의 번역사전을 제작하는 문제를 연구하던 워싱턴대 연구진에게도 보조금을 지급했다.

킹 목사는 번역에 대한 간단한 단어의 접근법을 주장했다. 그는 언어의 자연적인 중복을 통해 서투른 번역도 이해할 수 있을 것이며, 애매한 용어에 직면했을 때 합리적인 추측을 할 수 있을 만큼 국지적인 맥락만이 존재한다고 생각했다. 그는 "인간이 문장의 단어를 예상하는 데 있어서 .50의 확률을 달성한 것은 그의 경험과 이미 발견된 단어의 진짜 의미에 크게 기인한다"^[4]고 말했다. 즉, 단순히 단어를 번역하는 것만으로 인간이 문서를 효과적으로 읽을 수 있게 되는 것인데, 왜냐하면 그들은 이전의 단어들이 제공한 맥락에서 적절한 의미를 추론할 수 있기 때문이다.

1958년 킹은 IBM의 Thomas J. Watson Research Center로 이전하여 포토스토어 기반의 번역기를 계속 개발하였다. 시간이 흐르면서 킹은 순수한 단어의 번역기에서 "줄기"와 "끝"을 저장한 번역기로 접근 방식을 바꾸었는데, 이 번역기는 단어를 다시 합쳐 완전한 단어를 다시 만들 수 있는 부분으로 나누었다.^[4]

1959년 7월 첫 번째 기계인 "Mark I"는 6만5000개의 단어 사전과 사용자 지정 튜브 기반 컴퓨터로 구성되어 검색이 가능했다.^[3] 텍스트는 맞춤 키릴 단자를 사용하여 펀치된 카드에 수작업으로 복사한 후 기계에 입력하여 번역하였다. 결과는 그다지 인상적이지는 않았지만, 더 크고 빠른 기계가 합리적인 발전이 될 것이라는 것을 암시하기에 충분했다. 그 사이 마크 1호는 소비에트 신문 프라브다의 번역에 적용되었다. 그 결과는 계속 의심스러웠지만 킹은 Scientific American에서 "...운영적 평가에서 이 시스템이 정부에 의해 상당히 유용하다는 것을 발견했다"고 언급하면서 성공을 선언했다.^[3]

마크 II

1957년 10월 4일 소련은 최초의 인공위성인 스푸트니크 1호를 발사했다. 이 때문에 미국에서는 프로젝트 뱅가드가 납작하게 잡혔다가 화려한 패션을 반복하며 실패를 거듭하는 것으로 밝혀져 우려를 자아냈다. 이런 난처한 상황의 전환은 DARPA, NASA의 형성과 이런 식으로 다시 놀라지 않으려고 하는 다양한 정보 노력을 포함한 미국의 과학기술에 막대한 투자를 초래했다.

잠시 후, 라이트 패터슨 공군 기지에 집중된 정보 활동은 공군이 DIA와 다른 기관들의 의견을 받아 운영하는 대외기술 부서(FTD, 현재 국립항공우주정보센터)로 운영되었다. FTD는 소련과 다른 바르샤바 블록의 기술 및 과학 저널을 번역하여 "서쪽"의 연구자들이 철의 장막 뒤의 발전에 대해 최신 정보를 유지할 수 있도록 했다. 이 문서들의 대부분은 공개적으로 이용할 수 있었지만, FTD는 또한 요청에 따라 다른 자료들을 일회성으로 여러 번 번역하기도 했다.

자격을 갖춘 번역가가 부족하다고 가정할 때, FTD는 IBM에서 킹의 노력에 매우 관심을 갖게 되었다. 업그레이드된 기계에 대한 자금 지원이 곧 시작될 예정이었고, 2,400RPM으로 회전하는 더 빠르고 더 큰 용량의 10인치 유리 기반 광학 디스크를 가진 트랜지스터 컴퓨터를 기반으로 한 "Mark II" 시스템에 대한 작업이 시작되었다. 또 다른 추가는 제3자가 제공한 광학 문자 판독기로서, 그들은 러시아어 텍스트를 기계 판독이 가능한 카드에 복사하는 데 드는 시간이 걸리는 과정을 없앨 수 있기를 희망했다.^[3]

1960년에 워싱턴 팀도 IBM에 합류하여 사전 노력을 기울였다. 사전은 FTD에 설치될 무렵에는 17만 단어와 용어에 이르는 추가 저장이 가능해지면서 계속 확장되었다. 주요 소프트웨어 업데이트도 Mark II에 통합되었는데, 킹은 이를 "전술적 스터핑"이라고 불렀다. 스터핑은 텍스트의 초기 단어에서 접두사를 "접착"함으로써 모호한 단어의 문제를 다루기 위한 시도였다.^[3] 이러한 변형된 단어들은 유사하게 채워진 사전의 단어들과 일치할 것이고, 잘못된 긍정들의 수를 줄일 것이다.

1962년 킹은 IBM을 떠나 새로운 기술을 빠르게 습득하는 과정에서 군 계약자인 이텍으로 향했다. IBM에서의 개발은 계속되었고, 이 시스템은 1964년 2월에 FTD에서 완전히 가동되었다. 이 시스템은 1964년 뉴욕 세계 박람회에서 시연되었다. 박람회 버전에는 15만 개의 단어 사전이 포함되어 있으며, 그 중 약 1/3이 구절로 되어 있다. 이 중 약 3500개를 코어메모리에 저장해 성능을 향상시켰고, 분당 평균 20단어의 속도가 요구됐다. 신중하게 선택한 입력 텍스트의 결과는 상당히 인상적이었다.^[5] FTD로 복귀한 후 1970년까지 계속 사용되었는데, 그 때 시스트란을 실행하는 기계로 대체되었다.^[6]

ALPAC 보고서

1964년 미국 국방부는 미국 국립과학아카데미(NAS)에 기계번역 현황 보고서를 작성하도록 의뢰했다. NAS는 "자동 언어 처리 자문 위원회" 즉, ALPAC를 구성하고 1966년에 연구 결과를 발표했다. '언어와 기계: 번역과 언어학의 컴퓨터'라는 보고서는 기존의 노력에 대해 매우 비판적으로 평가하면서, 시스템이 인간의 번역보다 빠르지 않다는 것을 증명하는 한편, 번역기의 부족이 사실 잉여라는 것을 증명하는 동시에, 수요와 공급의 문제로 인해 인간의 번역이 다시 이루어졌다는 것을 보여주었다.1,000단어당 약 6달러의 저렴한 가격 더 나쁜 것은, FTD 역시 더 느렸다; 물리학 논문을 입력으로 사용한 테스트는 번역기가 "인간의 번역을 사용할 때보다 정확도가 10퍼센트 낮고, 21퍼센트 느리며, 이해도가 29퍼센트 낮았다"^[7]는 것을 보여주었다.

ALPAC 보고서는 조지타운 실험이 10년 전에 이루어졌던 것만큼 영향력이 있었다; 그 발표 직후, 미국 정부는 기계번역 연구에 대한 거의 모든 자금 지원을 중단했다.^[8] IBM과 Itek에서 진행 중인 작업은 1966년까지 종료되었고, 유럽인들은 SYSTRAN과 로고스와 같은 시스템의 개발을 계속하였다.

참조

메모들

^ ^a ^b 허친스, 171 페이지
^ John Hutchins, "기계 번역의 첫 번째 공개 시연: 조지타운-IBM 시스템, 1954년 1월 7일" 2016년 3월 3일 웨이백 기계에 보관
^ ^a ^b ^c ^d ^e 허친스, 페이지 172
^ ^a ^b 1956년 킹
^ 허친스, 174 페이지
^ 허친스, 페이지 175
^ ALPAC, 페이지 20
^ John Hutchins, "ALPAC: 유명한 보고서" 2007년 10월 6일 웨이백 머신에 보관

^^ 초기 디스크 시스템의 이 수치는 부정확한 것으로 보인다 – 같은 저자의 다른 문서에서는 이 수치들이 실제로 Mark II 번역기에 사용된 후기 버전을 위한 것이라고 제시한다.

참고 문헌 목록

G.W. King, G.W. Brown 및 L.N. Ridenour, "정보 저장을 위한 사진 기법", IRE의 절차, 제41권 발행 10 (1953년 10월), 페이지 1421–1428.
G.W. 킹, "기계통역의 확률적 방법", 기계번역, 제3권 제2호(1956) 페이지 38~39
J.L. Craft, E.H. Goldman, W.B. Strohm, IBM Journal, 1961년 7월, 페이지 192–203
언어처리자문위원회, "언어와 기계: 번역과 언어학의 컴퓨터", 국가연구위원회, 1966 (전반적으로 "ALPAC 보고서"로 알려져 있음)
John Hutchins (edd), "Gilbert W. King and the IBM-USAF Translator", Early Years in Machine Translation, Joh Benjamina, 2000, ISBN90-272-4586-X(RADC-TDR-62-105)
찰스 본과 트루디 벨라르도 한, "A History of Online Information Services, 1963–1976", MIT Press, 2003, ISBN 0-262-02538-8

[hutch171-1] 허친스, 171 페이지

[2] John Hutchins, "기계 번역의 첫 번째 공개 시연: 조지타운-IBM 시스템, 1954년 1월 7일" 2016년 3월 3일 웨이백 기계에 보관

[hutch172-3] 허친스, 페이지 172

[King,_1956-4] 1956년 킹

[5] 허친스, 174 페이지

[6] 허친스, 페이지 175

[7] ALPAC, 페이지 20

[8] John Hutchins, "ALPAC: 유명한 보고서" 2007년 10월 6일 웨이백 머신에 보관

[1]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Search