기계 번역이란?

기계 번역은 자동화된 번역입니다. 자연 언어를 또 다른 자연 언어로 번역할 때 컴퓨터 소프트웨어를 사용하는 것이 기계 번역입니다.

사람이 번역하든 기계가 번역하든 원문의 내용이 번역문에 충실히 반영되어야 제대로 된 번역입니다. 겉으로 보기에는 번역이 쉬워 보일 수 있지만 실상은 그렇지 않습니다. 번역은 단순히 원문의 단어를 대상 언어의 단어로 바꾸는 작업이 아닙니다. 번역가는 문장 안의 모든 요소들을 해석하고 분석하여 각 단어가 다른 단어에 어떤 영향을 주는지 파악해야 합니다. 번역가는 문법, 문장 구조, 의미 등 원문 언어와 대상 언어의 언어 지식이 충분해야 할 뿐만 아니라 그 문화에도 친숙해야 합니다.

휴먼 번역과 기계 번역은 각각 풀어야 할 숙제가 있습니다. 인간 번역의 경우, 동일한 언어쌍의 동일한 문장을 두 번역가들이 완전히 똑같이 번역할 수 없으며 고객이 원하는 수준으로 번역하기 위해서 여러 번 교정해야 할 수 있습니다. 그러나 더 큰 숙제는 기계 번역의 품질이 출판 가능한 수준으로 끌어올리는 방법을 찾는 것입니다.

규칙 기반의 기계 번역 기술

규칙 기반의 기계 번역은 언어쌍마다 수많은 내부 언어 규칙과 엄청난 분량의 2개 국어 사전이 필요합니다.

번역 소프트웨어는 원문을 분석하여 임시 문구를 생성하는데, 이 문구는 대상 언어로 번역할 때 사용됩니다. 이 과정에는 형태학적, 구문론적, 의미론적 정보와 다수의 규칙에 맞는 광범위한 어휘 목록이 필요합니다. 번역 소프트웨어는 이런 복잡한 규칙들을 적용하고 나서 원문 언어의 문법 구조를 대상 언어로 바꿉니다.

번역문은 방대한 양의 사전과 정교한 언어 규칙을 토대로 생성됩니다. 용어 사전이 없어도 바로 사용 가능한 번역문이 생성되지만 용어 사전을 추가하면 품질을 한층 더 높일 수 있습니다. 시스템에서 정한 기본값 대신 사용자가 지정한 용어 사전이 적용되기 때문입니다.

기계 번역의 투자는 대부분 두 단계로 진행됩니다. 첫째는 제한적인 투자로 품질을 대폭 향상시키는 시작 단계이며, 둘째는 지속적인 투자로 품질을 조금씩 높이는 후속 단계입니다. 규칙 기반의 기계 번역을 이용하면 번역이 최소 품질역량을 넘을 수 있지만 품질 향상 프로세스에 많은 시간과 비용이 소모될 수 있습니다.

통계 기반의 기계 번역 기술

통계 기반의 기계 번역은 통계학적 번역 모델들을 이용합니다. 통계학적 번역 모델들은 1개 국어 및 2개 국어 말뭉치를 분석하여 얻은 변수들로부터 구축됩니다. 통계학적 번역 모델의 구축은 빠르게 진행되는 프로세스이지만 기존 다국어 말뭉치에 대한 의존도가 매우 높습니다. 특정 도메인은 최소 2백만 단어의 코퍼스, 일반 언어는 이보다 더 많은 수의 코퍼스가 필요합니다. 이론상 통계 기반의 번역은 최소 품질역량에 도달할 수 있지만 대부분 회사들은 번역 모델의 구축에 필요한 대량의 기존 다국어 말뭉치를 보유하고 있지 않습니다. 또한, 통계 기반의 기계 번역은 컴퓨터의 성능에 크게 좌우되기 때문에 평균적인 번역 결과물을 얻기 위해서는 상당한 고가의 컴퓨터가 필요합니다.

규칙 기반과 통계 기반 기술의 비교

규칙 기반의 기계 번역은 도메인 외의 번역에서도 성능을 발휘하며 기본적으로 번역 품질을 예측할 수 있습니다. 사전 기반의 맞춤 제작은 품질 향상과 기업 용어와의 일관성 유지를 보장합니다. 하지만 독자들이 요구하는 자연스런 번역은 때론 힘들 수도 있습니다. 투자의 관점에서 보면 최소 품질역량에 도달하기 위해 진행되는 맞춤 제작 과정이 너무 길고 비용이 클 수 있습니다. 대신 표준 사양의 컴퓨터에서도 높은 성능을 발휘합니다.

통계 기반의 기계 번역은 충분한 양의 유용한 코퍼스가 있을 때 좋은 품질의 번역이 가능합니다. 번역이 자연스럽기 때문에 쉽게 이해되고 사용자들의 기대치를 충족할 수 있습니다. 하지만 번역 품질은 예측이 불가능하고 일관되지도 않습니다. 양질의 코퍼스를 사용하는 트레이닝 과정은 자동으로 실행되며 경제적입니다. 하지만 특정 도메인이 아닌 언어 보편적인 말뭉치로 기계를 학습시키면 번역 품질이 낮습니다. 또한, 통계 기반의 기계 번역은 대규모 번역 모델들을 구축하고 관리하기 위해 상당히 높은 사양의 컴퓨터가 필요합니다.

규칙 기반의 기계 번역 통계 기반의 기계 번역
+ 품질의 일관성 및 예측 가능성 – 예측 불가능한 번역 성능
+ 도메인 외적 번역의 품질 유지 - 도메인 외 번역 품질 저하
+ 문법을 다룸 – 문법을 다루지 못함
   
+ 성능 및 견고성이 높음 – 높은 CPU 및 디스크 공간 필요
+ 버전 간의 일관성 유지 – 버전간 일관성 유지 불가
   
– 문장의 유창한 정도가 낮음 + 유창함 풍부
– 예외적인 규칙 처리가 어려움 + 규칙의 예외 상황을 잘 발견함
   
– 개발 및 커스터마이제이션 비용이 높음 + 코퍼스가 있을 경우 개발이 신속하고 비용 효과적임

전반적인 요구 사항을 고려할 경우, 규칙 기반의 기계 번역처럼 더 나은 번역 품질과 성능을 제공하면서 통계 기반의 기계 번역처럼 투자 비용을 낮출 수 있는 제3의 방식이 필요하다는 것을 알 수 있습니다.

문서를 다운로드하려면 다음 정보를 입력하세요.

*필수 항목

일부 정보가 잘못 입력되었습니다. 빨간색으로 강조한 항목을 확인하세요.

회사 정보
연락처
보안 코드

위 이미지에서 보이는 글자를 입력하세요 (대소문자 구분). 글자가 잘 보이지 않으면 이미지를 클릭하세요.