말뭉치

Blog/News30/09/2022

업템포 데이터 팀은 매년 1,000만 문장이 넘는 텍스트 데이터를 구축하고 체계적으로 운영합니다. 50여 개 국가의 전문 번역가 리소스와 전 세계 30여 개의 언어 쌍 및 “크라우드워크”를 통해 다른 어떤 기업도 해내기 어려운 대규모 및 특별한 언어 말뭉치 프로젝트를 성공적으로 수행할 수 있습니다.

프로세스:

파일 설계:

전체 작업 파일을 검토하고 잘못된 문장과 쓸모 없는 문장을 찾아냅니다.

파일 배정:

프로젝트의 난이도 및 분야를 세분화하고, 적절한 전문인력을 고려해 배정합니다.

실시간 모니터링:

클라우드 상에서 작업이 이루어져서 크라우드 워커들이 실시간으로 작업 현황을 확인할 수 있습니다.

AI 번역기 대조 검토:

다른 기계 번역과 일치도가 높으면, 다시 작업을 실시합니다.

품질 평가:

객관적인 품질 평가를 거쳐 낮은 품질의 파일은 2차 작업을 거치게 됩니다.

파일 수집 및 전달:

최종 파일이 생성되면, 마지막으로 검토를 수행하고 최적의 완성 파일을 고객에게 전달합니다.

말뭉치 데이터 구축을 위한 품질 관리:

업템포 데이터 팀은 텍스트 데이터 준비부터 최종 데이터 구축 및 활용까지 ‘고품질’과 ‘대규모’ 데이터 제공을 보장합니다.

분야 확인

법률/의료/게임/IT 등의 분야를 확인하고 작업에 착수합니다.

문장 길이 확인

원문과 번역어의 문장 길이를 분석하고, 두 개의 차이가 큰 경우 길이 조정을 위해 다시 작업합니다.

중복제거

완벽하게 일치하는 중복 문장은 제거합니다.

기계 번역 유사성 분석

Edit Distance 알고리즘을 통해 기계 번역과의 유사성을 확인하고, 유사성이 높은 경우 다시 번역합니다.

의미론적 적합성 검증

제3자를 통한 의미론적 적합성 품질 평가를 실시합니다.

AI 모델링 검증

AI 솔루션을 통해 데이터를 검증합니다.

전달

파일은 고객의 요청에 따라 CSV, JSON 등의 파일 형식으로 전달됩니다.

말뭉치

공유

귀하의 아이디어를 공유하세요!