업템포 데이터 팀은 매년 1,000만 문장이 넘는 텍스트 데이터를 구축하고 체계적으로 운영합니다. 50여 개 국가의 전문 번역가 리소스와 전 세계 30여 개의 언어 쌍 및 “크라우드워크”를 통해 다른 어떤 기업도 해내기 어려운 대규모 및 특별한 언어 말뭉치 프로젝트를 성공적으로 수행할 수 있습니다.
프로세스:
- 파일 설계:
전체 작업 파일을 검토하고 잘못된 문장과 쓸모 없는 문장을 찾아냅니다.
- 파일 배정:
프로젝트의 난이도 및 분야를 세분화하고, 적절한 전문인력을 고려해 배정합니다.
- 실시간 모니터링:
클라우드 상에서 작업이 이루어져서 크라우드 워커들이 실시간으로 작업 현황을 확인할 수 있습니다.
- AI 번역기 대조 검토:
다른 기계 번역과 일치도가 높으면, 다시 작업을 실시합니다.
- 품질 평가:
객관적인 품질 평가를 거쳐 낮은 품질의 파일은 2차 작업을 거치게 됩니다.
- 파일 수집 및 전달:
최종 파일이 생성되면, 마지막으로 검토를 수행하고 최적의 완성 파일을 고객에게 전달합니다.
말뭉치 데이터 구축을 위한 품질 관리:
업템포 데이터 팀은 텍스트 데이터 준비부터 최종 데이터 구축 및 활용까지 ‘고품질’과 ‘대규모’ 데이터 제공을 보장합니다.
- 분야 확인
법률/의료/게임/IT 등의 분야를 확인하고 작업에 착수합니다.
- 문장 길이 확인
원문과 번역어의 문장 길이를 분석하고, 두 개의 차이가 큰 경우 길이 조정을 위해 다시 작업합니다.
- 중복제거
완벽하게 일치하는 중복 문장은 제거합니다.
- 기계 번역 유사성 분석
Edit Distance 알고리즘을 통해 기계 번역과의 유사성을 확인하고, 유사성이 높은 경우 다시 번역합니다.
- 의미론적 적합성 검증
제3자를 통한 의미론적 적합성 품질 평가를 실시합니다.
- AI 모델링 검증
AI 솔루션을 통해 데이터를 검증합니다.
- 전달
파일은 고객의 요청에 따라 CSV, JSON 등의 파일 형식으로 전달됩니다.