남녀노소를 불문하고 전 세계 모든 인종의 사람들에게 음성 라벨링을 합니다. 새로운 음성 파일 컬렉션이 필요할 때, 업템포가 도와드리겠습니다.

 

저희는 어린 아이 목소리부터, 중년, 노인, 심지어 동물 소리까지 라디오, 보이스 오버, 동물 소리, 더빙, 유튜브 영상, 자연의 소리, 음악 등 다양한 분야에서 음성을 수집합니다.

 

 

음성 데이터 구축을 위한 품질 관리

업템포 데이터 팀은 자체 노하우가 담긴 기본 원칙 5가지를 준수합니다. 그리고 이를 바탕으로 최적의 품질을 보장하는 이미지 데이터를 구축합니다.

 

  1. 미가공 데이터 컬렉션
  • SMI 텍스트 데이터를 포함해 MP4 파일 형식의 음성 데이터를 수집
  • 데이터 처리 및 활용 목적에 적합하지 않은 불필요한 데이터와 무음 구간 필터링 및 제거

 

  1. 소스 데이터 구축
  • 수집한 미가공 데이터의 세부 데이터 분류 및 비식별화 등의 데이터 라벨링
  • 크라우드 워크(crowd working)를 통해 처리될 수 있는 형태로 소스 데이터 표준화 및 설정
  1. 소스 데이터 처리
  • 1차 처리: 대상 음성 데이터 내 대상 구간 표시
  • 2차 처리: 표시된 영역 내 음성 데이터 보안 및 텍스트 라벨링
  1. 처리된 데이터 검사
  • 완전 검사: 엄격한 품질 기준을 적용하여 기본적인 품질 검사 실시
  • 비교 검토: K-Fold 교차 검증법을 적용하여 그룹화 및 교차 품질 검사 실시
  1. 구축 데이터 최종 전달
  • 품질 기준을 만족하는 최종 데이터만 고객에게 전달
  • 150% 이상의 초과 고품질 데이터 제공으로 구축양이 부족하지 않게 전달