업템포는 전 세계의 다양한 이미지를 수집해 유의미한 결과를 보여드립니다. 도심, 실내, 사물, 자연, 가구, 스포츠, 그림, 동식물, 음식, 간판 등의 다양한 분야의 이미지를 작업한 경험이 있습니다.
말뭉치 데이터 구축을 위한 품질 관리:
업템포 데이터 팀은 자체 노하우가 담긴 기본 원칙 5가지를 준수합니다. 그리고 이를 바탕으로 최적의 품질을 보장하는 이미지 데이터를 구축합니다.
- 미가공 데이터 컬렉션
- 텍스트 데이터를 포함해 JPG 혹은 PDF 파일 형식의 이미지 데이터를 수집
- 데이터 처리 및 활용 목적에 적합하지 않은 데이터 필터링 및 제거
- 소스 데이터 구축
- 수집한 미가공 데이터의 세부 데이터 분류 및 비식별화 등의 데이터 라벨링
- 크라우드 워크(crowd working)를 통해 처리될 수 있는 형태로 소스 데이터 표준화 및 설정
- 소스 데이터 처리
- 1차 처리: 대상 이미지의 인식 영역을 경계 박스를 이용해 표시
- 2차 처리: 표시된 영역에 입력 텍스트로 라벨링
- 처리된 데이터 검사
- 완전 검사: 엄격한 품질 기준을 적용하여 기본적인 품질 검사 실시
- 비교 검토: K-Fold 교차 검증법을 적용하여 그룹화 및 교차 품질 검사 실시
- 구축 데이터 최종 전달
- 품질 기준을 만족하는 최종 데이터만 고객에게 전달
- 150% 이상의 초과 고품질 데이터 제공으로 구축양이 부족하지 않게 전달