2023. 3. 26. 19:56ㆍ카테고리 없음
1. 데이터 검수란?
- 인공지능 모델의 목적과 특성에 맞게 수집, 가공된 데이터의 품질을 확인하는 과정
- '학습용 데이터'가 구축되는 과정과 그 과정 속에서 획득되는 각 데이터의 특성을 먼저 이해하는 것이 중요함

1) 데이터의 종류
(1) 원시데이터
기계학습을 목적으로 획득 단계에서 수집 또는 생성한 음성, 이미지, 영상, 텍스트 등의 데이터
eg. 자동차 사진
(2) 원천데이터
원시데이터를 라벨링 공정에 투입하기 위해 필요한 전처리 등의 정제 작업을 수행한 데이터
*전처리: 필요한 형식이나 크기에 맞게 변형, 데이터의 중복 제거, 개인정보 비식별화 처리
eg. 번호판이 가려진 자동차 사진
(3) 라벨링데이터
기계학습에 활용할 수 있도록 원천데이터에 라벨을 부착한 데이터
2. 검수자의 역할과 책임
- 라벨러가 작업한 데이터가 사전에 제시된 기준에 맞게 올바르게 완성되었는지를 확인하고, 판단하는 역할
1) 선발 기준
- 데이터 라벨링에 대한 이해와 경험이 있는지
- 검수자의 역할과 책임을 올바르게 인식하고 있는지
2) 검수 순서

3) 잘못된 검수 사례
(1) 가이드의 미숙지
동일한 유형의 프로젝트라도 작업기준이 상이할 수 있으므로 반드시 검수가이드와 작업가이드를 꼼꼼히 확인해야 함
(2) 무성의하거나 부정한 방법으로 검수 진행
- 작업 내용을 제대로 확인하지 않고 검수 완료를 한 경우
- 매크로와 같은 컴퓨터 프로그램을 이용하여 검수를 진행하는 경우
- 적발 방법: 표본 검사, 평균 검수 시간, 전문 검수자와의 작업 속도 비교
- 성실하고 올바른 방법으로 검수를 진행해야 함
(3) 자의적인 판단에 의한 독단적인 행동
- "이게 더 효과적인 방법인 것 같아", "이 정도는 괜찮겠지" 안됨!
- 정해진 기준을 준수하여 일관된 검수를 진행해야 함
(4) 작업자와의 갈등 유발
- 작업자를 하대하거나, 무시, 비난하면 안됨!
- 불이익을 받거나, 검수자격이 박탈되거나, 법적인 처벌이 가능함
4) 반려 사유 작성법
(1) 작업자의 입장에서 생각해본 후 작성하기
(2) 잘못된 부분은 명확하게, 수정해야 할 내용은 구체적으로 작성하기
(3) 상대방을 존중하는 표현 사용하여 작성하기
(4) 오해의 소지가 있거나, 감정 섞인 표현 자제하기
3. 검수 방법
1) 원시데이터(획득 단계)
(1) 이미지, 영상
- 할당량을 맞췄는지
- 정해진 대상이 맞는지
- 정해진 해상도나 파일 포맷이 맞는지
- 각각의 프로젝트마다 기준이 다르므로, 꼼꼼이 확인해야 함

(2) 음성
- 수집 내용
- 분량
- 음질
- 환경
- 각각의 프로젝트마다 기준이 다르므로, 꼼꼼이 확인해야 함

(3) 텍스트
- 내용
- 수량
- 출처
- 각각의 프로젝트마다 기준이 다르므로, 꼼꼼이 확인해야 함
2) 라벨링데이터(정제 단계)
(1) 이미지
[바운딩]
- 바운딩 박스에 여유 공간이 있는 경우
- 작업 대상이 잘린 경우: 바운딩 대상의 오른쪽 상단이 잘렸습니다. 오른쪽 상단을 조금 늘려주세요.
- 작업 대상이 아닌 것이 바운딩된 경우: 공은 바운딩 대상이 아닙니다. 바운딩을 제거해주세요.
- 태깅이 누락되거나 잘못된 경우: 태깅 속성이 잘못됐습니다. 고양이가 아닌 강아지로 태깅해주세요.
- 가려진 부분을 예측해서 바운딩한 경우: 가려진 부분을 예측하지 않고 보이는 곳까지만 바운딩 해주세요.
- 동물의 잔털과 눈썹, 수염을 바운딩한 경우: 고양이의 수염은 바운딩 대상이 아닙니다. 얼굴 윤곽까지만 바운딩해주세요.
[키포인트 추출]
- 가려져 있는 부위에 점을 찍고 가려짐 처리를 하지 않은 경우: 각도상 보이지 않는 오른쪽 뒷다리 시작 부분, 오른쪽 뒷무릎, 오른쪽 뒷발에 '가려짐'처리를 하지 않았습니다. 각도상 보이지 않을 경우 '가려짐' 처리를 해주세요.
- 방향을 잘못 판단하여 작업한 경우: 강아지 기준으로 오른쪽과 왼쪽을 구분해주세요. 강아지가 정면을 바라볼 때 작업자의 왼쪽이 강아지의 오른쪽이 됩니다.
[OCR]
- 책 제목 전체를 바운딩 했을 경우: 띄어쓰기 단위로 바운딩해주세요.
- 크기가 다른 글자를 따로 바운딩 했을 경우: 글자의 크기가 달라도 하나의 바운딩으로 처리해주세요.
[얼굴 랜드마크]
- 가려져 있는 부위를 체크한 경우: 각도상 보이지 않는 왼쪽 눈에 '가려짐' 처리를 하지 않았습니다. 각도상 보이지 않을 경우 '가려짐' 처리를 해주세요.
[폴리곤]
- 작업자가 점의 개수를 적게 찍어 곡선이 잘린 경우: 문의 곡선이 모두 포함되도록 표기해주세요.
- 쌍여닫이 문을 하나로 작업한 경우: 붙어있는 쌍여닫이 문은 따로 나누어 표기해주세요.
[감정 분석]
- 다수의 답변과 다른 답변을 선택한 경우: 사람의 감정을 다시 선택해주세요/이미지 파일은 다시 보고 작업해 주세요/감정이 바르게 선택되었는지 확인해 주세요.
(2) 영상
[특정 구간 추출]
- 주어진 상황에 적합하지 않은 구간을 선택한 경우: 영상 속 상황이 적절히 선택되었는지 확인해 주세요.
[바운딩]
- 바운딩을 누락한 경우: 아동은 바운딩 대상입니다. 아동을 바운딩 해주세요. *누락된 대상을 말해줘야 함
- 태깅이 잘못된 경우: 태깅 속성이 잘못됐습니다. 잡상인이 아닌 아동으로 태깅해주세요.
[스켈레톤 추출]
- 종료 지점을 잘못 선택한 경우: 종료 지점을 행동이 완료된 시점으로 변경 해주세요.
(3) 음성
[받아쓰기]
- 표준전사인지, 발음전사인지 반드시 확인 후 진행해야 함
- 표준전사인데 발음전사로 작성한 경우: 표준 전사로 입력(전사)해주세요.
- 숫자를 한글로 입력하지 않은 경우: 숫자는 한글로 입력(전사)해주세요.
- 성별, 등장 순서를 표기하지 않은 경우: 성별 및 등장 순서를 표기해주세요.
[화자 구분]
- 조용한 환경에서 검수를 진행해야 함
- 헷갈릴 경우 반복해서 들어야 함
- 다수가 선택한 답을 정답으로 간주함
- 작업자가 정답과 다른 답을 선택한 경우: 말하는 사람(화자)을 확인해 주세요.
(4) 텍스트
[문자 의미 비교]
- 틀린 경우: 두 문장은 같은 의미입니다. 문장을 다시 잘 읽고 '같은 의미'로 태깅해주세요.
[감정 태깅]
- 분류를 하지 않은 경우: 내용은 모두 긍정 표현이 맞지만, 내용별 분류를 선택하지 않았습니다. 맛 외에 양, 배달 분류를 해당 내용에 태깅해주세요.
- 해당 리뷰만으로는 판단할 수 없는 것을 작업자가 판단하여 기재한 경우: 해당 내용만으로는 위생에 대한 부정 표현이라는 걸 알 수가 없습니다. 명확한 내용에만 태깅해주세요.
[키워드 찾기&문장 요약]
- 내용을 읽지 않고 태깅하거나 키워드만 보고 문장 요약을 진행한 경우: 키워드가 적절히 선택되었는지 확인해 주세요/육하원칙 중 2가지 이상을 포함하여 내용을 요약해주세요/주요 내용이 모두 포함되어 있지 않습니다. 다시 요약해주세요.