구를 전 배낄 사 말소리를 음성데이터로 옮겨적는 것으로 말을 글자화하는 작업이다. 음성파일 녹취해서 증거파일로 쓰거나 문서화하거나 지자체에서 의회회의록으로 만들어서 쓰고 있다. 학습할 수 있도록 하고 있다. 일반적인 전사 규칙 특수기호를 쓰는 경우는 거의 없다. 다른 발성이 나와도 들리는대로 전사한다. 이게 뭐지 이게 무지로 들리더라도 맞춤법에 맞게 뭐지로 전사한다. 발음 놓고 했어 표준발음이 맞기 때문에 발음 놓고 했어 바로 노쿠 했수 바롬 놓쿠 했수 최대한 변형해서 전사해주어야 하는 것이다. 알고 있기 때문이다. 인공지능이 학습하는데 최대한 표준어 표기에 맞게 예시 보면 2000만 빼고 제234회 단어이기 때문에 띄어 쓰고 붙여서 쓴다.
일반적인 기호 하이픈 괄호와 같은 소리나는데로 적는다고 한다. 17.45프로 소리나는데로 적는다. 퍼센트로 영어 알파벳도 삼성 에스디에스 인슈러언스 소리나는 에프씨 한글이랑 영어랑 섞여 있는 경우에도 같이 한글로 전사한다고 한다. 문제입니다. 가로수입니다. 전사할 때는 가로수입니다. 전사해주면 됩니다. 의미가 맞지 않더라도 추임새 감탄사 등도 같은 말이 여러번 반복되어도 아이 인제 송금은 그것 그시기 한담가요 발화를 했다면 다 전사를 했는데 의미를 모르는 발화는 없는데 무슨 단어인지 모르더라도 최대한 가깝게 전사해주면 된다고 한다.
그서 그런데 그리고 그리구 진짜 그렇게 전사해주면 된다고 한다. 잠시 쉬는 구간이 생겼을 때 발화 중에 휴지가 있으면 싱크를 찍어서 줄을 바꿔주면 된다고 한다. 발성한대로 전사해주면 된다고 한다. 그런대를 추측해서 해주는 것이 아니라고 한다. 발성 그대로 전사한다. 예를 들어서 했습니다. 그렇게 하지 않고 12번 둘 이상의 발화내용이 따라가데 크고 명확하게 들리는 내용으로 전사한다. 말겹침 이렇게 성량이 구분을 할 수 있다면 13번 화자번호 기입은 1,2번으로 기입하고 요형태로 해주면 된다고 한다. 바꿔서 네 반갑습니다. 요 형식으로 해주면 된다고 한다. 전사작업으로 전사 툴에서 작업하는 것이라고 한다. 확대해서 전사툴에서 쭉 이어서 하면 두번 되지는 않는다고 한다. 싱크를 쓰다고 위에를 찍거나 이 작업을 완전히 마치고 다시 보는 공백을 입력하면 그런 경우가 없도록 주의해서 봐주면 된다고 한다.
파형이 있는 중간에 끝맺음이 안되기 산을 제가 훨씬 좋아해요 산을 제가 ..씹히는 경우에는 공백이 있는 경우에 싱크를 찍어서 나누어주면 된다고 한다. 간혹 놓치는 경우가 있어서 되감기 해서 꼼꼼하게 검수를 해야 한다고 한다. 화자 번호를 잘못 기입한 오류 화자 입력한다고 했는데 1번 뒤에 여기에서는 쌍점을 띄운 다음에 원칙은 쌍점은 발화는 한 칸 띄워서 수정된 것을 볼 수 있다. 작업자 분들이 많이 틀리는 실수라고 한다.
불완전 발화 전사가 있다고 한다. 다 들리는대로 전사해주어야 한다고 한다. 샘께서 말씀해주신 요것은 아주 명확하게 뭐지 머지가 아닌 뭐지로 주는 성 전사 놀람 감탄 웃음소리 히히 이런 것 하하하 아 그런 것 있어서 한숨이나 숨소리 기침소리 발성한 것이 아닌 것은 전사하지 않는다. 사투리는 맞는 사투리로 전사한다. 정구지라는 사투리가 있구나 맞는 사투리 찾아서 전사 내용에 넣어주면 된다고 한다.
'구름고동이네 데이터분석' 카테고리의 다른 글
| 크라우드 웍스에서 지난달 (0) | 2023.02.10 |
|---|---|
| 수건을 종류별로 바닥에 대고 (0) | 2023.02.09 |
| 음성 텍스트 기본 음성 데이터 정제 및 저작도구 강의를 듣고 (0) | 2023.02.06 |
| 데이터 라벨러 음성 텍스트 기본 정제와 정제 규칙 및 실수 사례를 듣고 (0) | 2023.02.04 |
| 데이터 라벨러 기본 음성 텍스트 기본 맞춤법 강의를 듣고 (0) | 2023.02.03 |