泛領(lǐng)域標注規(guī)范及標準
一.簡單介紹
本音頻內(nèi)容是客服對話電話語音數(shù)據(jù)。利用工具,對語音進行標注。標記時間戳,隔開一個一個的語音段,然后對每個語音段,分別標注說話人身份、文本內(nèi)容、說話人性別和情緒。
注意只轉(zhuǎn)寫實實在在的人講話的聲音,視頻、電視里面的講話聲音不用轉(zhuǎn)寫。但是根據(jù)數(shù)據(jù)類型來判斷。夾雜在主持人講話中的開頭或者中間的一些視頻播音片段,無效不轉(zhuǎn)寫;如果整段音頻都是視頻類語音,比如電視劇等,就可以全部轉(zhuǎn)寫。
二.操作步驟及方法
1. 首先登錄網(wǎng)址:http://182.92.174.146:5500/,登錄界面如下圖,用給定的賬號和密碼登錄;
2. 登錄進去之后,選擇申請任務,選擇項目名稱的任務,然后同意保密協(xié)議,就進入工作頁面開始工作;
3. 工作頁面如下圖所示,具體的切分標注步驟如下:
1) 首先,框1是音頻的播放區(qū)域,如果沒有勾選播放分區(qū)模式,點擊音頻波形,音頻會從點擊的位置開始播放。如果勾選播放分區(qū)模式,音頻會從本段的起始位置開始播放;
2) 然后判斷音頻是否有效,如果無效選擇無效,判斷無效原因即可,如果有效再繼續(xù)標注文本框2中屬性;
3) 其次,在文本框4中轉(zhuǎn)寫文本,并在需要的時候添加文本框3中的標簽,本段轉(zhuǎn)寫完畢點擊保存按鈕,切分標注好的段落會顯示在文本框5中;(編輯文本是播放暫停的快捷鍵是Alt+m,常用這個會事半功倍哦)
4) 最后,整段音頻都切分標注完畢,點擊右上角的提交按鈕即可。
三.切分標注的標準
3.1 時間戳標記
a) 根據(jù)語義和停頓時間等因素,在音頻信號中每一句話的句首和句尾分別添加時間邊界,拖動鼠標即可添加。
b) 如果同一說話人說話時間較長,則應根據(jù)其語義來增加時間邊界,每個時間段的長度最多不能超過15s,但斷句也不要太散太短。
c) 一個語音段應該包含一個或多個完整的句子。例如“我想去吃飯”不能被分割為“我想去”和“吃飯”。
d) A說完改成B說后,在A和B之間要分割(一個語音段只能包含一個說話人)
e) 在進行語音切分過程中,有效語音前、后應盡量保留一定靜音部分(一般不得少于20ms),注意切分時邊界位置盡量準確,一般不應切到有效語音上。兩段之間如存在靜音,應為前后段保留一定靜音。在連續(xù)語音中放置邊界時,若無明顯停頓,切分標記要放在中間,不要傷害有效語音,即不要貼著音頻切。
一個人的語音為一個段落,不同說話人之間要分開,每個段落前后留不少于20ms(20ms其實很短就是為了不要切到語音上)的停頓不要貼著音頻切。
1.:兩段間小于等于5秒,停頓平分到前后段落
2.:兩段間停頓大于5秒,中間多余停頓部分無效且添加相應標簽
f) 只有一個字表示應答的,如語音沒有overlap(重疊),則單獨分割成獨立語音段(如:嗯、哦、對);如有overlap,則標記主說話人語音,并在存在overlap的段落加overlap標記
3.2文本標注規(guī)范
a) 錄音轉(zhuǎn)寫的第一要求
忠實地按照音頻錄音念什么就轉(zhuǎn)寫成什么的原則,如真實發(fā)音為“我們?nèi)ツ哪睦锇 ?,“哪”字有重復,就要忠實地錄成“我們?nèi)ツ哪睦锇 薄?/span>
g) 口音問題
由于口音或個人習慣導致的音變,按普通話標注音錄入。多音字或者生活中有不同發(fā)音的字,也按照普通話標注音錄入。例如,“辦公室”的“室”,有人說成“shi3”,有人說成“shi4”,都要錄成“辦公室”
h) 數(shù)字
數(shù)字符號應完全按照其讀音轉(zhuǎn)寫成對應的漢字,例如:”5256”->”五千二百五十六”,”2004”->”二零零四”或”兩千零四”,”19%”->”百分之十九”等。其中“1”轉(zhuǎn)“一”或者“幺”,根據(jù)真實發(fā)音錄入。
i) 英文單詞或作為單詞發(fā)音的縮寫詞
對于英文單詞,或者作為單詞發(fā)音的縮寫詞,如果其發(fā)音是按照一個單詞來發(fā)音的,請直接轉(zhuǎn)寫,注意字母間要加空格。英文單詞小寫格式,字母大寫且空格。
例如,“hello”、“G D P”P P T Q Q 等。hello kitty
Eg:您的Q Q郵箱是多少?遇到說網(wǎng)址的@要寫@。
如果出現(xiàn)拼音拼讀的,將聲母韻母分開轉(zhuǎn)寫聲母+下劃線_+py+字,如,勝利,轉(zhuǎn)寫為:sh_py eng_py勝l_py i_py利
j) 標點符號
只采用‘,’ 、‘。’、‘?’和‘!’ 即只能使用逗號,句號,問號,感嘆號。
句尾需要加標點且句尾標點不要是逗號。
k) 專有名詞
所有的專有名詞,包括人名、地名等,詳細規(guī)范說明如下:
§ 人名
對于熟知的知名人士的名字或地名,必須用該知名人士的名字來轉(zhuǎn)錄。
例如,“郭德綱的相聲很不錯”,就不能轉(zhuǎn)錄成“郭德剛”。
“阿里巴巴邀請白舉綱參加來往活動”,不能是“白句剛”。
而對于泛泛的名字,則都要用最常見的文字來標記。
例如,用“王小明”,不用“王曉明”,更不能用“王瀟銘”(這個太偏僻了)。
§ 中國的地名
與人名的轉(zhuǎn)錄規(guī)則類似。
§ 機構(gòu)名稱
與人名的轉(zhuǎn)錄規(guī)則類似。
l) 兒化音
需要把“兒”這個字標注出來。
例如,“這個小孩兒”(當此語音的兒化音很明顯的時候)。
m) 填充語氣詞
填充語氣詞是指示說話者說話中的猶豫,或者說話者在思考下面該說什么時,用來保持發(fā)音連貫所使用的詞,例如’呃’,’唔’,’呵’,‘嗯’等。語氣詞應該基本帶有口字旁。
ei誒,唉ai 哎
3.3 數(shù)據(jù)標注標記
a) 標注中使用的標記:
l (noise) 噪聲。
u 說話人發(fā)出的突發(fā)噪聲:
由說話者發(fā)出的噪聲可能有以下5種,分別對應呼吸聲、咳嗽聲、笑聲、噴嚏聲和其他由嘴唇發(fā)出的聲音。
u 錄音及電信系統(tǒng)引起的噪聲
包括電話按鍵音、電話忙音、錄音系統(tǒng)的其他噪音等,都是通信系統(tǒng)主動發(fā)出的聲音(但沒有人或機器的說話聲),而不是摘機、掛機或干擾帶來的咔啦或呲呲雜音。
u 背景發(fā)出的突發(fā)噪聲:
此處的背景發(fā)出的噪聲專指由非說話人(背景)發(fā)出的具有突發(fā)性的噪聲。如出現(xiàn)在說話聲之間的掌聲、關(guān)門聲、汽車鳴笛聲、狗叫聲等。
n 持續(xù)的音樂聲
u 唱歌聲(有歌詞和旋律)
u 哼唱(沒有歌詞,但有旋律)
u 口哨聲
u 可能是別人唱歌、演奏,也可能是背景的電視、收音機發(fā)出的音
樂和歌聲
u 包括持續(xù)時間較長的彩鈴聲
l (unk) 為無效文本內(nèi)容。
n 難以理解的段落
有時音頻文件的某一部分很難或不能理解其對應的文本,例如由聲音不清晰或者方言發(fā)音造成的難以理解的語音。
n 聽不懂的外語發(fā)音
n 方言
l (sil) 如出現(xiàn)明顯停頓,則標記停頓標簽,建議5秒。
l (~)用波浪號表示語句中存疑的個別字詞。
l (overlap)語音重疊
關(guān)于ovelap標簽的使用:overlap用于兩個或幾個人說話重疊時,轉(zhuǎn)寫出主要說話人的語音內(nèi)容,選中重疊的部分,點擊添加overlap標簽,
這時在語音前后會出現(xiàn)兩個標簽,也就是兩個標簽中間的部分是重疊語音段(這個語音段是主要說話人的語音內(nèi)容)
b) 段落屬性標記:
l 有效性:篩選階段對音頻進行有效性篩選;如果是無效語音,則后面的標記就不用考慮了。
l 說話人身份:客戶1,客戶2等依次類推;
l 性別:[F]/[M];
l 口音:有口音/無口音; 按照有無明顯口音為標準
l 背景噪音(底噪):整個音頻有連續(xù)性背景噪音/整個音頻無連續(xù)性背景噪音,包括敲打鍵盤聲音、其它人聲音、電視背景音、汽車聲音等; 按照是否明顯判定。
l 起止時間: 拖動鼠標進行截取
l 情緒:正面/平靜/負面.
l 異常音:是;否。比如音量截幅,設(shè)備持續(xù)雜音等,都屬于異常情況。
l 說話方式:正常;不正常。比如大聲喊叫,洋腔怪調(diào)等,都屬于不正常的說話方式。
l 說話人類型:正規(guī)播報;口語播報。一般都選擇口語播報,類似于新聞聯(lián)播的選擇正規(guī)播報。
c) 標點符號:只能使用逗號,句號,問號,感嘆號。
3.4 說話人身份
說話人層中標注該段語音的說話人的身份。在選擇說話人身份時
1.正常的客服客戶對話,正常選擇客服客戶;
2.主持人和采訪者的對話,主持人選擇客服,采訪者選擇客戶;
3.不能分辨客服,客戶,也不是在主持人訪談的,就統(tǒng)一選擇客戶。
第一個出現(xiàn)的客服講話,選客服1,第二個出現(xiàn)的選擇客服2,以此類推;第一個出現(xiàn)的客戶講話選客戶1,第二個出現(xiàn)的客戶選客戶2,以此類推。
常見問題解析:
1. 斷句
根據(jù)語義和說話人身份分段,每段不超過15秒,并且每段只包含一個說話人,不能把一句話分成兩半,盡量保證語義完整。但也不要切分的過細,一個人說話不超過15秒的可以放在一段。
2. 標簽
noise和底噪的區(qū)別
noise是短促突發(fā)的噪聲,底噪是背景持續(xù)存在的噪聲
noise和sil的區(qū)別
大于五秒的停頓需要單獨成段,選無效,根據(jù)是否有背景噪音來選noise或者sil
unk和~的區(qū)別
這兩個都可以代表聽不清聽不懂的字或者詞。不同點是小于5個字的話直接用~來代替;如果大于五個字的話就需要單獨成段,選無效標unk了。
unk不會和文本混在一起用也就是5個字以上聽不懂單獨成段,選用標簽unk。
3. 文本
不能丟字漏字,不能寫錯別字,有口音的不改字,語氣詞不能省略并且不能出現(xiàn)錯別字。
無效的沒有15秒的時間限制,只要是無效的比如持續(xù)20秒的噪音可以放在一起。
本次注意:
1.方言嚴重聽不清的無效
2.多人說話重疊部分能分清主次的寫主要說話人加overlap,分不清主次的無效
3.能明確是客服客戶對話的標客服和客戶,要不第一個人標客戶一,第二個人標客戶二,以此類推
4.整個包大部分是音樂,方言還很嚴重,只能聽清三五個字的,整包無效即可
5.回聲和人說話重疊部分無效,單純的回聲也不用轉(zhuǎn)寫直接無效,大家注意哈