地圖搜索數(shù)據(jù)標(biāo)注規(guī)范
百度語音標(biāo)注是百度標(biāo)注員使用標(biāo)注工具人工對百度語音數(shù)據(jù)詳細(xì)信息進(jìn)行標(biāo)記的過程,標(biāo)注員需要嚴(yán)格遵守百度的各項(xiàng)規(guī)章制度,同時嚴(yán)格執(zhí)行以下的標(biāo)注員行為規(guī)范:
1. 嚴(yán)禁下載、拷貝、傳播標(biāo)注語音,如出現(xiàn)標(biāo)注語音泄漏的情況,我們將追究相關(guān)人員的責(zé)任;
2. 杜絕一切不認(rèn)真、不負(fù)責(zé)任的標(biāo)注行為;
3. 標(biāo)注中出現(xiàn)的問題應(yīng)及時反映;
4. 標(biāo)注系統(tǒng)的用戶名,密碼只限標(biāo)注員本人使用,請嚴(yán)格保密。
二、 標(biāo)注系統(tǒng)介紹
(1) 登錄標(biāo)注系統(tǒng):
打開網(wǎng)頁瀏覽器, 在地址欄內(nèi)輸入標(biāo)注系統(tǒng)地址:
115.239.210.120
注: 瀏覽器不推薦使用IE系列,若使用多標(biāo)簽瀏覽器,形如:
只允許單一瀏覽器登陸標(biāo)注系統(tǒng),嚴(yán)禁在多標(biāo)簽瀏覽器中登錄多次標(biāo)注系統(tǒng)。
其中,標(biāo)注員的工作主要分為兩種,在登錄時進(jìn)行選擇:
? 標(biāo)注: 對未標(biāo)注的語音信息進(jìn)行標(biāo)注,請標(biāo)注員選擇標(biāo)注即可。
下面將主要結(jié)合標(biāo)注工作進(jìn)行介紹。
(2) 用戶名及密碼的獲取
系統(tǒng)不支持用戶注冊,用戶名及密碼由百度語音組統(tǒng)一發(fā)放,標(biāo)注員獲
取用戶名、密碼后,登錄進(jìn)入系統(tǒng),第一次登錄時,會要求輸入個人信息:
點(diǎn)擊確定后,填寫個人信息。
填寫個人信息的時候如有遇到身份證號碼含有X的,請?zhí)顚懭我鈹?shù)字。
確定提交后,進(jìn)入標(biāo)注頁面:
其中,
A 區(qū)為待標(biāo)注語音的波形信息
B 區(qū)為標(biāo)注信息,默認(rèn)選擇為第一個選項(xiàng):
第一項(xiàng): 當(dāng)前語音是否包含有效語音;:
1) 只標(biāo)注有且只有一個說話人的語音,如果音頻中有超過一個人的聲音,比如背景人說話,或者有TTS 合成的人聲,或者含有電視機(jī)里的人聲、收音機(jī)里有人唱歌等等標(biāo)注為無效;
2) 如果背景中含有貓叫狗叫等動物的噪音,標(biāo)注為無效;
3) 如果音頻背景中只有非人,非動物的噪音,比如汽車鳴笛聲,敲鍵盤的聲音,標(biāo)注為有效,音頻需正常轉(zhuǎn)寫;
4) 只含有噪聲或者靜音,則標(biāo)注為無效語音。
5) 語音有首尾截?cái)?/span>的情況,如:“東洲碼頭”,第一個“東”被截?cái)嘁稽c(diǎn),聽起來像“ong”的音,這種情況標(biāo)注為不確定。 不要根據(jù)意思去猜。
6) 如果一個人唱歌,只要是跟車機(jī)交互也要標(biāo)注;
7) 如果一個人不是對著設(shè)備講話,但是聲音清晰可辨別,也需要轉(zhuǎn)寫標(biāo)注;
8) 除以上無效條件外,其余語音均算做有效語音,只要能挺清楚,都需要轉(zhuǎn)寫。
第二項(xiàng): 當(dāng)前語音的噪聲情況;
根據(jù)語音情況選擇,存在一定噪音但還是能聽清搜索語音,請選擇“含噪音”。如果噪聲比較小可默認(rèn)為“安靜”。
第三項(xiàng): 當(dāng)前語音的語言情況;
如果語音內(nèi)容聽不太懂或個別詞聽不清,通過搜索也不能確定,導(dǎo)致不能準(zhǔn)確標(biāo)出語音內(nèi)容的情況下,則標(biāo)為“不確定”。所有標(biāo)注出的結(jié)果要保證是確定的。
第四項(xiàng):語音內(nèi)容;
直接輸入語音內(nèi)容。根據(jù)自己聽到的內(nèi)容進(jìn)行輸入。具體規(guī)則如下:
1. 語音內(nèi)容必須和聽到的語音完全一致,不能多字、少字、錯字。地名等信息必須完全正確,不可以同音字代替。
2. 語音中有猶豫或者“嗯”“啊”等語氣詞也要寫出對應(yīng)的漢字。
3. 阿拉伯?dāng)?shù)字要寫成漢字形式,如“一二三”,而不是“123”。注意區(qū)分“一”和“幺”?!岸焙汀皟伞?/span>
4. 標(biāo)注中只能含有中文、英文以及英文中特殊符號,如I'm中的'。如果符號被讀出,則根據(jù)發(fā)音需寫成相應(yīng)漢字或英文。例如“@”讀“at”時要寫為“at”,“.com”讀成“點(diǎn)com”時要寫成“點(diǎn)com”
5. 語氣詞: 音頻中說話人清楚地講出的語氣詞,如 “呃 啊 嗯 哦 唉 吶”等,要按照正確發(fā)音進(jìn)行轉(zhuǎn)寫。語氣詞除了“了 不 ”沒有口字旁,其他基本上都有口字旁。
6. 轉(zhuǎn)寫內(nèi)容的完整性要與實(shí)際發(fā)音一致,不得刪減;
n 如發(fā)音為:東東洲碼頭;“東”字有重復(fù)現(xiàn)象,那轉(zhuǎn)寫的時候要寫成:東東洲碼頭。
7. 發(fā)音聽的很清楚,完全沒有口音,但搜索不到,按照發(fā)音寫同音字;
8. 有口音的要按照正確的來標(biāo)注。比如:“湖南”。讀的是“湖蘭”,則標(biāo)注為“湖南”。
9. 讀錯字的情況,比如:“東莞”,讀成“東晚”,是當(dāng)前發(fā)音人不認(rèn)識這個字,讀的是“wan3”;“河堤”的“堤”,讀成“ti2”,按照發(fā)音人的讀音進(jìn)行標(biāo)。
10. 若有兩個及兩個以上的地名為同音不同字,(即同一條語音搜索結(jié)果為多個同音地名)。比如:“之江”和“枝江”。若語音只有“zhi1 jiang1”兩字,則標(biāo)為任意一種。若語音為:“湖北省zhi1 jiang1”則標(biāo)為:“湖北省枝江”。
注意:
所有語音均來自語音搜索,即全部特指的地名均要用百度搜索或百度地圖搜索,確認(rèn)最終的語音內(nèi)容。保證字音正確。如果不好判斷聽不清的可以直接選“不確定”;可以有小于40%的“不確定+無效”。沒有語義的情況標(biāo)為“不確定”。最終要保證標(biāo)注“正確”且有效的數(shù)據(jù)是完全正確的。
圖1:
圖2:
提交后,需要對標(biāo)注的語音內(nèi)容進(jìn)行檢查,主要針對:
l 內(nèi)容中出現(xiàn)數(shù)字, 比如13,容易出現(xiàn)”一三”和“十三”的混淆,需要重新返回給標(biāo)注員修改,將其改為對應(yīng)的漢字;例如聽見一百零八將,要標(biāo)注出一百零八將而不是108將。
第五項(xiàng)和第六項(xiàng)為說話人性別和口音情況;
能聽出是兒童的標(biāo)為“兒童”。能聽出說話人有口音的就標(biāo)為含口音,比如n、ng不分,n、l不分,或者方言等。
標(biāo)注結(jié)束后,點(diǎn)擊 “標(biāo)注提交” 即可
如果登錄時,選擇檢查,則B 區(qū)的信息將會默認(rèn)顯示已標(biāo)注的信息,標(biāo)注員對這些信息進(jìn)行詳細(xì)檢查,檢查的原則是僅修改確定是標(biāo)注錯誤的部分,對不太確定的部分將不做修改。檢查完畢后,點(diǎn)擊”檢查提交”即可。
C 區(qū)為用戶信息, ,其中
? 點(diǎn)擊 用戶名,將會顯示用戶已登記的信息,用戶可以在線修改提交;
? 點(diǎn)擊 查詢,將會出現(xiàn)工作量查詢頁面:
選擇標(biāo)注員名,點(diǎn)擊選擇查詢起始時間和結(jié)束時間,查詢的結(jié)果為:
會顯示查詢時間內(nèi)的標(biāo)注量和檢查量,點(diǎn)擊標(biāo)注量或者檢查量的數(shù)字后,則會按照標(biāo)注或者檢查的時間從早到晚依次列出對應(yīng)的全部結(jié)果:
為了方便區(qū)分檢查,把“無效語音”和“不確定語音”分別顯示成紅色和藍(lán)色。點(diǎn)擊列出的結(jié)果,比如點(diǎn)擊上圖中的 “3” , 將會顯示詳細(xì)的標(biāo)注結(jié)果和識別參考結(jié)果:
標(biāo)注員可以對自己已標(biāo)注結(jié)果進(jìn)行修改及重新提交。
? 點(diǎn)擊 退出,則用戶退出標(biāo)注系統(tǒng),
需要特別提醒,用戶不進(jìn)行標(biāo)注時,一定要點(diǎn) 退出或者注銷鍵 安全退出標(biāo)注系統(tǒng)。
特別注意:
windows player播放器會出現(xiàn)語音末尾截?cái)鄦栴},聲音播放不全。如下圖1:
圖1
標(biāo)注人員標(biāo)注前請先看下瀏覽器頁面中的播放器,并保證瀏覽器中的播放器跟下圖2一致(是黑色底的):
圖2
如果瀏覽器中的播放器跟圖1一樣,請先卸載瀏覽器安裝最新的版本。若是圖1的播放器不能進(jìn)行標(biāo)注。
三、標(biāo)注系統(tǒng)白名單
現(xiàn)在出于安全性考慮,標(biāo)注系統(tǒng)采用IP白名單的方式限制用戶訪問。所有的標(biāo)注人員需要先添加自己的IP地址到白名單中。
首先需要檢查當(dāng)前ip地址是否已經(jīng)添加到白名單中,如果輸入地址沒有顯示登陸界面的話,則說明當(dāng)前ip地址未在白名單中,需要按照下面的流程添加白名單:
1. 先查詢本機(jī)實(shí)際的外網(wǎng)物理IP地址。方法為:在百度中輸入ip,會顯示出本機(jī)的實(shí)際物理ip地址;
2. 將ip添加到白名單中。
在瀏覽器中輸入該地址;同時將IP地址后面的127.0.0.1修改為自己的實(shí)際物理IP地址
http://audiotest.baidu.com:8187/addip.php?project=map&ip=127.0.0.1.
3. 添加完成之后,會顯示添加成功的頁面。稍等5分鐘之后,即可進(jìn)行標(biāo)注。成功頁面為:
四、 標(biāo)注準(zhǔn)確率要求
按句統(tǒng)計(jì),當(dāng)前語言情況標(biāo)注為有效且“確定”項(xiàng)的,占總句數(shù)的60%以上,句子標(biāo)注準(zhǔn)確率要求達(dá)到95%以上。 無效+不確定項(xiàng)的標(biāo)注結(jié)果可以忽略。
1. 一個人說話,旁邊有人笑聲, 是否有效?----無效;有效數(shù)據(jù)只標(biāo)注有且只有一個人聲音的;
2. 單個一個字,是否有效?語氣詞單字重讀是否有效?---有效;
3. 純英文的是否有效?---有效
4. 噪音,空氣流動聲是否為噪音,這個噪音大小怎么界定?一般帶耳機(jī),都能聽到嗡嗡的聲音,是否為噪音?----人耳能聽到,就標(biāo)注含噪音
5. 整一段話基本都是清楚的,只有開始或者結(jié)束或者中間有一點(diǎn)點(diǎn)聲音,也算噪音,對吧?----對
6. 有且僅有機(jī)器人等第三方設(shè)備說話是否有效?---僅有機(jī)器人的聲音,電視機(jī)廣播等聲音,為無效
7. 吞音的字無效處理?---比如說呢?類似于北京口音的 “中央電視臺”聽起來像“裝電臺”??
8. 語義不完整的是否正常轉(zhuǎn)寫?---按照發(fā)音轉(zhuǎn)寫,不考慮語義