一、標(biāo)注環(huán)境
1. 請(qǐng)使用谷歌瀏覽器進(jìn)行標(biāo)注。
2.標(biāo)注平臺(tái)地址:http://label.xiaojukeji.com/labelerTaskList二、標(biāo)注內(nèi)容
1. 語(yǔ)音有效性標(biāo)注
無(wú)效語(yǔ)音請(qǐng)?jiān)谟行砸豁?xiàng)選擇“無(wú)效”,并在標(biāo)注文本一項(xiàng)標(biāo)注大寫字母“NULL”。
有效語(yǔ)音請(qǐng)?jiān)谟行砸豁?xiàng)選擇“有效”。
當(dāng)語(yǔ)音出現(xiàn)下列任意一種情況,即可標(biāo)注為無(wú)效語(yǔ)音:
1) 說(shuō)話人聲音極小,小到幾乎聽不到。
2) 整段語(yǔ)音均為靜音。
3) 整段語(yǔ)音均為噪聲、音樂(lè)聲、導(dǎo)航音、廣播等。
4) 整段語(yǔ)音只有一個(gè)字,或是同一個(gè)字重復(fù)出現(xiàn)。如:“嗯”、“對(duì)”、“對(duì)對(duì)對(duì)對(duì)”、“啊”、“喂”、“拜拜”、“謝謝”、“好好好”、“OKOK”等。(注意:“哇噻”屬于特例,單獨(dú)出現(xiàn)時(shí)也是無(wú)效的。)
5) 背景噪聲大于說(shuō)話人聲音,或噪聲與說(shuō)話人聲音幾乎一樣大。
6) 整句都是方言、外語(yǔ)。方言是指發(fā)音與普通話區(qū)別較大的地方話,如:粵語(yǔ)、上海話等。
7) 語(yǔ)音中出現(xiàn)地點(diǎn)、地名、街道名等方位詞,但是地圖中搜索不到。
8) 語(yǔ)音中有大于等于兩個(gè)人說(shuō)話,除主說(shuō)話人以外,其余人的聲音清晰可辨。
9) 語(yǔ)音中有大于等于3個(gè)字聽不清楚。
2. 語(yǔ)音文本標(biāo)注
1) 語(yǔ)音文本內(nèi)容
將說(shuō)話內(nèi)容寫成文字。要求轉(zhuǎn)寫的文本內(nèi)容必須和聽到的語(yǔ)音完全一致,不能多字、少字。
a) 除空格、占位符號(hào)、以外,標(biāo)注文本不允許使用標(biāo)點(diǎn)符號(hào),不允許換行。
b) 說(shuō)話人猶豫、口吃導(dǎo)致出現(xiàn)重復(fù)的字也要標(biāo)注出來(lái),重復(fù)了幾次就標(biāo)記幾個(gè)。
如發(fā)音為:我是北北京人;“北”字有重復(fù)現(xiàn)象。轉(zhuǎn)寫文本應(yīng)為:我是北北京人
c) 兒化音不需要標(biāo)注出“兒”字。
如發(fā)音為:我在/zher4/。轉(zhuǎn)寫文本應(yīng)為:我在這
d) 語(yǔ)音中提及地名、街道名、車牌號(hào)等內(nèi)容,轉(zhuǎn)寫時(shí)需符合日常習(xí)慣。選用“路”、“街道”、“門”、“座”、“橋”等地名常用字以及“京”、“津”、“冀”等車牌號(hào)常用字。
e) 語(yǔ)音中提及地名、街道名、店鋪名、專有名詞,需要準(zhǔn)確轉(zhuǎn)寫??筛鶕?jù)讀音在地圖中查找,確實(shí)存在該地點(diǎn)則進(jìn)行準(zhǔn)確標(biāo)注,搜不到則無(wú)效;
f) 語(yǔ)音中確實(shí)聽不清楚的個(gè)別單字,用占位符號(hào)【~】標(biāo)記。一組【~】符號(hào)代表一個(gè)字。在整段語(yǔ)音中,最多只能有兩組【~】符號(hào)。若有三個(gè)字或更多聽不清楚,則標(biāo)注為無(wú)效。(見“語(yǔ)音有效性標(biāo)注”第8條)
g) 語(yǔ)音中不涉及地名、專名的部分,若發(fā)音清晰但文字不確定,可以用同音字標(biāo)注,要求標(biāo)注用字的聲韻調(diào)與實(shí)際發(fā)音完全一致。
如發(fā)音為:我姓/zhang1/。標(biāo)注成“我姓張”或“我姓章”都算正確。
h) 數(shù)字要寫成漢字形式,注意區(qū)分“一”和“幺”、“二”和“兩”,按實(shí)際讀音寫。
i) 英文字母要轉(zhuǎn)寫成大寫字母。
j) 音頻中說(shuō)話人清楚說(shuō)出的語(yǔ)氣詞,如“呃、啊、嗯、哦、唉、吶、呢”等,要按照正確發(fā)音進(jìn)行轉(zhuǎn)寫。語(yǔ)氣詞除了“了、不”沒(méi)有口字旁,其他基本上都有口字旁。
注意:語(yǔ)氣詞“唉”、“誒”不分的,統(tǒng)一用“唉”。
3.語(yǔ)言情況標(biāo)注
1)語(yǔ)音中全部?jī)?nèi)容均為中文,請(qǐng)選擇“中文”。
2)只要語(yǔ)音中含有英文,不論是單個(gè)字母還是單詞、不論出現(xiàn)的數(shù)量有多少,都需要選擇“英文”并且字母全部大寫。
1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個(gè)頭
2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下
3、字母與字母之間加空格。例如:我下了好幾回這個(gè)A P P了但是怎么安裝都是失敗的請(qǐng)問(wèn)客服我該怎么辦
4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號(hào)的京A三六七八
5、特殊字:對(duì)于OK這一類常用詞,默認(rèn)為一個(gè)單詞,盡管是拼讀成字母發(fā)音的。
對(duì)于無(wú)從適配上述規(guī)則的及時(shí)與我們溝通
4. 說(shuō)話人性別標(biāo)注
按說(shuō)話人的音色實(shí)際情況進(jìn)行標(biāo)注。若無(wú)法明確區(qū)分男女,不論是成人還是兒童,都標(biāo)注為“女”。
1. 短句如何判斷有效性?
答:短句只要有大于或等于兩個(gè)不重復(fù)的音節(jié),即為有效。例如“嗯好的”、“明白”、“可以”等。
2. 有明顯口音,但能聽懂,需要標(biāo)注嗎?
答:口音但不影響理解的,音頻中個(gè)別幾個(gè)字的方言可以使用同音字標(biāo)注。聽不清音節(jié)的方言也無(wú)法使用同音字標(biāo)注的,可以使用【~】,大于或等于三個(gè)字需使用【~】符號(hào)的情況下。參照“語(yǔ)音有效性標(biāo)注”第8條規(guī)則,標(biāo)記為無(wú)效。
3. 標(biāo)注時(shí)有的口音能聽懂,是按聽的音來(lái)標(biāo)注還是按普通話來(lái)標(biāo)注,標(biāo)注需要符合現(xiàn)實(shí)邏輯嗎?
答:一般情況下口音按實(shí)際發(fā)音來(lái)標(biāo)注。
以下情況請(qǐng)特別處理:常用詞語(yǔ)和專有名詞需按現(xiàn)實(shí)邏輯標(biāo)注(如:發(fā)音是“現(xiàn)/xian4/生”標(biāo)為“先生”,“滴滴專/ce1/”標(biāo)為“滴滴專車”等等)
5. 音頻中一串?dāng)?shù)字如【12531】轉(zhuǎn)寫為一二五三一還是吆二五三吆?
答:轉(zhuǎn)寫的文本要和語(yǔ)音實(shí)際讀法完全一致。若讀為yi1,則寫一;讀為yao1,則寫幺。同理,“二”、“兩”、“倆”;“三”、“仨”也需要區(qū)別使用。
6. 一段很短的音頻中語(yǔ)速過(guò)快,有時(shí)候聽起來(lái)像三個(gè)字又像兩個(gè),是不是都能判斷合格?
答:短音頻且內(nèi)容無(wú)法聽清的情況下,標(biāo)記為無(wú)效。長(zhǎng)音頻中很小的一部分,無(wú)法確定內(nèi)容時(shí),參照“語(yǔ)音文本內(nèi)容”下f項(xiàng)、【~】符號(hào)使用規(guī)則進(jìn)行。
7. 一段音頻中語(yǔ)速過(guò)快,能聽清某些音節(jié)但大多部分不能做出準(zhǔn)確判斷寫不出是否可以判斷無(wú)效?
答:判斷為無(wú)效
8. 一段音頻中出現(xiàn)導(dǎo)航儀發(fā)出的聲音或者只有導(dǎo)航儀的聲音算噪音嗎?答:整段只有導(dǎo)航音,標(biāo)記為無(wú)效。
只有一部分出現(xiàn)導(dǎo)航音的時(shí)候,看聲音大小,如果與說(shuō)話人音量接近或者大于說(shuō)話人聲音,標(biāo)記為無(wú)效。
注意:如果一句話里面只說(shuō)了幾個(gè)字方言,其他都是帶口音的普通話,不要直接標(biāo)無(wú)效,那全方言的字按聽到的音來(lái)標(biāo),比如:說(shuō)的是上海話gege,就標(biāo)成“葛個(gè)”,而不是標(biāo)成“那個(gè)”。
語(yǔ)氣詞無(wú)法轉(zhuǎn)寫的可以找同音字或相近音字轉(zhuǎn)寫;全方言無(wú)效
關(guān)于地點(diǎn)、地名、街道名等方位詞,這些詞我們需要使用地圖搜索引擎搜索
如果地點(diǎn)、地名、街道名等詞語(yǔ)很長(zhǎng)且詞發(fā)音很清晰,但使用地圖搜索引擎搜索不到這個(gè)地點(diǎn)。即使這句話其他部分可以完整的轉(zhuǎn)寫出來(lái),但依舊視為無(wú)效。
二、關(guān)于英文轉(zhuǎn)寫原規(guī)范為:英文字母要轉(zhuǎn)寫成大寫字母。
細(xì)化:
1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個(gè)頭
2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下
3、字母與字母之間加空格。例如:我下了好幾回這個(gè)A P P了但是怎么安裝都是失敗的請(qǐng)問(wèn)客服我該怎么辦
4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號(hào)的京A三六七八
5、特殊字:對(duì)于 OK 這一類常用詞,默認(rèn)為一個(gè)單詞,盡管是拼讀成字母發(fā)音的。
對(duì)于無(wú)從適配上述規(guī)則的,我們及時(shí)向海瑞提出。
三、噪音符號(hào)這部分,這部分依舊不用添加。
四、關(guān)于標(biāo)普、方普、方言如何轉(zhuǎn)寫
1、標(biāo)普:就是普通話,我們是一定要轉(zhuǎn)寫的。
2、方普:就是方言普通話,例如廣州人說(shuō)普通話,上海人說(shuō)普通話,天津人說(shuō)普通話等等,這些是需要轉(zhuǎn)寫的。只是他們?cè)谡f(shuō)普通話的時(shí)候會(huì)有一些口音。例如發(fā)音說(shuō):我現(xiàn)在湖南(fu2聲 lan2聲)長(zhǎng)沙市中心你來(lái)接我一下 他說(shuō)的是“fu lan”我們正常書寫成“湖南”即可。
3、方言:直接視為無(wú)效即可,例如:粵語(yǔ)、上海話、江蘇話等等。