標注網(wǎng)站使用方法
一、網(wǎng)站使用方法
1、 網(wǎng)址 http://tag.fanhantech.cn:8088/login (請務(wù)必使用谷歌或火狐瀏覽器)
2、 每個團隊需要將賬號前綴申請為一致,必須為一致。
申請后請將所有賬號用戶名寫到同一個Excel發(fā)給我們。我們將開通做正式任務(wù)的權(quán)限。
同時也將指定質(zhì)檢賬戶發(fā)給我們,我們也會開通對應任務(wù)的質(zhì)檢權(quán)限。
注冊之后可以進入test001任務(wù)做測試,此測試任務(wù)只做測試使用。
3、 登錄之后請點擊對應的任務(wù)進入,單后點擊“開始賺錢”進入正式任務(wù)界面。
4、 下圖為任務(wù)界面的整體介紹。
二、標注小技巧
1. 標注時候不要隨意刪除音頻截取框,因為一旦刪除之后沒法恢復,只能是調(diào)節(jié)其他的來補充。
2. 在最開始做任務(wù)的時候務(wù)必慢一些,務(wù)必對規(guī)則有詳細全面的了解。
3. 如果有問題務(wù)必及時確認。
4. 同一條音頻在接到之后務(wù)必在5個小時內(nèi)一次性完成并提交。系統(tǒng)不支持緩存。
五個小時內(nèi)沒有提交當前的音頻會造成當前任務(wù)回收,最后提交失敗。
5. 同一條音頻在編寫的時候可以邊聽邊寫,盡量不要聽完再寫。
音頻標注規(guī)范
每個團隊要對自身的數(shù)據(jù)質(zhì)量做監(jiān)控和質(zhì)檢,保證提交的數(shù)據(jù)達到質(zhì)量要求。
標注要求正確率為95%或以上。如提交的數(shù)據(jù)未達標,需優(yōu)先返工問題數(shù)據(jù)。
標注員需要嚴格執(zhí)行以下的標注員行為規(guī)范:
1. 嚴禁向外傳播標注語音,如出現(xiàn)標注語音泄漏的情況,我們將追究相關(guān)人員的責任;
2. 杜絕一切不認真、不負責任的標注行為;
3. 標注中出現(xiàn)的問題應及時反映;
4. 所有標注人員需要與我們簽訂保密協(xié)議。
二、切割規(guī)則
1)所有音頻已經(jīng)進行過預切割處理,但是需要對預切割的音頻進行檢查,如有必要需要進行微調(diào)或新增。
2)每段音頻中只能包含有一個說話人,但是同一個說話人的同一句話可以切割為連續(xù)的兩段甚至多段音頻。
符合以下情況的屬于無效音頻:
1) 不包含有效的可懂語音(聽不懂的方言、其它國家語言等)。
2) 環(huán)境噪音較高(完全聽不清音頻中的內(nèi)容或音頻中的內(nèi)容比較模糊)。
3) 全部屬于多人同時說話(多人在同一個內(nèi)容區(qū)域中的對話或聊天)。
4) 發(fā)音和語義都不確定的情況。
5) 空音頻,沒有人在說話。
無效音頻不包含任何有效內(nèi)容,不進行轉(zhuǎn)寫。
標注的基本原則是:文字與聲音完全對應,不要試圖修正發(fā)音過程中的語法錯誤,例如,“我走了”誤讀成了“我了走”,要按照實際發(fā)音書寫。
當發(fā)言人出現(xiàn)多個對象時,客服人員標注為A,用戶標注為B,如果一方不只一個人,則標注為A1、A2、B1、B2...對象與發(fā)言內(nèi)容之間以空格隔開,不加標點。
1) 所有阿拉伯數(shù)字需要轉(zhuǎn)寫為對應語言的數(shù)字文字寫法,如:一,四,其中,數(shù)字“1”根據(jù)實際發(fā)音寫為“一”(音yi1)或者“幺”(音yao1);
2) 所有讀出來的標點符號都要直接用對應字或詞在相應位置寫出。例如“領(lǐng)導:”如果“:”被讀出,則寫成“領(lǐng)導冒號”;
3) 句子斷句不使用標點符號,除固定噪音類型外,不間隔。
4) 因口音問題造成的誤讀,不需要修改。例如因為口音問題使得“四十”聽起來像“事十”,則不需修改;
5) 中文中出現(xiàn)英語單詞按照單詞習慣出現(xiàn)格式轉(zhuǎn)寫即可。例如:apple,Paris
6) 非單詞的英文(包括縮寫及無意義的字母組合)用大寫英文字母標注,字母間加空格:如M A R C、工號D S Z三九五八【文本中不允許出現(xiàn)全部由大寫字母組成的單詞。】
7) 專有名詞如是知名人士或地名機構(gòu)按真實名稱標注,普通人名或地名按常見文字標記。如果中文名和英文名的發(fā)音相近,請使用中文名稱。例如,記錄下阿里巴巴而不是Alibaba。
8) 發(fā)現(xiàn)聽的比較清楚,但是語義不確定,但是發(fā)音可以確定,比如普通人名等,可以選擇同音字代替,但需要保證標注讀音正確,包括音調(diào)正確。
9) 商標、品牌、注冊名等都應以其原有、專有的格式出現(xiàn),
例如: Hotmail dot com 而不是 hot mail dot com
10) 兒化音、填充語氣詞需標出
11) 當音頻中出現(xiàn)兩人同時說話時,重疊部分用*時間點*表示。
例如:客服說的“你好上?!保吧虾!笔侵丿B部分,就標注
A你好 *0:48.261 0:48.661*(重疊、方言都是按此方法標注)
12) 當音頻出現(xiàn)方言時,方言部分用**表示,并且加入時間段。當音頻出現(xiàn)方言時,把方言的地方用**表示,當中標明時間點。(和聽不清的要分開處理,聽不清的不需要在其中加入時間點,參考下方標簽表格)
例如:客戶問對方你會不會說潮州話之后出現(xiàn)一句方言,標注為:B你會不會說潮州話 *0:47.204 0:48.661*(重疊、方言都是按此方法標注)
當方言屬于接近普通話的發(fā)音,個別內(nèi)容聽不懂時,接近普通話的部分作為口音直接轉(zhuǎn)寫內(nèi)容,聽不懂的部分作為方言處理。
方言是否能聽懂都按照無效音頻處理。
13) 當電話未接通,出現(xiàn)語音提示如“您撥打的電話正在通話”時,對象標注為Y。
出現(xiàn)下表中的噪音情況時,將對應符號標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。
符號(標簽)對照表:
序號 | 噪音名 | 符號 | 噪音概念及標注規(guī)范 |
1 | 背景持續(xù)噪音 | <STA/> | 用于標注非預期的背景持續(xù)噪音,即噪音持續(xù)整個語句。 使用時標在句首和后面文字之間有空格。 非預期背景噪音指除了錄音要求環(huán)境的噪音(餐廳背景音樂及他人說話,街道風聲及路上會出現(xiàn)的各種固有噪音,地鐵站臺中人流聲及地鐵駛過聲音及廣播聲等) |
2 | 突發(fā)的非語音類噪音 | <NON/> | 突發(fā)的非語音類噪音,如關(guān)門聲,敲擊聲,鳴笛聲等等。 使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。 如噪音發(fā)生在字的中央位置,則標注在此字之前。 如在句首標注則之前不需要空格。 |
3 | 無實際意義的語氣詞(本人發(fā)言狀態(tài)) | <FIL/> | 發(fā)音人發(fā)出的無實際意義的語氣詞,如:嗯,哦,啊,呃等等。 使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。 如在句首標注則之前不需要空格。 |
4 | 無實際意義的語氣詞(非本人發(fā)言狀態(tài)) | <RSP/> | 一方在發(fā)言時,另一方處于附和等目的,發(fā)出的無實際意義的語氣詞,如:嗯,哦,啊,呃等等。 使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。 如在句首標注則之前不需要空格。 |
5 | 語音噪音 | <SPK/> | 發(fā)音人發(fā)出的語音噪音,如大喘氣,咳嗽,笑,嘆氣,噴話筒等。 使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。 如噪音發(fā)生在字的中央位置,則標注在此字之前。 如在句首標注則之前不需要空格。 |
6 | 非發(fā)音人發(fā)出的語音噪音 | <NPS/> | 非發(fā)音人發(fā)出的語音噪音,本次標注由于選擇噪音環(huán)境中會出現(xiàn)其他人噪音,則只用來標注突發(fā)的、能清楚聽到內(nèi)容的他人語音。使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。如噪音發(fā)生在字的中央位置,則標注在此字之前。如在句首標注則之前不需要空格。 |
7 | 聽不清 | ** | 無法聽清或者不知道說的是什么的字或詞。直接用此符號代替不知道是什么的單詞或在聽不清的地方用此符號代替。例,microsoft這個單詞被讀成microhaf,則用**代替文本中microsoft這個詞。與前后單詞之間有空格。如在句首標注則之前不需要空格。比如有人說“xi 星期一”是轉(zhuǎn)寫為‘** 星期一’。 |
8 | 無效 | W |
無效標準請參照前文(以這個寫法為準,請忽略系統(tǒng)中的無效標簽)
|
9 | 空白 | K |
被截取的整段短音頻為完全空白則標注為空白,不需要刻意將空白音頻單獨截取。
|
10 | 系統(tǒng)語音提示 | X |
所有系統(tǒng)語音提示,如“您撥打的電話正在通話”時。
|