与亲生子伦中文字幕,国产精品美女久久久久AV爽,人妻夜夜爽天天爽,在线播放无码后入内射少妇

登錄|注冊數(shù)據(jù)標注交流2000人QQ群:489587938客服QQ/微信:670201222

泛涵語音標注規(guī)范-Latest

標注網(wǎng)站使用方法

 

 

一、網(wǎng)站使用方法

 

1、 網(wǎng)址 http://tag.fanhantech.cn:8088/login  (請務(wù)必使用谷歌或火狐瀏覽器)

 

2、 每個團隊需要將賬號前綴申請為一致,必須為一致。

申請后請將所有賬號用戶名寫到同一個Excel發(fā)給我們。我們將開通做正式任務(wù)的權(quán)限。

同時也將指定質(zhì)檢賬戶發(fā)給我們,我們也會開通對應任務(wù)的質(zhì)檢權(quán)限。

 

注冊之后可以進入test001任務(wù)做測試,此測試任務(wù)只做測試使用。

 

3、 登錄之后請點擊對應的任務(wù)進入,單后點擊開始賺錢”進入正式任務(wù)界面。

 

4、 下圖為任務(wù)界面的整體介紹。

 

 

二、標注小技巧

 

1. 標注時候不要隨意刪除音頻截取框,因為一旦刪除之后沒法恢復,只能是調(diào)節(jié)其他的來補充。

 

2. 在最開始做任務(wù)的時候務(wù)必慢一些,務(wù)必對規(guī)則有詳細全面的了解。

 

3. 如果有問題務(wù)必及時確認。

 

4. 同一條音頻在接到之后務(wù)必在5個小時內(nèi)一次性完成并提交。系統(tǒng)不支持緩存。

五個小時內(nèi)沒有提交當前的音頻會造成當前任務(wù)回收,最后提交失敗。

 

5. 同一條音頻在編寫的時候可以邊聽邊寫,盡量不要聽完再寫。

 

 

 

音頻標注規(guī)范

 

 

每個團隊要對自身的數(shù)據(jù)質(zhì)量做監(jiān)控和質(zhì)檢,保證提交的數(shù)據(jù)達到質(zhì)量要求。

標注要求正確率為95%或以上。如提交的數(shù)據(jù)未達標,需優(yōu)先返工問題數(shù)據(jù)。

 

 

一、標注員行為規(guī)范

 

標注員需要嚴格執(zhí)行以下的標注員行為規(guī)范:

1. 嚴禁向外傳播標注語音,如出現(xiàn)標注語音泄漏的情況,我們將追究相關(guān)人員的責任;

2. 杜絕一切不認真、不負責任的標注行為;

3. 標注中出現(xiàn)的問題應及時反映;

4. 所有標注人員需要與我們簽訂保密協(xié)議。

 

二、切割規(guī)則

1)所有音頻已經(jīng)進行過預切割處理,但是需要對預切割的音頻進行檢查,如有必要需要進行微調(diào)或新增。

2)每段音頻中只能包含有一個說話人,但是同一個說話人的同一句話可以切割為連續(xù)的兩段甚至多段音頻。

三、標注規(guī)則

 

符合以下情況的屬于無效音頻:

1) 不包含有效的可懂語音(聽不懂的方言、其它國家語言等)。

2) 環(huán)境噪音較高(完全聽不清音頻中的內(nèi)容或音頻中的內(nèi)容比較模糊)。

3) 全部屬于多人同時說話(多人在同一個內(nèi)容區(qū)域中的對話或聊天)。

4) 發(fā)音和語義都不確定的情況。

5) 空音頻沒有人在說話。

無效音頻不包含任何有效內(nèi)容,不進行轉(zhuǎn)寫。

 

標注的基本原則是:文字與聲音完全對應,不要試圖修正發(fā)音過程中的語法錯誤,例如,“我走了”誤讀成了“我了走”,要按照實際發(fā)音書寫。

當發(fā)言人出現(xiàn)多個對象時,客服人員標注為A,用戶標注為B,如果一方不只一個人,則標注為A1、A2、B1、B2...對象與發(fā)言內(nèi)容之間以空格隔開,不加標點

1) 所有阿拉伯數(shù)字需要轉(zhuǎn)寫為對應語言的數(shù)字文字寫法,如:一,四,其中,數(shù)字1”根據(jù)實際發(fā)音寫為“一”(音yi1)或者“幺”(音yao1);

2) 所有讀出來的標點符號都要直接用對應字或詞在相應位置寫出。例如“領(lǐng)導:”如果“:”被讀出,則寫成“領(lǐng)導冒號”;

3) 句子斷句不使用標點符號,除固定噪音類型外,不間隔。

4) 因口音問題造成的誤讀,不需要修改。例如因為口音問題使得“四十”聽起來像“事十”,則不需修改;

5) 中文中出現(xiàn)英語單詞按照單詞習慣出現(xiàn)格式轉(zhuǎn)寫即可。例如:apple,Paris

6) 非單詞的英文(包括縮寫及無意義的字母組合)用大寫英文字母標注,字母間加空格:如M A R C、工號D S Z三九五八【文本中不允許出現(xiàn)全部由大寫字母組成的單詞。

7) 專有名詞如是知名人士或地名機構(gòu)按真實名稱標注,普通人名或地名按常見文字標記。如果中文名和英文名的發(fā)音相近,請使用中文名稱。例如,記錄下阿里巴巴而不是Alibaba 

8) 發(fā)現(xiàn)聽的比較清楚,但是語義不確定,但是發(fā)音可以確定,比如普通人名等,可以選擇同音字代替,但需要保證標注讀音正確,包括音調(diào)正確。

9) 商標、品牌、注冊名等都應以其原有、專有的格式出現(xiàn),

    例如: Hotmail dot com    而不是     hot mail dot com

10) 兒化音、填充語氣詞需標出

11) 當音頻中出現(xiàn)兩人同時說話時,重疊部分用*時間點*表示。

例如:客服說的“你好上?!保吧虾!笔侵丿B部分,就標注

A你好 *0:48.261 0:48.661*(重疊、方言都是按此方法標注)

12) 當音頻出現(xiàn)方言時,方言部分用**表示,并且加入時間段。當音頻出現(xiàn)方言時,把方言的地方用**表示,當中標明時間點。(和聽不清的要分開處理,聽不清的不需要在其中加入時間點,參考下方標簽表格)

例如:客戶問對方你會不會說潮州話之后出現(xiàn)一句方言,標注為:B你會不會說潮州話 *0:47.204 0:48.661*(重疊、方言都是按此方法標注)

當方言屬于接近普通話的發(fā)音,個別內(nèi)容聽不懂時,接近普通話的部分作為口音直接轉(zhuǎn)寫內(nèi)容,聽不懂的部分作為方言處理。

方言是否能聽懂都按照無效音頻處理。

13) 當電話未接通,出現(xiàn)語音提示如“您撥打的電話正在通話”時,對象標注為Y。

 

出現(xiàn)下表中的噪音情況時,將對應符號標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。

 

 

符號(標簽)對照表:

 

 

序號

噪音名

符號

噪音概念及標注規(guī)范

1

背景持續(xù)噪音

<STA/>

用于標注非預期的背景持續(xù)噪音,即噪音持續(xù)整個語句。

使用時標在句首和后面文字之間有空格。

非預期背景噪音指除了錄音要求環(huán)境的噪音(餐廳背景音樂及他人說話,街道風聲及路上會出現(xiàn)的各種固有噪音,地鐵站臺中人流聲及地鐵駛過聲音及廣播聲等)

2

突發(fā)的非語音類噪音

<NON/>

突發(fā)的非語音類噪音,如關(guān)門聲,敲擊聲,鳴笛聲等等。

使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。

如噪音發(fā)生在字的中央位置,則標注在此字之前。

如在句首標注則之前不需要空格。

3

無實際意義的語氣詞(本人發(fā)言狀態(tài))

<FIL/>

發(fā)音人發(fā)出的無實際意義的語氣詞,如:嗯,哦,啊,呃等等。

使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。

如在句首標注則之前不需要空格。

4

無實際意義的語氣詞(非本人發(fā)言狀態(tài))

<RSP/>

一方在發(fā)言時,另一方處于附和等目的,發(fā)出的無實際意義的語氣詞,如:嗯,哦,啊,呃等等。

使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。

如在句首標注則之前不需要空格。

5

語音噪音

<SPK/>

發(fā)音人發(fā)出的語音噪音,如大喘氣,咳嗽,笑,嘆氣,噴話筒等。

使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。

如噪音發(fā)生在字的中央位置,則標注在此字之前。

如在句首標注則之前不需要空格。

6

非發(fā)音人發(fā)出的語音噪音

<NPS/>

非發(fā)音人發(fā)出的語音噪音,本次標注由于選擇噪音環(huán)境中會出現(xiàn)其他人噪音,則只用來標注突發(fā)的、能清楚聽到內(nèi)容的他人語音。使用時標在對應聲音出現(xiàn)的位置,與前后單詞之間有空格。如噪音發(fā)生在字的中央位置,則標注在此字之前。如在句首標注則之前不需要空格。

7

聽不清

**

無法聽清或者不知道說的是什么的字或詞。直接用此符號代替不知道是什么的單詞或在聽不清的地方用此符號代替。例,microsoft這個單詞被讀成microhaf,則用**代替文本中microsoft這個詞。與前后單詞之間有空格。如在句首標注則之前不需要空格。比如有人說“xi 星期一”是轉(zhuǎn)寫為‘** 星期一’。

8

無效

W

 

無效標準請參照前文(以這個寫法為準,請忽略系統(tǒng)中的無效標簽)

 

9

空白

K

 

被截取的整段短音頻為完全空白則標注為空白,不需要刻意將空白音頻單獨截取。

 

10

系統(tǒng)語音提示

X

 

所有系統(tǒng)語音提示,如“您撥打的電話正在通話”時。

 

 


推薦文章

基于深度學習的現(xiàn)代計算機視覺模型,其性能主要取決于的大量已標注的可用訓練數(shù)據(jù)集,例如 Open Images 數(shù)據(jù)集。然而,如何獲得高質(zhì)量的訓練數(shù)據(jù),成為計算機視覺發(fā)展的主要瓶頸。如在無人駕駛、機器人和圖像搜索之類的應用中,使用的一些像素級目標預測任務(wù),比如語義分割任務(wù),格外的需要更大更好的數(shù)據(jù)集。事實上,傳統(tǒng)的手工標注工具需要標注人仔細點擊圖像中每個對象的邊界,用來劃分圖像中的目標,這項工作非常乏味:COCO+Stuff 數(shù)據(jù)集中標注單個圖像就需要大概 19 分鐘,而標記整個數(shù)據(jù)集甚至需要 53000 個小時!左圖| COCO 數(shù)據(jù)集中的一張圖片; 右圖|左圖的像素級語義分割結(jié)果。(來源:Image credit)谷歌的研究人員設(shè)計了一種機器學習驅(qū)動的工具,將在 2018 年 ACM 多媒體會議的“ Brave New Ideas ”環(huán)節(jié)展示,可以用于標注圖像數(shù)據(jù)中每個目標的輪廓和背景,將其應用在標注分類數(shù)據(jù)上,可以讓標記數(shù)據(jù)集的生成速度提高至傳統(tǒng)方法的 3 倍。該方法被谷歌稱之為流體標注(Fluid Annotation),從強語義分割模型的輸出開始,人工標注者可以使用用戶界面,通過機器輔助方法進行編輯修改。谷歌開發(fā)設(shè)計的界面允許標注者選擇要改正的內(nèi)容和順序,讓他們能集中精力去處理機器尚未理解和標注的圖像。圖 | 對 COCO 數(shù)據(jù)集中的圖像使用流體標注的可視化界面。(來源:gamene)為更準確的對圖像進行標注,谷歌首先通過預訓練的語義分割模型(Mask-RCNN)來處理圖像。這一過程會生成約 1000 個圖像分割區(qū)域及其標簽和置信度。置信度最高的分割區(qū)域用來初始化標簽,呈現(xiàn)給標注者。然后標注者可以:(1)從機器生成的候選分類標簽中為當前區(qū)域選擇標簽。(2)對機器未覆蓋到的目標添加分割區(qū)域。機器會識別出最可能的預生成區(qū)域,標注者從中選擇分割效果最好的一個。(3)刪除現(xiàn)有分割區(qū)域。(4)改變重疊區(qū)域的深度順序。Demo 鏈接:https://fluidann.appspot.com(PC 平臺可用)圖 |使用傳統(tǒng)人工標注工具(中列)和流體標注工具(右列)在 COCO 數(shù)據(jù)集的三張圖像上比較標注結(jié)果。雖然使用人工標注工具時,目標的邊界一般更準確,但同一對象的標注有時會存在差異,其主要是因為人類標注者通常對某一確定目標的類別有不同意見。圖片來源:sneaka(上),Dan Hurt(中),Melodie Mesiano(下)。在讓圖像標注變得更快、更容易這個問題上,流體標注工具的出現(xiàn)只是第一步。未來團隊的目標是改進對目標邊界的標注,進一步利用人工智能提升界面運行速度,最終可以處理以前無法識別的類別,讓數(shù)據(jù)收集變得越來越高效和快捷。

熱門文章

滴滴語音標注規(guī)則要求及視頻教程
一、標注環(huán)境1. 請使用谷歌瀏覽器進行標注。2.標注平臺地址:http://label.xiaojukeji.com/labelerTaskList二、標注內(nèi)容1. 語音有效性標注無效語音請在有效性一項選擇“無效”,并在標注文本一項標注大寫字母“NULL”。有效語音請在有效性一項選擇“有效”。當語音出現(xiàn)下列任意一種情況,即可標注為無效語音:1) 說話人聲音極小,小到幾乎聽不到。2) 整段語音均為靜音。3) 整段語音均為噪聲、音樂聲、導航音、廣播等。4) 整段語音只有一個字,或是同一個字重復出現(xiàn)。如:“嗯”、“對”、“對對對對”、“啊”、“喂”、“拜拜”、“謝謝”、“好好好”、“OKOK”等。(注意:“哇噻”屬于特例,單獨出現(xiàn)時也是無效的。)5) 背景噪聲大于說話人聲音,或噪聲與說話人聲音幾乎一樣大。6) 整句都是方言、外語。方言是指發(fā)音與普通話區(qū)別較大的地方話,如:粵語、上海話等。7) 語音中出現(xiàn)地點、地名、街道名等方位詞,但是地圖中搜索不到。8) 語音中有大于等于兩個人說話,除主說話人以外,其余人的聲音清晰可辨。9) 語音中有大于等于3個字聽不清楚。 2. 語音文本標注1) 語音文本內(nèi)容將說話內(nèi)容寫成文字。要求轉(zhuǎn)寫的文本內(nèi)容必須和聽到的語音完全一致,不能多字、少字。a) 除空格、占位符號、以外,標注文本不允許使用標點符號,不允許換行。b) 說話人猶豫、口吃導致出現(xiàn)重復的字也要標注出來,重復了幾次就標記幾個。如發(fā)音為:我是北北京人;“北”字有重復現(xiàn)象。轉(zhuǎn)寫文本應為:我是北北京人c) 兒化音不需要標注出“兒”字。如發(fā)音為:我在/zher4/。轉(zhuǎn)寫文本應為:我在這d) 語音中提及地名、街道名、車牌號等內(nèi)容,轉(zhuǎn)寫時需符合日常習慣。選用“路”、“街道”、“門”、“座”、“橋”等地名常用字以及“京”、“津”、“冀”等車牌號常用字。e) 語音中提及地名、街道名、店鋪名、專有名詞,需要準確轉(zhuǎn)寫。可根據(jù)讀音在地圖中查找,確實存在該地點則進行準確標注,搜不到則無效;f) 語音中確實聽不清楚的個別單字,用占位符號【~】標記。一組【~】符號代表一個字。在整段語音中,最多只能有兩組【~】符號。若有三個字或更多聽不清楚,則標注為無效。(見“語音有效性標注”第8條)g) 語音中不涉及地名、專名的部分,若發(fā)音清晰但文字不確定,可以用同音字標注,要求標注用字的聲韻調(diào)與實際發(fā)音完全一致。如發(fā)音為:我姓/zhang1/。標注成“我姓張”或“我姓章”都算正確。h) 數(shù)字要寫成漢字形式,注意區(qū)分“一”和“幺”、“二”和“兩”,按實際讀音寫。i) 英文字母要轉(zhuǎn)寫成大寫字母。j) 音頻中說話人清楚說出的語氣詞,如“呃、啊、嗯、哦、唉、吶、呢”等,要按照正確發(fā)音進行轉(zhuǎn)寫。語氣詞除了“了、不”沒有口字旁,其他基本上都有口字旁。注意:語氣詞“唉”、“誒”不分的,統(tǒng)一用“唉”。 3.語言情況標注1)語音中全部內(nèi)容均為中文,請選擇“中文”。2)只要語音中含有英文,不論是單個字母還是單詞、不論出現(xiàn)的數(shù)量有多少,都需要選擇“英文”并且字母全部大寫。1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如:我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號的京A三六七八5、特殊字:對于OK這一類常用詞,默認為一個單詞,盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的及時與我們溝通 4. 說話人性別標注按說話人的音色實際情況進行標注。若無法明確區(qū)分男女,不論是成人還是兒童,都標注為“女”。三、標注常見問題總結(jié)1. 短句如何判斷有效性?答:短句只要有大于或等于兩個不重復的音節(jié),即為有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明顯口音,但能聽懂,需要標注嗎?答:口音但不影響理解的,音頻中個別幾個字的方言可以使用同音字標注。聽不清音節(jié)的方言也無法使用同音字標注的,可以使用【~】,大于或等于三個字需使用【~】符號的情況下。參照“語音有效性標注”第8條規(guī)則,標記為無效。 3. 標注時有的口音能聽懂,是按聽的音來標注還是按普通話來標注,標注需要符合現(xiàn)實邏輯嗎?答:一般情況下口音按實際發(fā)音來標注。以下情況請?zhí)貏e處理:常用詞語和專有名詞需按現(xiàn)實邏輯標注(如:發(fā)音是“現(xiàn)/xian4/生”標為“先生”,“滴滴專/ce1/”標為“滴滴專車”等等) 5. 音頻中一串數(shù)字如【12531】轉(zhuǎn)寫為一二五三一還是吆二五三吆?答:轉(zhuǎn)寫的文本要和語音實際讀法完全一致。若讀為yi1,則寫一;讀為yao1,則寫幺。同理,“二”、“兩”、“倆”;“三”、“仨”也需要區(qū)別使用。 6. 一段很短的音頻中語速過快,有時候聽起來像三個字又像兩個,是不是都能判斷合格?答:短音頻且內(nèi)容無法聽清的情況下,標記為無效。長音頻中很小的一部分,無法確定內(nèi)容時,參照“語音文本內(nèi)容”下f項、【~】符號使用規(guī)則進行。 7. 一段音頻中語速過快,能聽清某些音節(jié)但大多部分不能做出準確判斷寫不出是否可以判斷無效?答:判斷為無效 8. 一段音頻中出現(xiàn)導航儀發(fā)出的聲音或者只有導航儀的聲音算噪音嗎?答:整段只有導航音,標記為無效。只有一部分出現(xiàn)導航音的時候,看聲音大小,如果與說話人音量接近或者大于說話人聲音,標記為無效。 注意:如果一句話里面只說了幾個字方言,其他都是帶口音的普通話,不要直接標無效,那全方言的字按聽到的音來標,比如:說的是上海話gege,就標成“葛個”,而不是標成“那個”。語氣詞無法轉(zhuǎn)寫的可以找同音字或相近音字轉(zhuǎn)寫;全方言無效 關(guān)于地點、地名、街道名等方位詞,這些詞我們需要使用地圖搜索引擎搜索如果地點、地名、街道名等詞語很長且詞發(fā)音很清晰,但使用地圖搜索引擎搜索不到這個地點。即使這句話其他部分可以完整的轉(zhuǎn)寫出來,但依舊視為無效。二、關(guān)于英文轉(zhuǎn)寫原規(guī)范為:英文字母要轉(zhuǎn)寫成大寫字母。        細化:1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如:我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號的京A三六七八5、特殊字:對于 OK 這一類常用詞,默認為一個單詞,盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的,我們及時向海瑞提出。三、噪音符號這部分,這部分依舊不用添加。 四、關(guān)于標普、方普、方言如何轉(zhuǎn)寫    1、標普:就是普通話,我們是一定要轉(zhuǎn)寫的。    2、方普:就是方言普通話,例如廣州人說普通話,上海人說普通話,天津人說普通話等等,這些是需要轉(zhuǎn)寫的。只是他們在說普通話的時候會有一些口音。例如發(fā)音說:我現(xiàn)在湖南(fu2聲 lan2聲)長沙市中心你來接我一下     他說的是“fu lan”我們正常書寫成“湖南”即可。    3、方言:直接視為無效即可,例如:粵語、上海話、江蘇話等等。