与亲生子伦中文字幕,国产精品美女久久久久AV爽,人妻夜夜爽天天爽,在线播放无码后入内射少妇

工作室：
語音轉(zhuǎn)寫：998
道路標注：680
描點標注：188
數(shù)據(jù)采集：642

登錄|注冊數(shù)據(jù)標注交流2000人QQ群：489587938客服QQ/微信：670201222

商務(wù)合作電話：17719878617

愛數(shù)智慧客服對話標注規(guī)則范本及要求

登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php

用谷歌瀏覽器，鼠標拖動截取分段，內(nèi)容右鍵，選擇噪音符號

注意事項：

1最開始可能有用戶說的口令，“愛數(shù)智慧采集”，如果說口令的時候有其他說話內(nèi)容疊加，那么直接標注口令。

2不要斷句太散，如果句子中有一個字聽不懂的，請聯(lián)系前后語境，推測出最可能的字，盡量整句標注）

3如果數(shù)據(jù)本身有文字，那么文字之間的空格，不用刪除，忽略。

4系統(tǒng)提示音，類似“歡迎致電中國移動”，應(yīng)該根據(jù)規(guī)范在文本前面加￥，正確的標注格式是：“￥歡迎致電中國移動”，因為這部分是機器音，所以忽略說話人編號。客服和用戶分別用1,2標注。

一、開始標注語音文件

一時間邊界定位：

? 用鼠標選中波形，即為要標注的一段時間邊界，此時會自動跳出對應(yīng)的編輯框

如果需要左右調(diào)動時間邊界，則用鼠標放置在時間邊界上，出現(xiàn)左右箭頭后，按住鼠標拖動時間線，進行左右調(diào)動。

圖中的紅藍方框即為選中一段需要標注的時間邊界。

? 聽音，在整段電話語音的基礎(chǔ)上，根據(jù)語義和停頓時間等因素，在音頻信號中每一句話的句首和句尾分別添加時間邊界。即，一段標注框內(nèi)，即為一段標注的話。

? 不能有任何的說話人說話聲、噪音沒有被時間邊界框住，即有聲音的地方，都需要用時間邊界框起來，然后標注相應(yīng)的說話文本或符號，只有相對靜音可以不做截取處理。

圖示的地方，紅框框住的地方有明顯波形，有明顯聲音，卻沒有用時間邊界框起來，這是不允許出現(xiàn)的錯誤。

二文件標注：

? 此處主要標注語音文件的一些全局信息，包括說話人性別信息和語種信息（方言區(qū)）。標注時請按照實際情況選擇。

? 關(guān)于說話人的選擇，客服標注奇數(shù)，用戶標注偶數(shù)；

? 如果第三個人的情況：

點擊“+”號，即可添加。

? 編輯框內(nèi)需要標注的是該句對應(yīng)的文字[文本層，需要根據(jù)語意打中文標點（逗號，問號，句號，頓號，感嘆號）]，如果是漢語交談，則只能用簡體漢字。對于語音中的數(shù)字部分需根據(jù)發(fā)音情況轉(zhuǎn)換為對應(yīng)的漢字，例如“27”→“二十七”；“我的電話是2381832”→“我的電話是二三八幺八三二（與發(fā)音相同）”。

? 編輯框內(nèi)正常語音的標注

? 如果此語段為某一個人的漢語對話語音，請在標注時間邊界后，選擇對應(yīng)的1或者2，編輯框內(nèi)輸入相應(yīng)的文本。

? 如果此語段為兩個人交叉語音，關(guān)于重疊（交叉）的語音，即對于某個人的一句話未完，另一個人的一句話已經(jīng)開始的情況：請在波形上標注時間邊界，編輯框內(nèi)標注“+”（在編輯框內(nèi)點擊右鍵即可出現(xiàn)）

對于疊加，必須是真實的。不能將大段的聽不清語音和疊加混在一起。疊加段內(nèi)的非疊加部分，前后最多不得超過1個字。

? 在整個語音中，需根據(jù)說話人的變換來增加時間邊界（不同說話人分段標注）。

? 如果同一說話人說話時間較長，則應(yīng)根據(jù)其語義來增加時間邊界，每個時間段的長度最多不能超過8s，但斷句也不要太散太短。根據(jù)標注經(jīng)驗，每個自然語言段平均在5-6秒左右即可。

? 單字或者兩個字的疊加（如：好，嗯，行，好的），聲音較小，不影響主要說話人內(nèi)容，那么可以不標疊加，直接寫主要說話人的內(nèi)容就行了。

? 英文：(英文都是小寫)

【單詞】對于語音中簡單的英文單詞，在能聽懂的情況下，直接標出即可。

例如：“網(wǎng)址是三w點sina點com”；

“二三八幺八三二at qq點com”（不要寫這個@）

“請以井號鍵結(jié)束”；（不要寫這個#）

【字母】每個字母中間用空格隔開。

例如：單詞讀音，g o o d則表示字母讀音；

例如：我的編號是f m s幺三二；

? 語氣詞

除了“誒”其他的語氣詞都是帶口字旁的漢字標注。如果發(fā)音是表示應(yīng)答的“嗯”，統(tǒng)一都用“嗯”，不要用“恩”或者“厄”。比如哦，啊，誒等.

三編輯框內(nèi)噪音的標注

噪音是指非說話人的突發(fā)的聲音，所有此類標注都是中括號與語音內(nèi)容的組合，￥是放在句首，其他的噪音符號都需要單獨截取標注。

1 聽不懂的字，標注[*]

? 聽不清的長句

? 方言

? 大段的英文句子

? 拿著話筒和其他人說話

2 笑聲：[LAUGH]。

3 由說話人發(fā)出的干擾濁音：[SONANT]

? 咳嗽聲

? 打噴嚏

? 清嗓子

4 系統(tǒng)提示音，即系統(tǒng)播出的語音提示：￥系統(tǒng)自動播放的語音內(nèi)容，而非說話人的語音內(nèi)容（不用管說話人）

例如：￥歡迎致電我公司現(xiàn)在由一號客服代表為您服務(wù)

5 明顯的靜音段（大于500ms）（一句話中沒有超過0.5秒的不要斷開，盡量完整完整，不要把已經(jīng)完整的話段的太散！）

6 各種垃圾聲音（大于500ms）：[ENS]

1）連續(xù)的拍桌子

2) 連續(xù)的敲擊聲

3) 持續(xù)的各種環(huán)境噪音

7 持續(xù)的音樂聲：[MUSIC]

? 唱歌聲（有歌詞和旋律）

? 哼唱（沒有歌詞，但有旋律）

? 口哨聲

? 可能是別人唱歌、演奏，也可能是背景的電視、收音機發(fā)出的音樂和歌聲

? 口哨聲

? 包括持續(xù)時間較長的彩鈴聲

8 錄音及電信系統(tǒng)引起的噪聲：[SYSTEM]

包括電話按鍵音dtmf、電話忙音 beap、錄音系統(tǒng)的其他噪音等，都是通信系統(tǒng)主動發(fā)出的聲音，而不是摘機、掛機或干擾帶來的咔啦或呲呲雜音。

一般會用的噪音符號：+，[*]，[ENS]，[SONANT]，[LAUGH]，[MUSIC] ，￥，[SYSTEM]

所有的噪音符號，在編輯框內(nèi)右鍵即可出現(xiàn)哦

標注10分鐘請點擊一次臨時保存，并刷新網(wǎng)頁！

易錯歸納：

1 愛數(shù)語音智慧采集，這個是用戶說的，說話人是偶數(shù)；

2 “￥為保證通話質(zhì)量有錄音，盡情諒解”等的系統(tǒng)播報音，因為是機器音，所以不用管說話人（只要是系統(tǒng)播報音都不用管說話人，平臺默認是說話人1）；

3 客服標注奇數(shù)，用戶標注偶數(shù)系統(tǒng)提示音不用管，（1說話人標注反的很多；2 同一個客服，一會兒是1，一會兒又是3的問題）；

4 過于短暫的截取（像這種處理方式：把16段和17段合并，然后標注“嗯”即可?。?/span>

5 聽錯的情況，多前后聯(lián)系，根據(jù)語音標注，而不是標注同音字；

6 疊加：疊加的沒有單獨截取出來處理；

7 不同說話人截取在一起標注內(nèi)容的錯誤；

8 規(guī)范里面顏色特別說明的標點符號，沒有標注（標點符號基本沒有看到有人標注的）；

9 數(shù)據(jù)沒有標注完畢提交上來了；

10A文字中可以加適當?shù)臉它c符號，句尾不需要加標點符號。

10 B標注的數(shù)據(jù)，A質(zhì)檢，驗收發(fā)現(xiàn)，質(zhì)檢只是過了一個形式，沒有實際作用，沒有質(zhì)量把關(guān)；

11 返修的數(shù)據(jù)都有反饋意見，請全部檢查修改！

12 此項目含有標注信息，請在此基礎(chǔ)上修改。

問題

1：在客服與客戶音頻中，愛數(shù)智慧語音采集這句口令，如果出現(xiàn)在句首那么錄音人應(yīng)該標注1 還是 2？

客服標1客戶標2

問題2：愛數(shù)智慧語音采集這句口令如果與別的語音疊加了，怎么辦？

直接標：愛數(shù)智慧語音采集

問題3：接近直線或者接近靜音的噪音要不要標注？

不需要

問題4：疊加是否需要單獨操作？？？

如果：客服說，你好有什么需要幫助?？蛻粽f了一句，你好，這個你好與客服的幫助疊加了，聲音大小差不多，具體應(yīng)該怎么辦？

單獨截取，標+

問題5：系統(tǒng)的智能語音怎么標注，請詳細說明？

句首標￥把系統(tǒng)音轉(zhuǎn)寫成文字

問題6：客服應(yīng)該標注錄音人幾，客戶標注錄音人幾，系統(tǒng)聲音標注幾。

客服1客戶標2，系統(tǒng)音標1

問題7：如果客服說愛數(shù)智慧，后面是5秒的系統(tǒng)聲音，第六秒客戶說語音采集正好與第六秒的系統(tǒng)聲音疊加，應(yīng)該怎么處理？

先轉(zhuǎn)寫客服說的愛數(shù)智慧，再把系統(tǒng)音截取出來前面加￥把文字轉(zhuǎn)寫出來，疊加單獨截取出來標語音采集，如果是其它內(nèi)容疊加標+

上一篇: 沒有了

下一篇:滴滴語音標注規(guī)則要求及視頻教程

推薦文章

愛數(shù)智慧客服對話標注規(guī)則范本及要求

登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php用谷歌瀏覽器，鼠標拖動截取分段，內(nèi)容右鍵，選擇噪音符號注意事項：1最開始可能有用戶說的口令，“愛數(shù)智慧采集”，如果說口令的時候有其他說話內(nèi)容疊加，那么直接標注口令。2不要斷句太散，如果句子中有一個字聽不懂的，請聯(lián)系前后語境，推測出最可能的字，盡量整句標注）3如果數(shù)據(jù)本身有文字，那么文字之間的空格，不用刪除，忽略。4系統(tǒng)提示音，類似“歡迎致電中國移動”，應(yīng)該根據(jù)規(guī)范在文本前面加￥，正確的標注格式是：“￥歡迎致電中國移動”，因為這部分是機器音，所以忽略說話人編號?？头陀脩舴謩e用1,2標注。一、開始標注語音文件一時間邊界定位：? 用鼠標選中波形，即為要標注的一段時間邊界，此時會自動跳出對應(yīng)的編輯框如果需要左右調(diào)動時間邊界，則用鼠標放置在時間邊界上，出現(xiàn)左右箭頭后，按住鼠標拖動時間線，進行左右調(diào)動。圖中的紅藍方框即為選中一段需要標注的時間邊界。? 聽音，在整段電話語音的基礎(chǔ)上，根據(jù)語義和停頓時間等因素，在音頻信號中每一句話的句首和句尾分別添加時間邊界。即，一段標注框內(nèi)，即為一段標注的話。? 不能有任何的說話人說話聲、噪音沒有被時間邊界框住，即有聲音的地方，都需要用時間邊界框起來，然后標注相應(yīng)的說話文本或符號，只有相對靜音可以不做截取處理。圖示的地方，紅框框住的地方有明顯波形，有明顯聲音，卻沒有用時間邊界框起來，這是不允許出現(xiàn)的錯誤。二文件標注：? ? 此處主要標注語音文件的一些全局信息，包括說話人性別信息和語種信息（方言區(qū)）。標注時請按照實際情況選擇。? 關(guān)于說話人的選擇，客服標注奇數(shù)，用戶標注偶數(shù)；? 如果第三個人的情況：點擊“+”號，即可添加。? 編輯框內(nèi)需要標注的是該句對應(yīng)的文字[文本層，需要根據(jù)語意打中文標點（逗號，問號，句號，頓號，感嘆號）]，如果是漢語交談，則只能用簡體漢字。對于語音中的數(shù)字部分需根據(jù)發(fā)音情況轉(zhuǎn)換為對應(yīng)的漢字，例如“27”→“二十七”；“我的電話是2381832”→“我的電話是二三八幺八三二（與發(fā)音相同）”。 ? 編輯框內(nèi)正常語音的標注? 如果此語段為某一個人的漢語對話語音，請在標注時間邊界后，選擇對應(yīng)的1或者2，編輯框內(nèi)輸入相應(yīng)的文本。? 如果此語段為兩個人交叉語音，關(guān)于重疊（交叉）的語音，即對于某個人的一句話未完，另一個人的一句話已經(jīng)開始的情況：請在波形上標注時間邊界，編輯框內(nèi)標注“+”（在編輯框內(nèi)點擊右鍵即可出現(xiàn)）對于疊加，必須是真實的。不能將大段的聽不清語音和疊加混在一起。疊加段內(nèi)的非疊加部分，前后最多不得超過1個字。? 在整個語音中，需根據(jù)說話人的變換來增加時間邊界（不同說話人分段標注）。? 如果同一說話人說話時間較長，則應(yīng)根據(jù)其語義來增加時間邊界，每個時間段的長度最多不能超過8s，但斷句也不要太散太短。根據(jù)標注經(jīng)驗，每個自然語言段平均在5-6秒左右即可。? 單字或者兩個字的疊加（如：好，嗯，行，好的），聲音較小，不影響主要說話人內(nèi)容，那么可以不標疊加，直接寫主要說話人的內(nèi)容就行了。 ? 英文：(英文都是小寫)【單詞】對于語音中簡單的英文單詞，在能聽懂的情況下，直接標出即可。例如：“網(wǎng)址是三w點sina點com”；“二三八幺八三二at qq點com”（不要寫這個@）“請以井號鍵結(jié)束”；（不要寫這個#）【字母】每個字母中間用空格隔開。例如：單詞讀音，g o o d則表示字母讀音；例如：我的編號是f m s幺三二；? 語氣詞除了“誒”其他的語氣詞都是帶口字旁的漢字標注。如果發(fā)音是表示應(yīng)答的“嗯”，統(tǒng)一都用“嗯”，不要用“恩”或者“厄”。比如哦，啊，誒等.三編輯框內(nèi)噪音的標注噪音是指非說話人的突發(fā)的聲音，所有此類標注都是中括號與語音內(nèi)容的組合，￥是放在句首，其他的噪音符號都需要單獨截取標注。1 聽不懂的字，標注[*]? 聽不清的長句? 方言? 大段的英文句子? 拿著話筒和其他人說話 2 笑聲：[LAUGH]。 3 由說話人發(fā)出的干擾濁音：[SONANT]? 咳嗽聲? ? 打噴嚏? 清嗓子 4 系統(tǒng)提示音，即系統(tǒng)播出的語音提示：￥系統(tǒng)自動播放的語音內(nèi)容，而非說話人的語音內(nèi)容（不用管說話人）例如：￥歡迎致電我公司現(xiàn)在由一號客服代表為您服務(wù) 5 明顯的靜音段（大于500ms）（一句話中沒有超過0.5秒的不要斷開，盡量完整完整，不要把已經(jīng)完整的話段的太散！） 6 各種垃圾聲音（大于500ms）：[ENS] 1）連續(xù)的拍桌子 2) 連續(xù)的敲擊聲 3) 持續(xù)的各種環(huán)境噪音 7 持續(xù)的音樂聲：[MUSIC]? 唱歌聲（有歌詞和旋律）? 哼唱（沒有歌詞，但有旋律）? 口哨聲? 可能是別人唱歌、演奏，也可能是背景的電視、收音機發(fā)出的音樂和歌聲? 口哨聲? 包括持續(xù)時間較長的彩鈴聲 8 錄音及電信系統(tǒng)引起的噪聲：[SYSTEM]包括電話按鍵音dtmf、電話忙音 beap、錄音系統(tǒng)的其他噪音等，都是通信系統(tǒng)主動發(fā)出的聲音，而不是摘機、掛機或干擾帶來的咔啦或呲呲雜音。一般會用的噪音符號：+，[*]，[ENS]，[SONANT]，[LAUGH]，[MUSIC] ，￥，[SYSTEM]所有的噪音符號，在編輯框內(nèi)右鍵即可出現(xiàn)哦標注10分鐘請點擊一次臨時保存，并刷新網(wǎng)頁！易錯歸納：1 愛數(shù)語音智慧采集，這個是用戶說的，說話人是偶數(shù)；2 “￥為保證通話質(zhì)量有錄音，盡情諒解”等的系統(tǒng)播報音，因為是機器音，所以不用管說話人（只要是系統(tǒng)播報音都不用管說話人，平臺默認是說話人1）；3 客服標注奇數(shù)，用戶標注偶數(shù)系統(tǒng)提示音不用管，（1說話人標注反的很多；2 同一個客服，一會兒是1，一會兒又是3的問題）；4 過于短暫的截?。ㄏ襁@種處理方式：把16段和17段合并，然后標注“嗯”即可?。?； 5 聽錯的情況，多前后聯(lián)系，根據(jù)語音標注，而不是標注同音字；6 疊加：疊加的沒有單獨截取出來處理；7 不同說話人截取在一起標注內(nèi)容的錯誤；8 規(guī)范里面顏色特別說明的標點符號，沒有標注（標點符號基本沒有看到有人標注的）；9 數(shù)據(jù)沒有標注完畢提交上來了；10A文字中可以加適當?shù)臉它c符號，句尾不需要加標點符號。10 B標注的數(shù)據(jù)，A質(zhì)檢，驗收發(fā)現(xiàn)，質(zhì)檢只是過了一個形式，沒有實際作用，沒有質(zhì)量把關(guān)；11 返修的數(shù)據(jù)都有反饋意見，請全部檢查修改！12 此項目含有標注信息，請在此基礎(chǔ)上修改。問題1：在客服與客戶音頻中，愛數(shù)智慧語音采集這句口令，如果出現(xiàn)在句首那么錄音人應(yīng)該標注1 還是 2？客服標1客戶標2 問題2：愛數(shù)智慧語音采集這句口令如果與別的語音疊加了，怎么辦？直接標：愛數(shù)智慧語音采集問題3：接近直線或者接近靜音的噪音要不要標注？不需要問題4：疊加是否需要單獨操作？？？如果：客服說，你好有什么需要幫助?？蛻粽f了一句，你好，這個你好與客服的幫助疊加了，聲音大小差不多，具體應(yīng)該怎么辦？單獨截取，標+ 問題5：系統(tǒng)的智能語音怎么標注，請詳細說明？句首標￥把系統(tǒng)音轉(zhuǎn)寫成文字問題6：客服應(yīng)該標注錄音人幾，客戶標注錄音人幾，系統(tǒng)聲音標注幾。客服1客戶標2，系統(tǒng)音標1問題7：如果客服說愛數(shù)智慧，后面是5秒的系統(tǒng)聲音，第六秒客戶說語音采集正好與第六秒的系統(tǒng)聲音疊加，應(yīng)該怎么處理？先轉(zhuǎn)寫客服說的愛數(shù)智慧，再把系統(tǒng)音截取出來前面加￥把文字轉(zhuǎn)寫出來，疊加單獨截取出來標語音采集，如果是其它內(nèi)容疊加標+

熱門文章

滴滴語音標注規(guī)則要求及視頻教程

一、標注環(huán)境1. 請使用谷歌瀏覽器進行標注。2.標注平臺地址：http://label.xiaojukeji.com/labelerTaskList二、標注內(nèi)容1. 語音有效性標注無效語音請在有效性一項選擇“無效”，并在標注文本一項標注大寫字母“NULL”。有效語音請在有效性一項選擇“有效”。當語音出現(xiàn)下列任意一種情況，即可標注為無效語音：1）說話人聲音極小，小到幾乎聽不到。2）整段語音均為靜音。3）整段語音均為噪聲、音樂聲、導(dǎo)航音、廣播等。4）整段語音只有一個字，或是同一個字重復(fù)出現(xiàn)。如：“嗯”、“對”、“對對對對”、“啊”、“喂”、“拜拜”、“謝謝”、“好好好”、“OKOK”等。（注意：“哇噻”屬于特例，單獨出現(xiàn)時也是無效的。）5）背景噪聲大于說話人聲音，或噪聲與說話人聲音幾乎一樣大。6）整句都是方言、外語。方言是指發(fā)音與普通話區(qū)別較大的地方話，如：粵語、上海話等。7）語音中出現(xiàn)地點、地名、街道名等方位詞，但是地圖中搜索不到。8）語音中有大于等于兩個人說話，除主說話人以外，其余人的聲音清晰可辨。9）語音中有大于等于3個字聽不清楚。 2. 語音文本標注1）語音文本內(nèi)容將說話內(nèi)容寫成文字。要求轉(zhuǎn)寫的文本內(nèi)容必須和聽到的語音完全一致，不能多字、少字。a) 除空格、占位符號、以外，標注文本不允許使用標點符號，不允許換行。b) 說話人猶豫、口吃導(dǎo)致出現(xiàn)重復(fù)的字也要標注出來，重復(fù)了幾次就標記幾個。如發(fā)音為：我是北北京人；“北”字有重復(fù)現(xiàn)象。轉(zhuǎn)寫文本應(yīng)為：我是北北京人c) 兒化音不需要標注出“兒”字。如發(fā)音為：我在/zher4/。轉(zhuǎn)寫文本應(yīng)為：我在這d) 語音中提及地名、街道名、車牌號等內(nèi)容，轉(zhuǎn)寫時需符合日常習慣。選用“路”、“街道”、“門”、“座”、“橋”等地名常用字以及“京”、“津”、“冀”等車牌號常用字。e) 語音中提及地名、街道名、店鋪名、專有名詞，需要準確轉(zhuǎn)寫?？筛鶕?jù)讀音在地圖中查找，確實存在該地點則進行準確標注，搜不到則無效；f) 語音中確實聽不清楚的個別單字，用占位符號【~】標記。一組【~】符號代表一個字。在整段語音中，最多只能有兩組【~】符號。若有三個字或更多聽不清楚，則標注為無效。（見“語音有效性標注”第8條）g) 語音中不涉及地名、專名的部分，若發(fā)音清晰但文字不確定，可以用同音字標注，要求標注用字的聲韻調(diào)與實際發(fā)音完全一致。如發(fā)音為：我姓/zhang1/。標注成“我姓張”或“我姓章”都算正確。h) 數(shù)字要寫成漢字形式，注意區(qū)分“一”和“幺”、“二”和“兩”，按實際讀音寫。i) 英文字母要轉(zhuǎn)寫成大寫字母。j) 音頻中說話人清楚說出的語氣詞，如“呃、啊、嗯、哦、唉、吶、呢”等，要按照正確發(fā)音進行轉(zhuǎn)寫。語氣詞除了“了、不”沒有口字旁，其他基本上都有口字旁。注意：語氣詞“唉”、“誒”不分的，統(tǒng)一用“唉”。 3.語言情況標注1）語音中全部內(nèi)容均為中文，請選擇“中文”。2）只要語音中含有英文，不論是單個字母還是單詞、不論出現(xiàn)的數(shù)量有多少，都需要選擇“英文”并且字母全部大寫。1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如：SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格。例如：我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如：我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如：我的車牌號的京A三六七八5、特殊字：對于OK這一類常用詞，默認為一個單詞，盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的及時與我們溝通 4. 說話人性別標注按說話人的音色實際情況進行標注。若無法明確區(qū)分男女，不論是成人還是兒童，都標注為“女”。三、標注常見問題總結(jié)1. 短句如何判斷有效性？答：短句只要有大于或等于兩個不重復(fù)的音節(jié)，即為有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明顯口音，但能聽懂，需要標注嗎？答：口音但不影響理解的，音頻中個別幾個字的方言可以使用同音字標注。聽不清音節(jié)的方言也無法使用同音字標注的，可以使用【~】，大于或等于三個字需使用【~】符號的情況下。參照“語音有效性標注”第8條規(guī)則，標記為無效。 3. 標注時有的口音能聽懂，是按聽的音來標注還是按普通話來標注，標注需要符合現(xiàn)實邏輯嗎？答：一般情況下口音按實際發(fā)音來標注。以下情況請?zhí)貏e處理：常用詞語和專有名詞需按現(xiàn)實邏輯標注（如：發(fā)音是“現(xiàn)/xian4/生”標為“先生”,“滴滴專/ce1/”標為“滴滴專車”等等） 5. 音頻中一串數(shù)字如【12531】轉(zhuǎn)寫為一二五三一還是吆二五三吆？答：轉(zhuǎn)寫的文本要和語音實際讀法完全一致。若讀為yi1，則寫一；讀為yao1，則寫幺。同理，“二”、“兩”、“倆”；“三”、“仨”也需要區(qū)別使用。 6. 一段很短的音頻中語速過快，有時候聽起來像三個字又像兩個，是不是都能判斷合格？答：短音頻且內(nèi)容無法聽清的情況下，標記為無效。長音頻中很小的一部分，無法確定內(nèi)容時，參照“語音文本內(nèi)容”下f項、【~】符號使用規(guī)則進行。 7. 一段音頻中語速過快，能聽清某些音節(jié)但大多部分不能做出準確判斷寫不出是否可以判斷無效?答：判斷為無效 8. 一段音頻中出現(xiàn)導(dǎo)航儀發(fā)出的聲音或者只有導(dǎo)航儀的聲音算噪音嗎？答：整段只有導(dǎo)航音，標記為無效。只有一部分出現(xiàn)導(dǎo)航音的時候，看聲音大小，如果與說話人音量接近或者大于說話人聲音，標記為無效。注意：如果一句話里面只說了幾個字方言，其他都是帶口音的普通話，不要直接標無效，那全方言的字按聽到的音來標，比如：說的是上海話gege，就標成“葛個”，而不是標成“那個”。語氣詞無法轉(zhuǎn)寫的可以找同音字或相近音字轉(zhuǎn)寫；全方言無效關(guān)于地點、地名、街道名等方位詞，這些詞我們需要使用地圖搜索引擎搜索如果地點、地名、街道名等詞語很長且詞發(fā)音很清晰，但使用地圖搜索引擎搜索不到這個地點。即使這句話其他部分可以完整的轉(zhuǎn)寫出來，但依舊視為無效。二、關(guān)于英文轉(zhuǎn)寫原規(guī)范為：英文字母要轉(zhuǎn)寫成大寫字母。細化：1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如：SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格。例如：我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如：我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如：我的車牌號的京A三六七八5、特殊字：對于 OK 這一類常用詞，默認為一個單詞，盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的，我們及時向海瑞提出。三、噪音符號這部分，這部分依舊不用添加。四、關(guān)于標普、方普、方言如何轉(zhuǎn)寫 1、標普：就是普通話，我們是一定要轉(zhuǎn)寫的。 2、方普：就是方言普通話，例如廣州人說普通話，上海人說普通話，天津人說普通話等等，這些是需要轉(zhuǎn)寫的。只是他們在說普通話的時候會有一些口音。例如發(fā)音說：我現(xiàn)在湖南（fu2聲 lan2聲）長沙市中心你來接我一下他說的是“fu lan”我們正常書寫成“湖南”即可。 3、方言：直接視為無效即可，例如：粵語、上海話、江蘇話等等。

友情鏈接:

數(shù)據(jù)標注
找標注網(wǎng)
人工智能學習網(wǎng)
人工智能
我愛機器視覺
展會論壇
人工智能

与亲生子伦中文字幕,国产精品美女久久久久AV爽,人妻夜夜爽天天爽,在线播放无码后入内射少妇

愛數(shù)智慧客服對話標注規(guī)則范本及要求

一、開始標注語音文件

二 文件標注：

三 編輯框內(nèi)噪音的標注

推薦文章

熱門文章

一、開始標注語音文件

二文件標注：

三編輯框內(nèi)噪音的標注