与亲生子伦中文字幕,国产精品美女久久久久AV爽,人妻夜夜爽天天爽,在线播放无码后入内射少妇

登錄|注冊數(shù)據(jù)標注交流2000人QQ群:489587938客服QQ/微信:670201222

愛數(shù)智慧客服對話標注規(guī)則范本及要求



登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php

用谷歌瀏覽器,鼠標拖動截取分段,內(nèi)容右鍵,選擇噪音符號

 

 

注意事項:

1最開始可能有用戶說的口令,“愛數(shù)智慧采集”,如果說口令的時候有其他說話內(nèi)容疊加,那么直接標注口令。

2不要斷句太散,如果句子中有一個字聽不懂的,請聯(lián)系前后語境,推測出最可能的字,盡量整句標注

3如果數(shù)據(jù)本身有文字,那么文字之間的空格,不用刪除,忽略。

4系統(tǒng)提示音,類似“歡迎致電中國移動”,應(yīng)該根據(jù)規(guī)范在文本前面加¥,正確的標注格式是:“¥歡迎致電中國移動”,因為這部分是機器音,所以忽略說話人編號。客服和用戶分別用1,2標注。

、開始標注語音文件

時間邊界定位:

用鼠標選中波形,即為要標注的一段時間邊界,此時會自動跳出對應(yīng)的編輯框

 

如果需要左右調(diào)動時間邊界,則用鼠標放置在時間邊界上,出現(xiàn)左右箭頭后,按住鼠標拖動時間線,進行左右調(diào)動。

圖中的紅藍方框即為選中一段需要標注的時間邊界。

聽音,在整段電話語音的基礎(chǔ)上,根據(jù)語義和停頓時間等因素,在音頻信號中每一句話的句首和句尾分別添加時間邊界。即,一段標注框內(nèi),即為一段標注的話。

不能有任何的說話人說話聲、噪音沒有被時間邊界框住,即有聲音的地方,都需要用時間邊界框起來,然后標注相應(yīng)的說話文本或符號,只有相對靜音可以不做截取處理。

 

圖示的地方,紅框框住的地方有明顯波形,有明顯聲音,卻沒有用時間邊界框起來,這是不允許出現(xiàn)的錯誤。

文件標注:

此處主要標注語音文件的一些全局信息,包括說話人性別信息和語種信息(方言區(qū))。標注時請按照實際情況選擇。

關(guān)于說話人的選擇,客服標注奇數(shù),用戶標注偶數(shù);

如果第三個人的情況:

點擊+”號,即可添加。

編輯框內(nèi)需要標注的是該句對應(yīng)的文字[文本層,需要根據(jù)語意打中文標點(逗號,問號,句號,頓號,感嘆號)],如果是漢語交談,則只能用簡體漢字。對于語音中的數(shù)字部分需根據(jù)發(fā)音情況轉(zhuǎn)換為對應(yīng)的漢字,例如27”→“二十七”;“我的電話是2381832→“我的電話是二三八幺八三二(與發(fā)音相同)”。

 

編輯框內(nèi)正常語音的標注

如果此語段為某一個人的漢語對話語音,請在標注時間邊界,選擇對應(yīng)的1或者2,編輯框內(nèi)輸入相應(yīng)的文本。

如果此語段為兩個人交叉語音,關(guān)于重疊(交叉)的語音,即對于某個人的一句話未完,另一個人的一句話已經(jīng)開始的情況:請在波形上標注時間邊界,編輯框內(nèi)標注+(在編輯框內(nèi)點擊右鍵即可出現(xiàn))

對于疊加,必須是真實的。不能大段的聽不清語音和疊加混在一起。疊加段內(nèi)的非疊加部分,前后最多不得超過1個字。

在整個語音中,需根據(jù)說話人的變換來增加時間邊界不同說話人分段標注。

如果同一說話人說話時間較長,則應(yīng)根據(jù)其語義來增加時間邊界,每個時間段的長度最多不能超過8s,但斷句也不要太散太短。根據(jù)標注經(jīng)驗,每個自然語言段平均在5-6秒左右即可。

單字或者兩個字的疊加如:好,嗯,行,好的),聲音較小,不影響主要說話人內(nèi)容,那么可以不標疊加,直接寫主要說話人的內(nèi)容就行了。

 

 

英文:(英文都是小寫)

單詞】對于語音中簡單的英文單詞,在能聽懂的情況下,直接標出即可。

例如:“網(wǎng)址是三wsinacom”;

“二三八幺八三二at qq點com”(不要寫這個@)

“請以井號鍵結(jié)束”;(不要寫這個#)

 

字母】每個字母中間用空格隔開。

例如:單詞讀音,g o o d則表示字母讀音;

例如:我的編號是f m s幺三二

語氣詞

除了其他的語氣詞都是帶口字旁的漢字標注。如果發(fā)音是表示應(yīng)答的“嗯”,統(tǒng)一都用“嗯”,不要用“恩”或者“厄”。比如哦,啊,.

編輯框內(nèi)噪音的標注

噪音是指非說話人的突發(fā)的聲音,所有此類標注都是中括號與語音內(nèi)容的組合,¥是放在句首,其他的噪音符號都需要單獨截取標注。

1   聽不懂的字,標注[*]

聽不清的長句

方言

大段的英文句子

拿著話筒和其他人說話             

 

              2    笑聲:[LAUGH]。

              3    由說話人發(fā)出的干擾濁音:[SONANT]

咳嗽聲

打噴嚏

清嗓子

              4    系統(tǒng)提示音,即系統(tǒng)播出的語音提示:系統(tǒng)自動播放的語音內(nèi)容,而非說話人的語音內(nèi)容(不用說話人)

例如:歡迎致電我公司現(xiàn)在由一號客服代表為您服務(wù)

 

  5 明顯的靜音段(大于500ms(一句話中沒有超過0.5秒的不要斷開,盡量完整完整,不要把已經(jīng)完整的話段的太散!

 

6  各種垃圾聲音(大于500ms[ENS]

           1  連續(xù)的拍桌子

           2)     連續(xù)的敲擊聲

        3)    持續(xù)的各種環(huán)境噪音  

 

 7  持續(xù)的音樂聲:[MUSIC]

唱歌聲(有歌詞和旋律)

哼唱(沒有歌詞,但有旋律)

口哨聲

可能是別人唱歌、演奏,也可能是背景的電視、收音機發(fā)出的音樂和歌聲

口哨聲

包括持續(xù)時間較長的彩鈴聲

  8   錄音及電信系統(tǒng)引起的噪聲:[SYSTEM]

包括電話按鍵音dtmf、電話忙音 beap、錄音系統(tǒng)的其他噪音等,都是通信系統(tǒng)主動發(fā)出的聲音,而不是摘機、掛機或干擾帶來的咔啦或呲呲雜音。

一般會用的噪音符號:+,[*],[ENS][SONANT],[LAUGH],[MUSIC] ,[SYSTEM]

所有的噪音符號,在編輯框內(nèi)右鍵即可出現(xiàn)哦

 

標注10分鐘請點擊一次臨時保存,并刷新網(wǎng)頁!

 

 

 

 

 

易錯歸納:

1 愛數(shù)語音智慧采集,這個是用戶說的,說話人是偶數(shù);

2 “¥為保證通話質(zhì)量有錄音,盡情諒解”等的系統(tǒng)播報音,因為是機器音,所以不用管說話人(只要是系統(tǒng)播報音都不用管說話人,平臺默認是說話人1;

3 客服標注奇數(shù),用戶標注偶數(shù)系統(tǒng)提示音不用管,(1說話人標注反的很多;2 同一個客服,一會兒是1,一會兒又是3的問題);

4 過于短暫的截取(像這種處理方式:把16段和17段合并,然后標注“嗯”即可?。?/span>

 

5 聽錯的情況,多前后聯(lián)系,根據(jù)語音標注,而不是標注同音字;

6 疊加:疊加的沒有單獨截取出來處理;

7 不同說話人截取在一起標注內(nèi)容的錯誤;

8 規(guī)范里面顏色特別說明的標點符號,沒有標注(標點符號基本沒有看到有人標注的);

9 數(shù)據(jù)沒有標注完畢提交上來了;

10A文字中可以加適當?shù)臉它c符號,句尾不需要加標點符號。

10 B標注的數(shù)據(jù),A質(zhì)檢,驗收發(fā)現(xiàn),質(zhì)檢只是過了一個形式,沒有實際作用,沒有質(zhì)量把關(guān);

11 返修的數(shù)據(jù)都有反饋意見,請全部檢查修改!

12 此項目含有標注信息,請在此基礎(chǔ)上修改。

 

問題

1:在客服與客戶音頻中,愛數(shù)智慧語音采集這句口令,如果出現(xiàn)在句首那么錄音人應(yīng)該標注1 還是 2?

客服標1客戶標2

 

問題2:愛數(shù)智慧語音采集這句口令如果與別的語音疊加了,怎么辦?

直接標:愛數(shù)智慧語音采集

 

問題3:接近直線或者接近靜音的噪音要不要標注?

不需要

 

問題4:疊加是否需要單獨操作???

如果:客服說, 你好有什么需要幫助??蛻粽f了一句,你好,這個你好與客服的幫助疊加了,聲音大小差不多,具體應(yīng)該怎么辦?

單獨截取,標+

 

問題5:系統(tǒng)的智能語音怎么標注,請詳細說明?

句首標把系統(tǒng)音轉(zhuǎn)寫成文字

 

問題6:客服應(yīng)該標注錄音人幾,客戶標注錄音人幾,系統(tǒng)聲音標注幾。

客服1客戶標2,系統(tǒng)音標1

問題7:如果客服說 愛數(shù)智慧,后面是5秒的系統(tǒng)聲音,第六秒客戶說語音采集正好與第六秒的系統(tǒng)聲音疊加,應(yīng)該怎么處理?

先轉(zhuǎn)寫客服說的愛數(shù)智慧,再把系統(tǒng)音截取出來前面加把文字轉(zhuǎn)寫出來,疊加單獨截取出來標語音采集,如果是其它內(nèi)容疊加標+





推薦文章

愛數(shù)智慧客服對話標注規(guī)則范本及要求
登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php用谷歌瀏覽器,鼠標拖動截取分段,內(nèi)容右鍵,選擇噪音符號  注意事項:1最開始可能有用戶說的口令,“愛數(shù)智慧采集”,如果說口令的時候有其他說話內(nèi)容疊加,那么直接標注口令。2不要斷句太散,如果句子中有一個字聽不懂的,請聯(lián)系前后語境,推測出最可能的字,盡量整句標注)3如果數(shù)據(jù)本身有文字,那么文字之間的空格,不用刪除,忽略。4系統(tǒng)提示音,類似“歡迎致電中國移動”,應(yīng)該根據(jù)規(guī)范在文本前面加¥,正確的標注格式是:“¥歡迎致電中國移動”,因為這部分是機器音,所以忽略說話人編號??头陀脩舴謩e用1,2標注。一、開始標注語音文件一 時間邊界定位:? 用鼠標選中波形,即為要標注的一段時間邊界,此時會自動跳出對應(yīng)的編輯框 如果需要左右調(diào)動時間邊界,則用鼠標放置在時間邊界上,出現(xiàn)左右箭頭后,按住鼠標拖動時間線,進行左右調(diào)動。圖中的紅藍方框即為選中一段需要標注的時間邊界。? 聽音,在整段電話語音的基礎(chǔ)上,根據(jù)語義和停頓時間等因素,在音頻信號中每一句話的句首和句尾分別添加時間邊界。即,一段標注框內(nèi),即為一段標注的話。? 不能有任何的說話人說話聲、噪音沒有被時間邊界框住,即有聲音的地方,都需要用時間邊界框起來,然后標注相應(yīng)的說話文本或符號,只有相對靜音可以不做截取處理。 圖示的地方,紅框框住的地方有明顯波形,有明顯聲音,卻沒有用時間邊界框起來,這是不允許出現(xiàn)的錯誤。二 文件標注:? ? 此處主要標注語音文件的一些全局信息,包括說話人性別信息和語種信息(方言區(qū))。標注時請按照實際情況選擇。? 關(guān)于說話人的選擇,客服標注奇數(shù),用戶標注偶數(shù);? 如果第三個人的情況:點擊“+”號,即可添加。? 編輯框內(nèi)需要標注的是該句對應(yīng)的文字[文本層,需要根據(jù)語意打中文標點(逗號,問號,句號,頓號,感嘆號)],如果是漢語交談,則只能用簡體漢字。對于語音中的數(shù)字部分需根據(jù)發(fā)音情況轉(zhuǎn)換為對應(yīng)的漢字,例如“27”→“二十七”;“我的電話是2381832”→“我的電話是二三八幺八三二(與發(fā)音相同)”。 ? 編輯框內(nèi)正常語音的標注? 如果此語段為某一個人的漢語對話語音,請在標注時間邊界后,選擇對應(yīng)的1或者2,編輯框內(nèi)輸入相應(yīng)的文本。? 如果此語段為兩個人交叉語音,關(guān)于重疊(交叉)的語音,即對于某個人的一句話未完,另一個人的一句話已經(jīng)開始的情況:請在波形上標注時間邊界,編輯框內(nèi)標注“+”(在編輯框內(nèi)點擊右鍵即可出現(xiàn))對于疊加,必須是真實的。不能將大段的聽不清語音和疊加混在一起。疊加段內(nèi)的非疊加部分,前后最多不得超過1個字。? 在整個語音中,需根據(jù)說話人的變換來增加時間邊界(不同說話人分段標注)。? 如果同一說話人說話時間較長,則應(yīng)根據(jù)其語義來增加時間邊界,每個時間段的長度最多不能超過8s,但斷句也不要太散太短。根據(jù)標注經(jīng)驗,每個自然語言段平均在5-6秒左右即可。? 單字或者兩個字的疊加(如:好,嗯,行,好的),聲音較小,不影響主要說話人內(nèi)容,那么可以不標疊加,直接寫主要說話人的內(nèi)容就行了。  ? 英文:(英文都是小寫)【單詞】對于語音中簡單的英文單詞,在能聽懂的情況下,直接標出即可。例如:“網(wǎng)址是三w點sina點com”;“二三八幺八三二at qq點com”(不要寫這個@)“請以井號鍵結(jié)束”;(不要寫這個#) 【字母】每個字母中間用空格隔開。例如:單詞讀音,g o o d則表示字母讀音;例如:我的編號是f m s幺三二;? 語氣詞除了“誒”其他的語氣詞都是帶口字旁的漢字標注。如果發(fā)音是表示應(yīng)答的“嗯”,統(tǒng)一都用“嗯”,不要用“恩”或者“厄”。比如哦,啊,誒等.三 編輯框內(nèi)噪音的標注噪音是指非說話人的突發(fā)的聲音,所有此類標注都是中括號與語音內(nèi)容的組合,¥是放在句首,其他的噪音符號都需要單獨截取標注。1   聽不懂的字,標注[*]? 聽不清的長句? 方言? 大段的英文句子? 拿著話筒和其他人說話                            2    笑聲:[LAUGH]。              3    由說話人發(fā)出的干擾濁音:[SONANT]? 咳嗽聲? ? 打噴嚏? 清嗓子              4    系統(tǒng)提示音,即系統(tǒng)播出的語音提示:¥系統(tǒng)自動播放的語音內(nèi)容,而非說話人的語音內(nèi)容(不用管說話人)例如:¥歡迎致電我公司現(xiàn)在由一號客服代表為您服務(wù)   5 明顯的靜音段(大于500ms)(一句話中沒有超過0.5秒的不要斷開,盡量完整完整,不要把已經(jīng)完整的話段的太散!) 6  各種垃圾聲音(大于500ms):[ENS]           1)  連續(xù)的拍桌子           2)     連續(xù)的敲擊聲        3)    持續(xù)的各種環(huán)境噪音    7  持續(xù)的音樂聲:[MUSIC]? 唱歌聲(有歌詞和旋律)? 哼唱(沒有歌詞,但有旋律)? 口哨聲? 可能是別人唱歌、演奏,也可能是背景的電視、收音機發(fā)出的音樂和歌聲? 口哨聲? 包括持續(xù)時間較長的彩鈴聲  8   錄音及電信系統(tǒng)引起的噪聲:[SYSTEM]包括電話按鍵音dtmf、電話忙音 beap、錄音系統(tǒng)的其他噪音等,都是通信系統(tǒng)主動發(fā)出的聲音,而不是摘機、掛機或干擾帶來的咔啦或呲呲雜音。一般會用的噪音符號:+,[*],[ENS],[SONANT],[LAUGH],[MUSIC] ,¥,[SYSTEM]所有的噪音符號,在編輯框內(nèi)右鍵即可出現(xiàn)哦 標注10分鐘請點擊一次臨時保存,并刷新網(wǎng)頁!     易錯歸納:1 愛數(shù)語音智慧采集,這個是用戶說的,說話人是偶數(shù);2 “¥為保證通話質(zhì)量有錄音,盡情諒解”等的系統(tǒng)播報音,因為是機器音,所以不用管說話人(只要是系統(tǒng)播報音都不用管說話人,平臺默認是說話人1);3 客服標注奇數(shù),用戶標注偶數(shù)系統(tǒng)提示音不用管,(1說話人標注反的很多;2 同一個客服,一會兒是1,一會兒又是3的問題);4 過于短暫的截?。ㄏ襁@種處理方式:把16段和17段合并,然后標注“嗯”即可?。?; 5 聽錯的情況,多前后聯(lián)系,根據(jù)語音標注,而不是標注同音字;6 疊加:疊加的沒有單獨截取出來處理;7 不同說話人截取在一起標注內(nèi)容的錯誤;8 規(guī)范里面顏色特別說明的標點符號,沒有標注(標點符號基本沒有看到有人標注的);9 數(shù)據(jù)沒有標注完畢提交上來了;10A文字中可以加適當?shù)臉它c符號,句尾不需要加標點符號。10 B標注的數(shù)據(jù),A質(zhì)檢,驗收發(fā)現(xiàn),質(zhì)檢只是過了一個形式,沒有實際作用,沒有質(zhì)量把關(guān);11 返修的數(shù)據(jù)都有反饋意見,請全部檢查修改!12 此項目含有標注信息,請在此基礎(chǔ)上修改。 問題1:在客服與客戶音頻中,愛數(shù)智慧語音采集這句口令,如果出現(xiàn)在句首那么錄音人應(yīng)該標注1 還是 2?客服標1客戶標2 問題2:愛數(shù)智慧語音采集這句口令如果與別的語音疊加了,怎么辦?直接標:愛數(shù)智慧語音采集 問題3:接近直線或者接近靜音的噪音要不要標注?不需要 問題4:疊加是否需要單獨操作???如果:客服說, 你好有什么需要幫助??蛻粽f了一句,你好,這個你好與客服的幫助疊加了,聲音大小差不多,具體應(yīng)該怎么辦?單獨截取,標+ 問題5:系統(tǒng)的智能語音怎么標注,請詳細說明?句首標¥把系統(tǒng)音轉(zhuǎn)寫成文字 問題6:客服應(yīng)該標注錄音人幾,客戶標注錄音人幾,系統(tǒng)聲音標注幾。客服1客戶標2,系統(tǒng)音標1問題7:如果客服說 愛數(shù)智慧,后面是5秒的系統(tǒng)聲音,第六秒客戶說語音采集正好與第六秒的系統(tǒng)聲音疊加,應(yīng)該怎么處理?先轉(zhuǎn)寫客服說的愛數(shù)智慧,再把系統(tǒng)音截取出來前面加¥把文字轉(zhuǎn)寫出來,疊加單獨截取出來標語音采集,如果是其它內(nèi)容疊加標+

熱門文章

滴滴語音標注規(guī)則要求及視頻教程
一、標注環(huán)境1. 請使用谷歌瀏覽器進行標注。2.標注平臺地址:http://label.xiaojukeji.com/labelerTaskList二、標注內(nèi)容1. 語音有效性標注無效語音請在有效性一項選擇“無效”,并在標注文本一項標注大寫字母“NULL”。有效語音請在有效性一項選擇“有效”。當語音出現(xiàn)下列任意一種情況,即可標注為無效語音:1) 說話人聲音極小,小到幾乎聽不到。2) 整段語音均為靜音。3) 整段語音均為噪聲、音樂聲、導(dǎo)航音、廣播等。4) 整段語音只有一個字,或是同一個字重復(fù)出現(xiàn)。如:“嗯”、“對”、“對對對對”、“啊”、“喂”、“拜拜”、“謝謝”、“好好好”、“OKOK”等。(注意:“哇噻”屬于特例,單獨出現(xiàn)時也是無效的。)5) 背景噪聲大于說話人聲音,或噪聲與說話人聲音幾乎一樣大。6) 整句都是方言、外語。方言是指發(fā)音與普通話區(qū)別較大的地方話,如:粵語、上海話等。7) 語音中出現(xiàn)地點、地名、街道名等方位詞,但是地圖中搜索不到。8) 語音中有大于等于兩個人說話,除主說話人以外,其余人的聲音清晰可辨。9) 語音中有大于等于3個字聽不清楚。 2. 語音文本標注1) 語音文本內(nèi)容將說話內(nèi)容寫成文字。要求轉(zhuǎn)寫的文本內(nèi)容必須和聽到的語音完全一致,不能多字、少字。a) 除空格、占位符號、以外,標注文本不允許使用標點符號,不允許換行。b) 說話人猶豫、口吃導(dǎo)致出現(xiàn)重復(fù)的字也要標注出來,重復(fù)了幾次就標記幾個。如發(fā)音為:我是北北京人;“北”字有重復(fù)現(xiàn)象。轉(zhuǎn)寫文本應(yīng)為:我是北北京人c) 兒化音不需要標注出“兒”字。如發(fā)音為:我在/zher4/。轉(zhuǎn)寫文本應(yīng)為:我在這d) 語音中提及地名、街道名、車牌號等內(nèi)容,轉(zhuǎn)寫時需符合日常習慣。選用“路”、“街道”、“門”、“座”、“橋”等地名常用字以及“京”、“津”、“冀”等車牌號常用字。e) 語音中提及地名、街道名、店鋪名、專有名詞,需要準確轉(zhuǎn)寫??筛鶕?jù)讀音在地圖中查找,確實存在該地點則進行準確標注,搜不到則無效;f) 語音中確實聽不清楚的個別單字,用占位符號【~】標記。一組【~】符號代表一個字。在整段語音中,最多只能有兩組【~】符號。若有三個字或更多聽不清楚,則標注為無效。(見“語音有效性標注”第8條)g) 語音中不涉及地名、專名的部分,若發(fā)音清晰但文字不確定,可以用同音字標注,要求標注用字的聲韻調(diào)與實際發(fā)音完全一致。如發(fā)音為:我姓/zhang1/。標注成“我姓張”或“我姓章”都算正確。h) 數(shù)字要寫成漢字形式,注意區(qū)分“一”和“幺”、“二”和“兩”,按實際讀音寫。i) 英文字母要轉(zhuǎn)寫成大寫字母。j) 音頻中說話人清楚說出的語氣詞,如“呃、啊、嗯、哦、唉、吶、呢”等,要按照正確發(fā)音進行轉(zhuǎn)寫。語氣詞除了“了、不”沒有口字旁,其他基本上都有口字旁。注意:語氣詞“唉”、“誒”不分的,統(tǒng)一用“唉”。 3.語言情況標注1)語音中全部內(nèi)容均為中文,請選擇“中文”。2)只要語音中含有英文,不論是單個字母還是單詞、不論出現(xiàn)的數(shù)量有多少,都需要選擇“英文”并且字母全部大寫。1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如:我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號的京A三六七八5、特殊字:對于OK這一類常用詞,默認為一個單詞,盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的及時與我們溝通 4. 說話人性別標注按說話人的音色實際情況進行標注。若無法明確區(qū)分男女,不論是成人還是兒童,都標注為“女”。三、標注常見問題總結(jié)1. 短句如何判斷有效性?答:短句只要有大于或等于兩個不重復(fù)的音節(jié),即為有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明顯口音,但能聽懂,需要標注嗎?答:口音但不影響理解的,音頻中個別幾個字的方言可以使用同音字標注。聽不清音節(jié)的方言也無法使用同音字標注的,可以使用【~】,大于或等于三個字需使用【~】符號的情況下。參照“語音有效性標注”第8條規(guī)則,標記為無效。 3. 標注時有的口音能聽懂,是按聽的音來標注還是按普通話來標注,標注需要符合現(xiàn)實邏輯嗎?答:一般情況下口音按實際發(fā)音來標注。以下情況請?zhí)貏e處理:常用詞語和專有名詞需按現(xiàn)實邏輯標注(如:發(fā)音是“現(xiàn)/xian4/生”標為“先生”,“滴滴專/ce1/”標為“滴滴專車”等等) 5. 音頻中一串數(shù)字如【12531】轉(zhuǎn)寫為一二五三一還是吆二五三吆?答:轉(zhuǎn)寫的文本要和語音實際讀法完全一致。若讀為yi1,則寫一;讀為yao1,則寫幺。同理,“二”、“兩”、“倆”;“三”、“仨”也需要區(qū)別使用。 6. 一段很短的音頻中語速過快,有時候聽起來像三個字又像兩個,是不是都能判斷合格?答:短音頻且內(nèi)容無法聽清的情況下,標記為無效。長音頻中很小的一部分,無法確定內(nèi)容時,參照“語音文本內(nèi)容”下f項、【~】符號使用規(guī)則進行。 7. 一段音頻中語速過快,能聽清某些音節(jié)但大多部分不能做出準確判斷寫不出是否可以判斷無效?答:判斷為無效 8. 一段音頻中出現(xiàn)導(dǎo)航儀發(fā)出的聲音或者只有導(dǎo)航儀的聲音算噪音嗎?答:整段只有導(dǎo)航音,標記為無效。只有一部分出現(xiàn)導(dǎo)航音的時候,看聲音大小,如果與說話人音量接近或者大于說話人聲音,標記為無效。 注意:如果一句話里面只說了幾個字方言,其他都是帶口音的普通話,不要直接標無效,那全方言的字按聽到的音來標,比如:說的是上海話gege,就標成“葛個”,而不是標成“那個”。語氣詞無法轉(zhuǎn)寫的可以找同音字或相近音字轉(zhuǎn)寫;全方言無效 關(guān)于地點、地名、街道名等方位詞,這些詞我們需要使用地圖搜索引擎搜索如果地點、地名、街道名等詞語很長且詞發(fā)音很清晰,但使用地圖搜索引擎搜索不到這個地點。即使這句話其他部分可以完整的轉(zhuǎn)寫出來,但依舊視為無效。二、關(guān)于英文轉(zhuǎn)寫原規(guī)范為:英文字母要轉(zhuǎn)寫成大寫字母。        細化:1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如:我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號的京A三六七八5、特殊字:對于 OK 這一類常用詞,默認為一個單詞,盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的,我們及時向海瑞提出。三、噪音符號這部分,這部分依舊不用添加。 四、關(guān)于標普、方普、方言如何轉(zhuǎn)寫    1、標普:就是普通話,我們是一定要轉(zhuǎn)寫的。    2、方普:就是方言普通話,例如廣州人說普通話,上海人說普通話,天津人說普通話等等,這些是需要轉(zhuǎn)寫的。只是他們在說普通話的時候會有一些口音。例如發(fā)音說:我現(xiàn)在湖南(fu2聲 lan2聲)長沙市中心你來接我一下     他說的是“fu lan”我們正常書寫成“湖南”即可。    3、方言:直接視為無效即可,例如:粵語、上海話、江蘇話等等。