与亲生子伦中文字幕,国产精品美女久久久久AV爽,人妻夜夜爽天天爽,在线播放无码后入内射少妇

登錄|注冊數(shù)據(jù)標(biāo)注交流2000人QQ群:489587938客服QQ/微信:670201222

數(shù)據(jù)標(biāo)注質(zhì)量如何把控

態(tài)度是根本現(xiàn)階段數(shù)據(jù)標(biāo)注主要依靠人力來完成,百萬級的數(shù)據(jù)標(biāo)注對于標(biāo)注員來說是一個不小的壓力。尤其是復(fù)雜的標(biāo)注任務(wù),合格率低、時(shí)間跨度大等因素對于標(biāo)注員來說需要有強(qiáng)大的心理承受能力。如何緩解標(biāo)注員這種焦躁的心情就顯得尤為重要。對此行業(yè)有一套自己的經(jīng)驗(yàn)方法:行業(yè)態(tài)度:我們以無人駕駛為例:上百年來BBA引領(lǐng)著整個汽車行業(yè)。在汽車整體產(chǎn)業(yè)里中國汽車品牌一直處于跟隨階段,核心技術(shù)的缺失導(dǎo)致國產(chǎn)汽車始終處于劣

數(shù)據(jù)標(biāo)注這份工作,不是你想做就能做

        想給Google標(biāo)數(shù)據(jù),你得先拿到醫(yī)師資格證才行。        同樣的目前數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展還很混亂,沒有相應(yīng)的門檻就導(dǎo)致出各方面的問題,行業(yè)準(zhǔn)入,門檻標(biāo)準(zhǔn),人員素質(zhì),數(shù)據(jù)安全這些問題迫切需要加強(qiáng)規(guī)范。目前國內(nèi)已經(jīng)有鄭州點(diǎn)

數(shù)據(jù)標(biāo)注還能更快!谷歌發(fā)布圖像標(biāo)注機(jī)器學(xué)習(xí)輔助工具

基于深度學(xué)習(xí)的現(xiàn)代計(jì)算機(jī)視覺模型,其性能主要取決于的大量已標(biāo)注的可用訓(xùn)練數(shù)據(jù)集,例如 Open Images 數(shù)據(jù)集。然而,如何獲得高質(zhì)量的訓(xùn)練數(shù)據(jù),成為計(jì)算機(jī)視覺發(fā)展的主要瓶頸。如在無人駕駛、機(jī)器人和圖像搜索之類的應(yīng)用中,使用的一些像素級目標(biāo)預(yù)測任務(wù),比如語義分割任務(wù),格外的需要更大更好的數(shù)據(jù)集。事實(shí)上,傳統(tǒng)的手工標(biāo)注工具需要標(biāo)注人仔細(xì)點(diǎn)擊圖像中每個對象的邊界,用來劃分圖像中

數(shù)據(jù)標(biāo)注,人工智能背后的人工產(chǎn)業(yè)

人工智能指由人制造出來的機(jī)器所表現(xiàn)出來的智能,我們通常所說的人工智能是指通過普通計(jì)算機(jī)程序的手段實(shí)現(xiàn)的人類智能技術(shù)。同時(shí)人工智能也代表研究這樣的智能系統(tǒng)是否能夠?qū)崿F(xiàn),以及如何實(shí)現(xiàn)的科學(xué)領(lǐng)域。所以人工智能的定義可以分為兩部分,即“人工”和“智能”?!叭斯ぁ北容^好理解,爭議性也不大,就是通常意義下的人工系統(tǒng),即人力之所為。但是關(guān)于什么是“智能”,就問題比較多了。這涉及到其它諸如意識(conscious

戶型圖家具標(biāo)注規(guī)則和視頻教程

戶型圖家具標(biāo)注規(guī)則和視頻教程下載視頻點(diǎn)擊視頻右下角三個點(diǎn)多看幾次教程規(guī)則下載標(biāo)注規(guī)則更新430.docx問題總結(jié).docx1、如果能直接通過外觀觀察確認(rèn)家具的類別、大小及其數(shù)量,需要準(zhǔn)確標(biāo)注;在能通過外觀觀察確認(rèn)家具的存在、形態(tài)及其數(shù)量的前提下,如果能通過相互關(guān)系(如沙發(fā)茶幾的搭配)確認(rèn)的家具, 需要標(biāo)注準(zhǔn)確類別。反之(如陽臺遮陽傘下不確定數(shù)量、形態(tài)的家具),則不標(biāo)注。2、如果遇到局部遮擋的已確認(rèn)

Asr English Phonetic Labeling Course

   英文語音識別標(biāo)注標(biāo)準(zhǔn)English speech recognition labeling standard語音識別(ASR)指把語音轉(zhuǎn)換成文字。任務(wù)是把音頻中的speech(說話)一字不落的標(biāo)注出來。Speech recognition (ASR) refers to the conversion of speech into text. The task is to

愛數(shù)語音標(biāo)注magic-talking標(biāo)注規(guī)范要求附文件

愛數(shù)語音標(biāo)注登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php用谷歌瀏覽器,鼠標(biāo)拖動截取分段,內(nèi)容右鍵,選擇符號愛數(shù)這個任務(wù)非常簡單,很好做,需要的看下文檔1、需要根據(jù)說話人變化切換說話人,角色根據(jù)出場前后順序標(biāo)注2、根據(jù)說話人內(nèi)容進(jìn)行轉(zhuǎn)寫,不得漏字、錯字、多字3、嚴(yán)重方言允許舍棄,帶口音的普通話請盡量轉(zhuǎn)寫。4、在說話人說話的過程中,如果背景中有噪音

眾包攻擊采集需求_細(xì)化補(bǔ)充20180425

眾包攻擊采集需求_細(xì)化補(bǔ)充20180425.docx

中英文語音采集視頻教程

2000人中英混讀語音采集標(biāo)注項(xiàng)目_采集實(shí)施規(guī)范.docx10000小時(shí)中英混讀語音采集標(biāo)注項(xiàng)目前言本文檔為“中英混讀項(xiàng)目”實(shí)施規(guī)范,對語料制作、錄音規(guī)范、標(biāo)注規(guī)范做了詳細(xì)說明,請根據(jù)具體要求內(nèi)容進(jìn)行實(shí)施。本項(xiàng)目共需要2000名錄音人,每人錄制450句。數(shù)據(jù)量1000小時(shí);2000人句數(shù)每人450句,每句4s左右性別男女比例1:1年齡18~25歲70%,26~40歲20%,>40歲10%;可

百度車載語音轉(zhuǎn)寫規(guī)則和標(biāo)準(zhǔn)

地圖搜索數(shù)據(jù)標(biāo)注規(guī)范 一、 標(biāo)注員行為規(guī)范百度語音標(biāo)注是百度標(biāo)注員使用標(biāo)注工具人工對百度語音數(shù)據(jù)詳細(xì)信息進(jìn)行標(biāo)記的過程,標(biāo)注員需要嚴(yán)格遵守百度的各項(xiàng)規(guī)章制度,同時(shí)嚴(yán)格執(zhí)行以下的標(biāo)注員行為規(guī)范:1. 嚴(yán)禁下載、拷貝、傳播標(biāo)注語音,如出現(xiàn)標(biāo)注語音泄漏的情況,我們將追究相關(guān)人員的責(zé)任;2. 杜絕一切不認(rèn)真、不負(fù)責(zé)任的標(biāo)注行為;3. 標(biāo)注中出現(xiàn)的問題應(yīng)及時(shí)

滴滴語音標(biāo)注規(guī)則要求及視頻教程

一、標(biāo)注環(huán)境1. 請使用谷歌瀏覽器進(jìn)行標(biāo)注。2.標(biāo)注平臺地址:http://label.xiaojukeji.com/labelerTaskList二、標(biāo)注內(nèi)容1. 語音有效性標(biāo)注無效語音請?jiān)谟行砸豁?xiàng)選擇“無效”,并在標(biāo)注文本一項(xiàng)標(biāo)注大寫字母“NULL”。有效語音請?jiān)谟行砸豁?xiàng)選擇“有效”。當(dāng)語音出現(xiàn)下列任意一種情況,即可標(biāo)注為無效語音:1) 說話人聲音極小,小到幾乎聽不到。

華語廣源語音數(shù)據(jù)標(biāo)注規(guī)范有視頻教程

中文校對語音標(biāo)注規(guī)范優(yōu)化版 1、 登錄平臺使用說明操作系統(tǒng): 操作系統(tǒng)是 XP以上系統(tǒng)都可以。瀏覽器:   請使用360瀏覽器IE瀏覽器、搜狗瀏覽器 步驟:(1)打開 文本,進(jìn)行瀏覽器相關(guān)設(shè)置(2) 登錄網(wǎng)址:   http://182.48.116.149:8891(3) 輸入用戶名及密碼登陸后,先安裝控件

海天瑞聲Short8-標(biāo)注規(guī)范及標(biāo)準(zhǔn)-線上

標(biāo)注規(guī)范及標(biāo)準(zhǔn)一.簡單介紹針對給定的語音片段,人工判斷其是否為有效語音,對于有效語音,給出其中語音的起止時(shí)間段、標(biāo)準(zhǔn)的文本標(biāo)注以及語音本身的相關(guān)屬性,對于無效語音直接拋棄。 二.操作步驟及方法1. 首先登錄網(wǎng)址:http://123.56.137.109:1800/,用給定的賬號和密碼登錄;2. 登錄進(jìn)去之后,選擇申請任務(wù),在項(xiàng)目名稱下面選擇“艾芮特團(tuán)隊(duì)”的任務(wù),然后

海天瑞聲shortA-語音轉(zhuǎn)寫規(guī)范及標(biāo)準(zhǔn)

shortA-轉(zhuǎn)寫規(guī)范及標(biāo)準(zhǔn)一、介紹1. 使用谷歌瀏覽器,判斷有效無效、選擇屬性、轉(zhuǎn)寫文本,需要貼著截取不需要預(yù)留。a) 地址:http://123.56.137.109:5600/  b) 賬號:LY-shortAc) 任務(wù):shortA-李靜2. 登錄成功后,同意保密協(xié)議,就進(jìn)入工作頁面開始工作; 1) 

海天瑞聲long8-語音轉(zhuǎn)寫規(guī)范及標(biāo)準(zhǔn)

泛領(lǐng)域標(biāo)注規(guī)范及標(biāo)準(zhǔn)一.簡單介紹本音頻內(nèi)容是客服對話電話語音數(shù)據(jù)。利用工具,對語音進(jìn)行標(biāo)注。標(biāo)記時(shí)間戳,隔開一個一個的語音段,然后對每個語音段,分別標(biāo)注說話人身份、文本內(nèi)容、說話人性別和情緒。注意只轉(zhuǎn)寫實(shí)實(shí)在在的人講話的聲音,視頻、電視里面的講話聲音不用轉(zhuǎn)寫。但是根據(jù)數(shù)據(jù)類型來判斷。夾雜在主持人講話中的開頭或者中間的一些視頻播音片段,無效不轉(zhuǎn)寫;如果整段音頻都是視頻類語音,比如電視劇等,就可以全部

泛涵語音標(biāo)注規(guī)范-Latest

標(biāo)注網(wǎng)站使用方法  一、網(wǎng)站使用方法 1、 網(wǎng)址 http://tag.fanhantech.cn:8088/login  (請務(wù)必使用谷歌或火狐瀏覽器) 2、 每個團(tuán)隊(duì)需要將賬號前綴申請為一致,必須為一致。申請后請將所有賬號用戶名寫到同一個Excel發(fā)給我們。我們將開通做正式任務(wù)的權(quán)限。同時(shí)也將指定質(zhì)檢賬戶發(fā)給我們,

愛數(shù)智慧客服對話標(biāo)注規(guī)則范本及要求

登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php用谷歌瀏覽器,鼠標(biāo)拖動截取分段,內(nèi)容右鍵,選擇噪音符號  注意事項(xiàng):1最開始可能有用戶說的口令,“愛數(shù)智慧采集”,如果說口令的時(shí)候有其他說話內(nèi)容疊加,那么直接標(biāo)注口令。2不要斷句太散,如果句子中有一個字聽不懂的,請聯(lián)系前后語境,推測出最可能的字,盡量整句標(biāo)注)3如果數(shù)據(jù)本身有文字,

推薦文章

愛數(shù)智慧客服對話標(biāo)注規(guī)則范本及要求
登陸網(wǎng)址babel.magicdatatech.com/processmore/index.php用谷歌瀏覽器,鼠標(biāo)拖動截取分段,內(nèi)容右鍵,選擇噪音符號  注意事項(xiàng):1最開始可能有用戶說的口令,“愛數(shù)智慧采集”,如果說口令的時(shí)候有其他說話內(nèi)容疊加,那么直接標(biāo)注口令。2不要斷句太散,如果句子中有一個字聽不懂的,請聯(lián)系前后語境,推測出最可能的字,盡量整句標(biāo)注)3如果數(shù)據(jù)本身有文字,那么文字之間的空格,不用刪除,忽略。4系統(tǒng)提示音,類似“歡迎致電中國移動”,應(yīng)該根據(jù)規(guī)范在文本前面加¥,正確的標(biāo)注格式是:“¥歡迎致電中國移動”,因?yàn)檫@部分是機(jī)器音,所以忽略說話人編號??头陀脩舴謩e用1,2標(biāo)注。一、開始標(biāo)注語音文件一 時(shí)間邊界定位:? 用鼠標(biāo)選中波形,即為要標(biāo)注的一段時(shí)間邊界,此時(shí)會自動跳出對應(yīng)的編輯框 如果需要左右調(diào)動時(shí)間邊界,則用鼠標(biāo)放置在時(shí)間邊界上,出現(xiàn)左右箭頭后,按住鼠標(biāo)拖動時(shí)間線,進(jìn)行左右調(diào)動。圖中的紅藍(lán)方框即為選中一段需要標(biāo)注的時(shí)間邊界。? 聽音,在整段電話語音的基礎(chǔ)上,根據(jù)語義和停頓時(shí)間等因素,在音頻信號中每一句話的句首和句尾分別添加時(shí)間邊界。即,一段標(biāo)注框內(nèi),即為一段標(biāo)注的話。? 不能有任何的說話人說話聲、噪音沒有被時(shí)間邊界框住,即有聲音的地方,都需要用時(shí)間邊界框起來,然后標(biāo)注相應(yīng)的說話文本或符號,只有相對靜音可以不做截取處理。 圖示的地方,紅框框住的地方有明顯波形,有明顯聲音,卻沒有用時(shí)間邊界框起來,這是不允許出現(xiàn)的錯誤。二 文件標(biāo)注:? ? 此處主要標(biāo)注語音文件的一些全局信息,包括說話人性別信息和語種信息(方言區(qū))。標(biāo)注時(shí)請按照實(shí)際情況選擇。? 關(guān)于說話人的選擇,客服標(biāo)注奇數(shù),用戶標(biāo)注偶數(shù);? 如果第三個人的情況:點(diǎn)擊“+”號,即可添加。? 編輯框內(nèi)需要標(biāo)注的是該句對應(yīng)的文字[文本層,需要根據(jù)語意打中文標(biāo)點(diǎn)(逗號,問號,句號,頓號,感嘆號)],如果是漢語交談,則只能用簡體漢字。對于語音中的數(shù)字部分需根據(jù)發(fā)音情況轉(zhuǎn)換為對應(yīng)的漢字,例如“27”→“二十七”;“我的電話是2381832”→“我的電話是二三八幺八三二(與發(fā)音相同)”。 ? 編輯框內(nèi)正常語音的標(biāo)注? 如果此語段為某一個人的漢語對話語音,請?jiān)跇?biāo)注時(shí)間邊界后,選擇對應(yīng)的1或者2,編輯框內(nèi)輸入相應(yīng)的文本。? 如果此語段為兩個人交叉語音,關(guān)于重疊(交叉)的語音,即對于某個人的一句話未完,另一個人的一句話已經(jīng)開始的情況:請?jiān)诓ㄐ紊蠘?biāo)注時(shí)間邊界,編輯框內(nèi)標(biāo)注“+”(在編輯框內(nèi)點(diǎn)擊右鍵即可出現(xiàn))對于疊加,必須是真實(shí)的。不能將大段的聽不清語音和疊加混在一起。疊加段內(nèi)的非疊加部分,前后最多不得超過1個字。? 在整個語音中,需根據(jù)說話人的變換來增加時(shí)間邊界(不同說話人分段標(biāo)注)。? 如果同一說話人說話時(shí)間較長,則應(yīng)根據(jù)其語義來增加時(shí)間邊界,每個時(shí)間段的長度最多不能超過8s,但斷句也不要太散太短。根據(jù)標(biāo)注經(jīng)驗(yàn),每個自然語言段平均在5-6秒左右即可。? 單字或者兩個字的疊加(如:好,嗯,行,好的),聲音較小,不影響主要說話人內(nèi)容,那么可以不標(biāo)疊加,直接寫主要說話人的內(nèi)容就行了。  ? 英文:(英文都是小寫)【單詞】對于語音中簡單的英文單詞,在能聽懂的情況下,直接標(biāo)出即可。例如:“網(wǎng)址是三w點(diǎn)sina點(diǎn)com”;“二三八幺八三二at qq點(diǎn)com”(不要寫這個@)“請以井號鍵結(jié)束”;(不要寫這個#) 【字母】每個字母中間用空格隔開。例如:單詞讀音,g o o d則表示字母讀音;例如:我的編號是f m s幺三二;? 語氣詞除了“誒”其他的語氣詞都是帶口字旁的漢字標(biāo)注。如果發(fā)音是表示應(yīng)答的“嗯”,統(tǒng)一都用“嗯”,不要用“恩”或者“厄”。比如哦,啊,誒等.三 編輯框內(nèi)噪音的標(biāo)注噪音是指非說話人的突發(fā)的聲音,所有此類標(biāo)注都是中括號與語音內(nèi)容的組合,¥是放在句首,其他的噪音符號都需要單獨(dú)截取標(biāo)注。1   聽不懂的字,標(biāo)注[*]? 聽不清的長句? 方言? 大段的英文句子? 拿著話筒和其他人說話                            2    笑聲:[LAUGH]。              3    由說話人發(fā)出的干擾濁音:[SONANT]? 咳嗽聲? ? 打噴嚏? 清嗓子              4    系統(tǒng)提示音,即系統(tǒng)播出的語音提示:¥系統(tǒng)自動播放的語音內(nèi)容,而非說話人的語音內(nèi)容(不用管說話人)例如:¥歡迎致電我公司現(xiàn)在由一號客服代表為您服務(wù)   5 明顯的靜音段(大于500ms)(一句話中沒有超過0.5秒的不要斷開,盡量完整完整,不要把已經(jīng)完整的話段的太散?。?nbsp;6  各種垃圾聲音(大于500ms):[ENS]           1)  連續(xù)的拍桌子           2)     連續(xù)的敲擊聲        3)    持續(xù)的各種環(huán)境噪音    7  持續(xù)的音樂聲:[MUSIC]? 唱歌聲(有歌詞和旋律)? 哼唱(沒有歌詞,但有旋律)? 口哨聲? 可能是別人唱歌、演奏,也可能是背景的電視、收音機(jī)發(fā)出的音樂和歌聲? 口哨聲? 包括持續(xù)時(shí)間較長的彩鈴聲  8   錄音及電信系統(tǒng)引起的噪聲:[SYSTEM]包括電話按鍵音dtmf、電話忙音 beap、錄音系統(tǒng)的其他噪音等,都是通信系統(tǒng)主動發(fā)出的聲音,而不是摘機(jī)、掛機(jī)或干擾帶來的咔啦或呲呲雜音。一般會用的噪音符號:+,[*],[ENS],[SONANT],[LAUGH],[MUSIC] ,¥,[SYSTEM]所有的噪音符號,在編輯框內(nèi)右鍵即可出現(xiàn)哦 標(biāo)注10分鐘請點(diǎn)擊一次臨時(shí)保存,并刷新網(wǎng)頁!     易錯歸納:1 愛數(shù)語音智慧采集,這個是用戶說的,說話人是偶數(shù);2 “¥為保證通話質(zhì)量有錄音,盡情諒解”等的系統(tǒng)播報(bào)音,因?yàn)槭菣C(jī)器音,所以不用管說話人(只要是系統(tǒng)播報(bào)音都不用管說話人,平臺默認(rèn)是說話人1);3 客服標(biāo)注奇數(shù),用戶標(biāo)注偶數(shù)系統(tǒng)提示音不用管,(1說話人標(biāo)注反的很多;2 同一個客服,一會兒是1,一會兒又是3的問題);4 過于短暫的截?。ㄏ襁@種處理方式:把16段和17段合并,然后標(biāo)注“嗯”即可!); 5 聽錯的情況,多前后聯(lián)系,根據(jù)語音標(biāo)注,而不是標(biāo)注同音字;6 疊加:疊加的沒有單獨(dú)截取出來處理;7 不同說話人截取在一起標(biāo)注內(nèi)容的錯誤;8 規(guī)范里面顏色特別說明的標(biāo)點(diǎn)符號,沒有標(biāo)注(標(biāo)點(diǎn)符號基本沒有看到有人標(biāo)注的);9 數(shù)據(jù)沒有標(biāo)注完畢提交上來了;10A文字中可以加適當(dāng)?shù)臉?biāo)點(diǎn)符號,句尾不需要加標(biāo)點(diǎn)符號。10 B標(biāo)注的數(shù)據(jù),A質(zhì)檢,驗(yàn)收發(fā)現(xiàn),質(zhì)檢只是過了一個形式,沒有實(shí)際作用,沒有質(zhì)量把關(guān);11 返修的數(shù)據(jù)都有反饋意見,請全部檢查修改!12 此項(xiàng)目含有標(biāo)注信息,請?jiān)诖嘶A(chǔ)上修改。 問題1:在客服與客戶音頻中,愛數(shù)智慧語音采集這句口令,如果出現(xiàn)在句首那么錄音人應(yīng)該標(biāo)注1 還是 2?客服標(biāo)1客戶標(biāo)2 問題2:愛數(shù)智慧語音采集這句口令如果與別的語音疊加了,怎么辦?直接標(biāo):愛數(shù)智慧語音采集 問題3:接近直線或者接近靜音的噪音要不要標(biāo)注?不需要 問題4:疊加是否需要單獨(dú)操作???如果:客服說, 你好有什么需要幫助??蛻粽f了一句,你好,這個你好與客服的幫助疊加了,聲音大小差不多,具體應(yīng)該怎么辦?單獨(dú)截取,標(biāo)+ 問題5:系統(tǒng)的智能語音怎么標(biāo)注,請?jiān)敿?xì)說明?句首標(biāo)¥把系統(tǒng)音轉(zhuǎn)寫成文字 問題6:客服應(yīng)該標(biāo)注錄音人幾,客戶標(biāo)注錄音人幾,系統(tǒng)聲音標(biāo)注幾??头?客戶標(biāo)2,系統(tǒng)音標(biāo)1問題7:如果客服說 愛數(shù)智慧,后面是5秒的系統(tǒng)聲音,第六秒客戶說語音采集正好與第六秒的系統(tǒng)聲音疊加,應(yīng)該怎么處理?先轉(zhuǎn)寫客服說的愛數(shù)智慧,再把系統(tǒng)音截取出來前面加¥把文字轉(zhuǎn)寫出來,疊加單獨(dú)截取出來標(biāo)語音采集,如果是其它內(nèi)容疊加標(biāo)+

熱門文章

滴滴語音標(biāo)注規(guī)則要求及視頻教程
一、標(biāo)注環(huán)境1. 請使用谷歌瀏覽器進(jìn)行標(biāo)注。2.標(biāo)注平臺地址:http://label.xiaojukeji.com/labelerTaskList二、標(biāo)注內(nèi)容1. 語音有效性標(biāo)注無效語音請?jiān)谟行砸豁?xiàng)選擇“無效”,并在標(biāo)注文本一項(xiàng)標(biāo)注大寫字母“NULL”。有效語音請?jiān)谟行砸豁?xiàng)選擇“有效”。當(dāng)語音出現(xiàn)下列任意一種情況,即可標(biāo)注為無效語音:1) 說話人聲音極小,小到幾乎聽不到。2) 整段語音均為靜音。3) 整段語音均為噪聲、音樂聲、導(dǎo)航音、廣播等。4) 整段語音只有一個字,或是同一個字重復(fù)出現(xiàn)。如:“嗯”、“對”、“對對對對”、“啊”、“喂”、“拜拜”、“謝謝”、“好好好”、“OKOK”等。(注意:“哇噻”屬于特例,單獨(dú)出現(xiàn)時(shí)也是無效的。)5) 背景噪聲大于說話人聲音,或噪聲與說話人聲音幾乎一樣大。6) 整句都是方言、外語。方言是指發(fā)音與普通話區(qū)別較大的地方話,如:粵語、上海話等。7) 語音中出現(xiàn)地點(diǎn)、地名、街道名等方位詞,但是地圖中搜索不到。8) 語音中有大于等于兩個人說話,除主說話人以外,其余人的聲音清晰可辨。9) 語音中有大于等于3個字聽不清楚。 2. 語音文本標(biāo)注1) 語音文本內(nèi)容將說話內(nèi)容寫成文字。要求轉(zhuǎn)寫的文本內(nèi)容必須和聽到的語音完全一致,不能多字、少字。a) 除空格、占位符號、以外,標(biāo)注文本不允許使用標(biāo)點(diǎn)符號,不允許換行。b) 說話人猶豫、口吃導(dǎo)致出現(xiàn)重復(fù)的字也要標(biāo)注出來,重復(fù)了幾次就標(biāo)記幾個。如發(fā)音為:我是北北京人;“北”字有重復(fù)現(xiàn)象。轉(zhuǎn)寫文本應(yīng)為:我是北北京人c) 兒化音不需要標(biāo)注出“兒”字。如發(fā)音為:我在/zher4/。轉(zhuǎn)寫文本應(yīng)為:我在這d) 語音中提及地名、街道名、車牌號等內(nèi)容,轉(zhuǎn)寫時(shí)需符合日常習(xí)慣。選用“路”、“街道”、“門”、“座”、“橋”等地名常用字以及“京”、“津”、“冀”等車牌號常用字。e) 語音中提及地名、街道名、店鋪名、專有名詞,需要準(zhǔn)確轉(zhuǎn)寫??筛鶕?jù)讀音在地圖中查找,確實(shí)存在該地點(diǎn)則進(jìn)行準(zhǔn)確標(biāo)注,搜不到則無效;f) 語音中確實(shí)聽不清楚的個別單字,用占位符號【~】標(biāo)記。一組【~】符號代表一個字。在整段語音中,最多只能有兩組【~】符號。若有三個字或更多聽不清楚,則標(biāo)注為無效。(見“語音有效性標(biāo)注”第8條)g) 語音中不涉及地名、專名的部分,若發(fā)音清晰但文字不確定,可以用同音字標(biāo)注,要求標(biāo)注用字的聲韻調(diào)與實(shí)際發(fā)音完全一致。如發(fā)音為:我姓/zhang1/。標(biāo)注成“我姓張”或“我姓章”都算正確。h) 數(shù)字要寫成漢字形式,注意區(qū)分“一”和“幺”、“二”和“兩”,按實(shí)際讀音寫。i) 英文字母要轉(zhuǎn)寫成大寫字母。j) 音頻中說話人清楚說出的語氣詞,如“呃、啊、嗯、哦、唉、吶、呢”等,要按照正確發(fā)音進(jìn)行轉(zhuǎn)寫。語氣詞除了“了、不”沒有口字旁,其他基本上都有口字旁。注意:語氣詞“唉”、“誒”不分的,統(tǒng)一用“唉”。 3.語言情況標(biāo)注1)語音中全部內(nèi)容均為中文,請選擇“中文”。2)只要語音中含有英文,不論是單個字母還是單詞、不論出現(xiàn)的數(shù)量有多少,都需要選擇“英文”并且字母全部大寫。1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如:我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號的京A三六七八5、特殊字:對于OK這一類常用詞,默認(rèn)為一個單詞,盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的及時(shí)與我們溝通 4. 說話人性別標(biāo)注按說話人的音色實(shí)際情況進(jìn)行標(biāo)注。若無法明確區(qū)分男女,不論是成人還是兒童,都標(biāo)注為“女”。三、標(biāo)注常見問題總結(jié)1. 短句如何判斷有效性?答:短句只要有大于或等于兩個不重復(fù)的音節(jié),即為有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明顯口音,但能聽懂,需要標(biāo)注嗎?答:口音但不影響理解的,音頻中個別幾個字的方言可以使用同音字標(biāo)注。聽不清音節(jié)的方言也無法使用同音字標(biāo)注的,可以使用【~】,大于或等于三個字需使用【~】符號的情況下。參照“語音有效性標(biāo)注”第8條規(guī)則,標(biāo)記為無效。 3. 標(biāo)注時(shí)有的口音能聽懂,是按聽的音來標(biāo)注還是按普通話來標(biāo)注,標(biāo)注需要符合現(xiàn)實(shí)邏輯嗎?答:一般情況下口音按實(shí)際發(fā)音來標(biāo)注。以下情況請?zhí)貏e處理:常用詞語和專有名詞需按現(xiàn)實(shí)邏輯標(biāo)注(如:發(fā)音是“現(xiàn)/xian4/生”標(biāo)為“先生”,“滴滴專/ce1/”標(biāo)為“滴滴專車”等等) 5. 音頻中一串?dāng)?shù)字如【12531】轉(zhuǎn)寫為一二五三一還是吆二五三吆?答:轉(zhuǎn)寫的文本要和語音實(shí)際讀法完全一致。若讀為yi1,則寫一;讀為yao1,則寫幺。同理,“二”、“兩”、“倆”;“三”、“仨”也需要區(qū)別使用。 6. 一段很短的音頻中語速過快,有時(shí)候聽起來像三個字又像兩個,是不是都能判斷合格?答:短音頻且內(nèi)容無法聽清的情況下,標(biāo)記為無效。長音頻中很小的一部分,無法確定內(nèi)容時(shí),參照“語音文本內(nèi)容”下f項(xiàng)、【~】符號使用規(guī)則進(jìn)行。 7. 一段音頻中語速過快,能聽清某些音節(jié)但大多部分不能做出準(zhǔn)確判斷寫不出是否可以判斷無效?答:判斷為無效 8. 一段音頻中出現(xiàn)導(dǎo)航儀發(fā)出的聲音或者只有導(dǎo)航儀的聲音算噪音嗎?答:整段只有導(dǎo)航音,標(biāo)記為無效。只有一部分出現(xiàn)導(dǎo)航音的時(shí)候,看聲音大小,如果與說話人音量接近或者大于說話人聲音,標(biāo)記為無效。 注意:如果一句話里面只說了幾個字方言,其他都是帶口音的普通話,不要直接標(biāo)無效,那全方言的字按聽到的音來標(biāo),比如:說的是上海話gege,就標(biāo)成“葛個”,而不是標(biāo)成“那個”。語氣詞無法轉(zhuǎn)寫的可以找同音字或相近音字轉(zhuǎn)寫;全方言無效 關(guān)于地點(diǎn)、地名、街道名等方位詞,這些詞我們需要使用地圖搜索引擎搜索如果地點(diǎn)、地名、街道名等詞語很長且詞發(fā)音很清晰,但使用地圖搜索引擎搜索不到這個地點(diǎn)。即使這句話其他部分可以完整的轉(zhuǎn)寫出來,但依舊視為無效。二、關(guān)于英文轉(zhuǎn)寫原規(guī)范為:英文字母要轉(zhuǎn)寫成大寫字母。        細(xì)化:1、遇到英文單詞和英文字母都需要用英文大寫形式表現(xiàn)。例如:SORRY SORRY我現(xiàn)在在阜成路麻煩你掉個頭2、單詞與單詞之間加空格 。例如:我把我的APPLE SEVEN PLUS落在了車上麻煩師傅還給我一下3、字母與字母之間加空格。例如:我下了好幾回這個A P P了但是怎么安裝都是失敗的請問客服我該怎么辦4、英文單詞或者英文字母與漢字之間不需要空格。例如:我的車牌號的京A三六七八5、特殊字:對于 OK 這一類常用詞,默認(rèn)為一個單詞,盡管是拼讀成字母發(fā)音的。對于無從適配上述規(guī)則的,我們及時(shí)向海瑞提出。三、噪音符號這部分,這部分依舊不用添加。 四、關(guān)于標(biāo)普、方普、方言如何轉(zhuǎn)寫    1、標(biāo)普:就是普通話,我們是一定要轉(zhuǎn)寫的。    2、方普:就是方言普通話,例如廣州人說普通話,上海人說普通話,天津人說普通話等等,這些是需要轉(zhuǎn)寫的。只是他們在說普通話的時(shí)候會有一些口音。例如發(fā)音說:我現(xiàn)在湖南(fu2聲 lan2聲)長沙市中心你來接我一下     他說的是“fu lan”我們正常書寫成“湖南”即可。    3、方言:直接視為無效即可,例如:粵語、上海話、江蘇話等等。