數(shù)據(jù)集是人工智能(AI)的生命線 - 可以說,它們使模型成為可能。但是,沒有相應注釋的數(shù)據(jù)取決于正在運行的算法的類型(即,監(jiān)督與無監(jiān)督),或多或少是無用的。這就是為什么像Scale這樣的樣品標簽創(chuàng)業(yè)公司籌集了數(shù)千萬美元,并吸引了優(yōu)步和通用汽車等客戶。這就是為什么Kevin Guo和Dmitriy Karpman共同創(chuàng)辦了Hive,這是一家使用由數(shù)十萬志愿者提供的注釋數(shù)據(jù)來培訓特定領(lǐng)域AI模型的創(chuàng)業(yè)公司。
擁有近100名員工的Hive在從PayPal創(chuàng)始人Peter Thiel的創(chuàng)始人基金和其他人那里籌集了超過3000萬美元的風險投資之前不久推出了旗艦產(chǎn)品--Hive Data,Hive Predict和Hive Enterprise。
“我們建立了[Hive],因為我們覺得雖然圍繞人工智能和深度學習有很多興奮,但我們沒有看到很多實際的應用程序正在構(gòu)建,”郭在電話采訪中告訴VentureBeat。“有很多炒作,但他們真正要解決的問題似乎并不明顯。大多數(shù)這些都是有些工作的演示,但并不是真正的企業(yè)級?!?/span>
為此,Hive通過Hive Work招募了大部分人類數(shù)據(jù)貼標人,Hive Work是一個智能手機應用程序和網(wǎng)站,指示他們完成分類圖像和轉(zhuǎn)錄音頻等任務。作為交換,Hive發(fā)放了一小筆獎勵 - 每周數(shù)萬美元。(郭說它可以使用“激增定價”來確保在必要時更快的周轉(zhuǎn)時間,例如當Hive客戶有特定項目時。)
該戰(zhàn)略取得了成功。Hive在其貢獻者社區(qū)中的30多個國家/地區(qū)擁有近700,000名用戶,他們每天幫助處理大約一千萬個標簽,準確率達到99%。(這種準確性部分歸因于一個淘汰系統(tǒng),它每隔一段時間就會進入“已知”任務,確保用戶不會對系統(tǒng)進行游戲。)客戶通過提供數(shù)據(jù)標簽服務的Hive Data挖掘員工隊伍。針對多個垂直行業(yè)量身定制。
“獲取培訓數(shù)據(jù)來構(gòu)建這些模型實際上非常非常重要。從某種意義上說,自動化的唯一方法就是招募大量的人力,這幾乎具有諷刺意味,“郭說。“你可以擁有最好的框架,但如果沒有良好的訓練數(shù)據(jù),你將無法獲得良好的輸出。我把它比作一個人類的頭腦:你可以擁有最聰明的大腦,但如果你不教這個大腦貓狗之間的區(qū)別并展示它的好例子,它就永遠不會認識到貓與狗之間的區(qū)別?!?/span>
Hive Work的輸出還提供Hive Predict,為企業(yè)提供定制設(shè)計的計算機視覺模型,幫助企業(yè)實現(xiàn)業(yè)務流程自動化; Hive Enterprise,針對汽車,零售,安全和媒體等領(lǐng)域,提供從頭開始構(gòu)建的專有數(shù)據(jù)的定制深度學習模型。Hive使用基于Google開源TensorFlow框架的后端,通過API或云開發(fā)AI系統(tǒng),或與集成合作伙伴合作設(shè)計內(nèi)部部署解決方案。
到目前為止,憑借其內(nèi)部服務器和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,Hive創(chuàng)建了機器學習模型,可識別活動,預測年齡和性別,對汽車進行分類,確定相機傳感器與感興趣主體之間的距離,甚至可以檢測爆炸等事件,電視節(jié)目中的槍聲,戰(zhàn)斗和廣告。郭拒絕透露Hive的任何客戶的名字,但表示每個客戶每個月都會發(fā)出數(shù)千萬的API請求。
Hive的模型之一 - 徽標模型API - 當然會檢測徽標,但也會檢測它們顯示的產(chǎn)品或廣告以及它們可見的持續(xù)時間。Hive聲稱,與Google Vision Cloud的5%召回率和66%的精確度相比,它具有99%的召回率和98精度。
Hive每周增加100個徽標,目標是在2018年第四季度達到10,000。
“我們的質(zhì)量標準遠遠高于其他所有人,”郭說。“我不希望[Hive]成為另一個真正過度的人工智能公司,它實際上無法構(gòu)建技術(shù),我認為這對整個空間來說并不好?!?/span>