(CWW)算力、算法和數(shù)據(jù)是人工智能的“三駕馬車(chē)”。過(guò)去的十多年,算力、算法、數(shù)據(jù)等技術(shù)的創(chuàng)新和迭代,都取得了“大爆炸”式發(fā)展。ChatGPT橫空出世背后,有海量訓(xùn)練數(shù)據(jù)、人工標(biāo)注指令微調(diào)以及基于人工反饋的強(qiáng)化學(xué)習(xí)。未來(lái),人工智能在垂直場(chǎng)景落地,需要大量經(jīng)過(guò)標(biāo)注處理的數(shù)據(jù)完成算法訓(xùn)練?,F(xiàn)階段,數(shù)據(jù)標(biāo)注屬于勞動(dòng)密集型產(chǎn)業(yè),人工智能尤其是大模型的崛起,將數(shù)據(jù)標(biāo)注推向AI輔助標(biāo)注、自動(dòng)標(biāo)注,數(shù)據(jù)標(biāo)注進(jìn)入技能密集時(shí)代。
我國(guó)數(shù)據(jù)標(biāo)注行業(yè)現(xiàn)狀及特點(diǎn)
數(shù)據(jù)標(biāo)注是指借助特定軟件標(biāo)注工具,將圖片、語(yǔ)音、文本、視頻等數(shù)據(jù)內(nèi)容進(jìn)行分類(lèi)、標(biāo)準(zhǔn)特征標(biāo)簽等(例如圖片屬于“貓”、“狗”、“鳥(niǎo)”等分類(lèi)),使其易于被機(jī)器學(xué)習(xí)算法可理解和快速處理。近年來(lái),隨著人工智能的快速發(fā)展,數(shù)據(jù)標(biāo)注需求激增,我國(guó)數(shù)據(jù)標(biāo)注市場(chǎng)呈現(xiàn)如下特點(diǎn)。
(相關(guān)資料圖)
一是在需求和政策共推下高速發(fā)展。2022年我國(guó)數(shù)據(jù)產(chǎn)量已達(dá)8.1ZB,同比增長(zhǎng)22.7%,全球占比10.5%,位居世界第二,數(shù)據(jù)已成為我國(guó)重要的資源稟賦優(yōu)勢(shì)。與此同時(shí),我國(guó)數(shù)據(jù)要素市場(chǎng)化配置進(jìn)程加速,政策加持國(guó)內(nèi) AI 產(chǎn)業(yè)發(fā)展,市場(chǎng)對(duì)高質(zhì)量數(shù)據(jù)標(biāo)注需求激增。根據(jù)艾瑞咨詢(xún)、華經(jīng)產(chǎn)業(yè)研究院數(shù)據(jù),2021年我國(guó)數(shù)據(jù)標(biāo)注市場(chǎng)規(guī)模為43至44億元,2025年有望突破百億元。此外,數(shù)據(jù)標(biāo)注是勞動(dòng)力資源密集省市政府解決就業(yè)難的抓手,多個(gè)省市紛紛出臺(tái)政策支持?jǐn)?shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展或建立數(shù)據(jù)標(biāo)注產(chǎn)業(yè)園,如山西省出臺(tái)了《山西省數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展規(guī)劃(2019-2025 年)》、《山西省加快數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的實(shí)施意見(jiàn)》、《山西人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)專(zhuān)項(xiàng)資金管理辦法》等,山西、河南、四川、貴州等省已形成了眾多數(shù)據(jù)標(biāo)注小鎮(zhèn),全國(guó)范圍來(lái)看,集數(shù)據(jù)采集、存儲(chǔ)、標(biāo)注、服務(wù)等于一體的AI基礎(chǔ)數(shù)據(jù)相關(guān)產(chǎn)業(yè)持續(xù)壯大,進(jìn)入高速發(fā)展期。
二是AI頭部企業(yè)紛紛入局并贏得競(jìng)爭(zhēng)優(yōu)勢(shì)。數(shù)據(jù)標(biāo)注市場(chǎng)有兩類(lèi)參與者,一類(lèi)是專(zhuān)業(yè)的第三方數(shù)據(jù)標(biāo)注公司,如Testin云測(cè)、澳鵬appen、海天瑞聲、數(shù)據(jù)堂、龍貓數(shù)據(jù)、曼孚科技等;一類(lèi)是AI科技公司內(nèi)部的標(biāo)注部門(mén)。兩類(lèi)數(shù)據(jù)標(biāo)注力量都在壯大,第二類(lèi)發(fā)展更快,越來(lái)越多的AI頭部企業(yè)自建標(biāo)注工具平臺(tái)和標(biāo)注基地,如百度在山西建立人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地、推出數(shù)據(jù)標(biāo)注開(kāi)放平臺(tái),京東在山東設(shè)立京東眾智大數(shù)據(jù)標(biāo)注助殘基地、推出 Wise 開(kāi)放標(biāo)注平臺(tái),字節(jié)跳動(dòng)在全國(guó)設(shè)立了六個(gè)標(biāo)注基地。這些AI頭部企業(yè)資本雄厚、數(shù)據(jù)需求旺盛、技術(shù)實(shí)力強(qiáng),后發(fā)優(yōu)勢(shì)顯著,百度、京東已進(jìn)入數(shù)據(jù)標(biāo)注市場(chǎng)第一陣營(yíng)。
三是市場(chǎng)需求以定制化服務(wù)為主。相關(guān)數(shù)據(jù)顯示,2021年我國(guó)數(shù)據(jù)標(biāo)注及審核市場(chǎng)中定制化服務(wù)占比85.41%,而標(biāo)準(zhǔn)化的數(shù)據(jù)集產(chǎn)品僅占13.33%。這與AI在垂直場(chǎng)景深度落地需要與特定任務(wù)類(lèi)型、特定應(yīng)用場(chǎng)景相匹配的數(shù)據(jù)進(jìn)行算法訓(xùn)練。大模型時(shí)代下,“基礎(chǔ)模型+微調(diào)”有望成為 AI 開(kāi)發(fā)新范式,微調(diào)是讓AI獲特定領(lǐng)域知識(shí),并賦予其組織、應(yīng)用知識(shí)的能力,可以預(yù)見(jiàn),貼合垂直場(chǎng)景的高精準(zhǔn)定制化數(shù)據(jù)標(biāo)注服務(wù)在未來(lái)將是市場(chǎng)需求主流。
數(shù)據(jù)標(biāo)注行業(yè)面臨的問(wèn)題與挑戰(zhàn)
早期,市場(chǎng)對(duì)數(shù)據(jù)采集標(biāo)注的要求較低,準(zhǔn)入門(mén)檻低,行業(yè)內(nèi)云集了大量中小規(guī)模的服務(wù)商和靈活就業(yè)/兼職個(gè)人,數(shù)據(jù)標(biāo)注領(lǐng)頭企業(yè)主要采用轉(zhuǎn)包、眾包模式提供服務(wù),行業(yè)存在標(biāo)注效率低下、數(shù)據(jù)質(zhì)量參差不齊、高技能人才不足、全程數(shù)據(jù)安全合規(guī)風(fēng)險(xiǎn)高等問(wèn)題。
一是標(biāo)注效率低下、數(shù)據(jù)質(zhì)量參差不齊。當(dāng)前數(shù)據(jù)標(biāo)注高度依賴(lài)人力,十分枯燥、耗費(fèi)眼力體力,很多中小供應(yīng)商缺少AI輔助標(biāo)注、AI質(zhì)檢能力,標(biāo)注師個(gè)人能力素質(zhì)直接影響標(biāo)注效率和數(shù)據(jù)質(zhì)量,形成行業(yè)生產(chǎn)效率低下、數(shù)據(jù)質(zhì)量不均衡的局面。
二是高技能產(chǎn)業(yè)人才缺乏。從任務(wù)需求來(lái)看,以較為復(fù)雜的語(yǔ)音標(biāo)注、計(jì)算機(jī)視覺(jué)標(biāo)注為主,醫(yī)療醫(yī)藥、法律、金融、電力等專(zhuān)業(yè)數(shù)據(jù)集標(biāo)注生產(chǎn),還對(duì)標(biāo)注師的學(xué)科知識(shí)儲(chǔ)備有一定要求。從人才培養(yǎng)來(lái)說(shuō),人工智能訓(xùn)練師新型崗位培養(yǎng)、專(zhuān)業(yè)設(shè)立并沒(méi)有受到社會(huì)重視,市場(chǎng)上缺乏經(jīng)過(guò)系統(tǒng)性訓(xùn)練的高技能人才。
三是全程數(shù)據(jù)安全合規(guī)風(fēng)險(xiǎn)高。根據(jù)中國(guó)信通院報(bào)告,80%的安全風(fēng)險(xiǎn)發(fā)生在數(shù)據(jù)流通環(huán)節(jié)。從行業(yè)現(xiàn)狀來(lái)看,數(shù)據(jù)標(biāo)注的鏈條較長(zhǎng),包括采集、標(biāo)注、存儲(chǔ)、傳輸?shù)拳h(huán)節(jié),轉(zhuǎn)包模式下信息鏈條更長(zhǎng),黃賭毒/暴力信息過(guò)濾、隱私保護(hù)、數(shù)據(jù)不當(dāng)使用等都是標(biāo)注和審核企業(yè)面臨的難題。
數(shù)據(jù)標(biāo)注行業(yè)存在的變化及趨勢(shì)
隨著人工智能技術(shù)在更多垂直應(yīng)用場(chǎng)景落地深化,數(shù)據(jù)標(biāo)注表現(xiàn)出以下幾個(gè)趨勢(shì):
一是AI輔助標(biāo)注、自動(dòng)化數(shù)據(jù)標(biāo)注成為新競(jìng)爭(zhēng)力,助推行業(yè)從勞動(dòng)密集轉(zhuǎn)向技術(shù)密集。從全球范圍來(lái)看,美國(guó)由于人力成本較高,較早使用機(jī)器替代人力,谷歌、微軟等互聯(lián)網(wǎng)巨頭都推出了自動(dòng)標(biāo)注系統(tǒng),Playment和Scale AI合作,為全球高分辨率 LiDAR傳感器制造商 Data 聯(lián)合開(kāi)發(fā)了高級(jí)深度學(xué)習(xí)標(biāo)注工具。在中國(guó),用工管理日趨規(guī)范以及標(biāo)注需求量的激增,純?nèi)斯?biāo)注在效率和成本上的優(yōu)勢(shì)將很快消失,使用AI賦能的自動(dòng)標(biāo)注能力與相關(guān)工具來(lái)提升效率和質(zhì)量,將逐漸成為數(shù)據(jù)標(biāo)注企業(yè)提高市場(chǎng)競(jìng)爭(zhēng)力、降本增效的利器。AI輔助標(biāo)注、自動(dòng)標(biāo)注不僅提升了數(shù)據(jù)的產(chǎn)出效率,同時(shí)也在標(biāo)注模型工具的迭代中打造出了完善的 AI 基礎(chǔ)設(shè)施,從而助推行業(yè)向技術(shù)密集轉(zhuǎn)型。
二是行業(yè)走向垂直化、定制化,門(mén)檻提高,市場(chǎng)集中度提升。隨著人工智能進(jìn)入多元行業(yè)和場(chǎng)景落地階段,自動(dòng)駕駛、醫(yī)療醫(yī)藥、小語(yǔ)種、法律、金融等有一定專(zhuān)業(yè)性要求的垂直場(chǎng)景將成為主要需求,帶動(dòng)行業(yè)進(jìn)一步朝著垂直化、定制化發(fā)展,專(zhuān)業(yè)性要求越來(lái)越高,市場(chǎng)準(zhǔn)入門(mén)檻將顯著提高。同時(shí),頭部的品牌數(shù)據(jù)服務(wù)商由于具備較強(qiáng)算法能力和穩(wěn)定訓(xùn)練數(shù)據(jù)資源,有實(shí)力打造AI輔助標(biāo)注、自動(dòng)化標(biāo)注平臺(tái)工具,標(biāo)注效率、質(zhì)量和成本優(yōu)勢(shì)將凸顯。未來(lái),品牌數(shù)據(jù)服務(wù)商和需求方自建的標(biāo)注團(tuán)隊(duì)將逐步替代中小供應(yīng)商,行業(yè)市場(chǎng)集中度將顯著提升。如,2019年中小數(shù)據(jù)供應(yīng)商的市場(chǎng)份額高達(dá) 47%,百度市場(chǎng)份額為11%,2022年百度的市場(chǎng)份額躍居到18%。
三是追求更高的數(shù)據(jù)質(zhì)量、安全性和隱私性。大部分算法在擁有足夠多普通標(biāo)注數(shù)據(jù)的情況下,能夠?qū)?zhǔn)確率提升到 95%,但再提升到 99%甚至 99.9%,則需要高質(zhì)量數(shù)據(jù)。另一方面,海量原始數(shù)據(jù)的采集標(biāo)注,涉及大量敏感數(shù)據(jù),如人臉、語(yǔ)音等內(nèi)容,隨著數(shù)據(jù)安全合規(guī)法律政策體系的完善和監(jiān)管升級(jí),對(duì)數(shù)據(jù)的采集、標(biāo)注、存儲(chǔ)、傳輸?shù)拿恳粋€(gè)環(huán)節(jié)的安全合規(guī)要求越來(lái)越高。因此,圍繞標(biāo)注質(zhì)量和全流程數(shù)據(jù)安全合規(guī),建立一套完善的流程機(jī)制,并有技術(shù)工具保駕護(hù)航,就成為當(dāng)下諸多數(shù)據(jù)標(biāo)注服務(wù)商著重建設(shè)發(fā)展的能力。
電信運(yùn)營(yíng)商的探索和機(jī)遇
電信運(yùn)營(yíng)商在數(shù)據(jù)資源的內(nèi)部場(chǎng)景化應(yīng)用、外部產(chǎn)品化流通方面,主要使用結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)采集標(biāo)注僅在客戶(hù)服務(wù)場(chǎng)景中的熱線(xiàn)話(huà)務(wù)、投訴及故障工單的智能打標(biāo),以及裝維流程中的現(xiàn)場(chǎng)作業(yè)規(guī)范管理等少數(shù)場(chǎng)景應(yīng)用;外部產(chǎn)品化應(yīng)用主要是視聯(lián)網(wǎng)產(chǎn)品的AI視頻分析識(shí)別,如明廚亮灶中對(duì)進(jìn)入廚房區(qū)域的廚師服/帽、口罩的穿戴著裝,抽煙、玩手機(jī)、老鼠檢測(cè)、外來(lái)人員識(shí)別等實(shí)時(shí)告警等。整體來(lái)說(shuō),電信運(yùn)營(yíng)商的語(yǔ)音標(biāo)注、計(jì)算機(jī)視覺(jué)標(biāo)注處于探索期,尚未像百度、京東一樣形成專(zhuān)業(yè)化標(biāo)注生產(chǎn)能力,但值得肯定的是,在為數(shù)不多的探索中運(yùn)營(yíng)商選擇了AI輔助標(biāo)注、自動(dòng)化標(biāo)注路徑。當(dāng)下,AI大模型炙手可熱,催化數(shù)據(jù)采標(biāo)需求加速釋放,電信運(yùn)營(yíng)商可審視如下機(jī)遇點(diǎn)。
一是面向垂直行業(yè)的AI輔助標(biāo)注、自動(dòng)化標(biāo)注工具及解決方案。一方面是我國(guó)尚未形成AI輔助標(biāo)注、自動(dòng)化標(biāo)注的領(lǐng)先產(chǎn)品,另一方面是對(duì)數(shù)據(jù)安全要求嚴(yán)格或期望降低數(shù)據(jù)生產(chǎn)成本的企業(yè),紛紛從選擇專(zhuān)業(yè)標(biāo)注公司駐場(chǎng)服務(wù)到自購(gòu)?fù)ㄓ脴?biāo)注工具、模型訓(xùn)練工具進(jìn)行適配優(yōu)化,自行完成數(shù)據(jù)標(biāo)注,這給專(zhuān)注于某個(gè)垂直領(lǐng)域的基礎(chǔ)數(shù)據(jù)服務(wù)商帶來(lái)了機(jī)會(huì):針對(duì)細(xì)分領(lǐng)域提供自動(dòng)化標(biāo)注工具或解決方案。
二是面向數(shù)據(jù)采集標(biāo)注全流程的數(shù)據(jù)安全合規(guī)基礎(chǔ)設(shè)施。AI基礎(chǔ)數(shù)據(jù)生產(chǎn)涉及到采集、存儲(chǔ)、標(biāo)注、傳輸?shù)拳h(huán)節(jié),市場(chǎng)需要低成本的覆蓋全流程的數(shù)據(jù)可信生產(chǎn)流通環(huán)境,運(yùn)營(yíng)商在云網(wǎng)數(shù)字基礎(chǔ)設(shè)施中增加諸如區(qū)塊鏈、前沿密碼等技術(shù),將產(chǎn)生新的優(yōu)勢(shì)。
三是垂直行業(yè)的專(zhuān)業(yè)數(shù)據(jù)集生產(chǎn)。運(yùn)營(yíng)商長(zhǎng)期深耕金融、政法、公安、醫(yī)療、交通、教育等行業(yè)解決方案,在眾多垂直領(lǐng)域形成了產(chǎn)業(yè)生態(tài),具有將企業(yè)數(shù)據(jù)與垂直領(lǐng)域的跨組織、跨區(qū)域數(shù)據(jù)資源融合匯聚,提供專(zhuān)業(yè)數(shù)據(jù)集的潛能。
標(biāo)簽: