你能想象嗎?每個工作日,我一半以上的時間都要花在數據標注上。”百度算法工程師李杉(化名)告訴新京報貝殼財經記者。
數據標注是指對圖片、語音、文本、視頻中的數據進行篩選、清洗、分類、注釋、添加對應的標簽。在進行數據標注的過程中,李杉一刻也不敢放松,因為他深知數據標注的精準程度會直接影響模型是否聰明好用。
數據是人工智能技術前進的燃料,大量非結構化的數據,需要經過標注轉化成結構化數據,系統才能識別。伴隨著自動駕駛、大模型等尖端技術的興起,市場對高質量數據標注的需求迅速攀升。在政策層面,國家也愈發重視數據標注行業的發展。
日前,國家發改委等四部門發布《關于促進數據標注產業高質量發展的實施意見》(下稱《意見》),其中提出,到2027年,數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%。培育一批具有影響力的科技型數據標注企業,打造一批產學研用聯動的創新載體,建設一批成效明顯、特色鮮明的數據標注基地,形成相對完善的數據標注產業生態。
時代在變,數據標注行業也在變。從簡單的識別能力到推理能力,再到其他專業能力的儲備,數據標注師的從業門檻正在提升;從人工標注到人機協同,數據標注企業之間的競爭轉向了技術維度,如何與細分行業做好結合顯得更為重要,技術壁壘將逐步提高,新一輪變革已經開始了。
甩掉“低端”標簽
簡單容易上手、沒有門檻,任何人都可以成為一個數據標注師。在大多數人的刻板印象中,數據標注師和工廠里擰螺絲的流水線員工沒有什么差別,他們幾乎沒辦法和“白領”扯上關系,更別說像人工智能這樣充滿科技感的前沿領域。
對圖片進行標記,識別人、機動車、廣告牌等不同物體之后,數據標注的工作就完成了,沒有過多的知識儲備也能快速適應。9年前加入這個行業的劉吉對此感受頗深。“當時還是以傳統機械學習為主,在長文本方面,我們需要做的就是拆分關鍵詞,比如對美團用戶的留言進行分析,沒有過高的技術含量;圖片方面的需求集中在人臉識別,都很簡單。”
2018年,深度學習成為推動人工智能技術發展的主要方向,自動駕駛也成了科技行業的焦點,數據標注行業在這個時候迎來了第一次爆發。在劉吉的記憶里,當時市面上涌現了一大批做數據標注的公司。
但這次爆發并沒讓數據標注行業發生質變,數據標注師們需要處理的數據雖然變多了,但難度并沒有提升,也就是拖動鼠標選取圖片內容,然后為選中的內容打上不同的標簽。各家公司比拼的關鍵,就是看誰能給出更低的價格。
直到大模型的出現,數據標注行業的改變才真正開始。AI需要執行多復雜的任務,就需要多復雜的數據。“舉個例子,之前數據標注的工作可能是識別一張圖片中的動物是貓還是狗,但現在需要從更多的維度給這張圖片做標簽,是貓、是寵物貓、是哪個品種、市場價格區間大概在多少,都需要更多的維度進行分析。”李杉說道。
對于長文本的分析,也不再僅僅是拆詞這么簡單,還要解讀出這句文本背后的語義、情緒,有時還需要給用戶做出畫像。邏輯能力、推理能力已經成為數據標注師的“標配”,他們的工作不再是“拉框”那么簡單。
圖為劉吉供職的京數云數據標注公司。
數據標注不是一個新鮮事物,但是一個新的產業。在國家數據局對《意見》的解讀中,“自動化”“專業化”“高端化”正在成為數據標注產業的新標簽。劉吉在2019年創立了自己的公眾號“AI數據標注猿”,2020年開始更新文章,通過開源共享分享行業知識。“我看好數據標注行業,同時也想記錄這個行業的變化,為行業發展貢獻一點自己的力量。”劉吉說。
從“單一”到“多元”
數據標注因大模型翻紅,也因大模型而產生新的規則。
在行業發展初期,市面上以基礎大模型為主。經過一年的發展,專業化垂直大模型成了新的趨勢,落地和商業化是下一輪比拼重點,因此數據標注不僅要求高質量,還要和業務匹配。“其實不同部門對數據標注的要求并不統一,還是和業務需求相關,沒有一個固定的標準。”李杉解釋稱。
新京報貝殼財經記者在和多位數據標注行業從業者的對話交流中發現,“業務導向”成了他們提及最多的詞匯。愷望數據創始人兼CEO(首席執行官)于旭認為,“數據其實是模型背后的生產力資源,當小模型發展成大模型,再到大模型落地和應用,對數據標注的要求也逐步提高,是一種由輕加工向深加工轉變的過程。”
在第三方招聘軟件上,月之暗面發布的“AI數據標注師”的職位要求為:本科及以上學歷,經濟大類、新聞、國際關系等相關專業優先;3年以上戰略、商業分析、咨詢優先;有良好的數據分析和建模能力,有較好的邏輯思維和獨立判斷思維。
在職位描述上,要求理解金融財經場景中用戶的訴求;負責實際應用場景中金融財經類數據的標注和質檢工作;基于數據需求,完成大模型數據構建工作,設計規則標準進行數據生產。
月之暗面為該崗位提供了不低的薪資待遇,一位“AI數據標注師”的月薪最高可達四萬元。與之對比,傳統數據標注師的月薪在三千元左右,即使是管理崗或質檢崗,六千元左右的薪資也與月之暗面的“AI數據標注師”相去甚遠。
“現在數據標注師正處在從行業技能到職業技能的轉變過程中,職業的邏輯是對專業技能要求的提升。”劉吉認為。新京報貝殼財經記者注意到,2020年2月,數據標注員作為人工智能訓練師的一個工種,被正式納入國家職業分類目錄。
這也對數據標注公司的經營能力提出了更高要求。“早期的數據公司的確可以通過大規模對人的管理和運營,將生產力規模提上去,只是下一階段的比拼更看重如何和產業、行業結合在一起,更快更準落地。”于旭指出。
從拼價格到拼技術
“看到國家這么重視數據標注行業,我感到興奮的同時,其實也更期待這個行業可以更加規范。”云測數據總經理賈宇航告訴新京報貝殼財經記者。
在數據標注技術含量并不高的階段,想要拿下訂單,低價是最有力的武器。“在客戶面前,我們沒有什么議價能力,價格是他們是否選擇合作的唯一評判標準。”劉吉回憶稱。
為了降低運營成本,進而在競標中拿出更有競爭力的價格,數據標注公司通常會開在人力成本和辦公場地租金較低的四五線城市。
當數據標注走向“自動化”“專業化”“高端化”之后,比拼的維度也由低價競爭轉向技術競爭。
過去兩年,愷望數據的服務對象以自動駕駛企業為主。于旭也在這個過程中看到了自動駕駛行業存在的問題,比如數據量不足、數據價格過低、數據匹配的標準化規則尚未形成等。
去年9月,北京亦莊智能城市研究院與愷望數據聯手打造的國內首個“車路云”數據協同平臺正式發布并上線,該平臺專注于自動駕駛車輛感知數據和智能交通場景,可提供智能數據應用服務。
于旭希望該平臺通過集成數據存儲、監管與再加工技術,將數據通過生產線系統化的方式流通起來,實現行業數據的共享與復用,這一創新形式通過把相似的數據整合,提高了個性化結果的生成效率。
云測數據則將自建標注基地和專業人才儲備作為自己的核心競爭力。賈宇航認為,人工智能行業正在走向細分領域,專業化的趨勢加強,有經驗的人處理過的數據會比沒有經驗的人更加專業。此外,云測數據還將提升數據流轉的效率,將打通與各個企業間的數據閉環作為主要發力點。
然而,數據標注行業正處在發展初期,究竟哪種技術路線可以最終成功,還需要時間的驗證。
多位受訪者都認為,隨著數據產業的不斷發展,技術壁壘會更加凸顯。于旭記得,2022年剛開始創業時,投資人出現了兩極分化,一類是完全沒聽過數據標注,另一類是非常了解數據標注,當然,刻板印象也很深,認為這就是一個人力密集型的行業,沒有什么價值。但2023年和2024年,投資人的態度發生了明顯轉變。“尤其是國資背景的投資人,對我們越來越看重了。”
當技術發展越來越快,也會伴隨著質疑聲,例如,數據標注師是否會被AI取代?多位受訪者的觀點是,具備專業背景的數據標注師不僅不會消失,需求還會增加,但一些只會簡單標注的數據標注師則會逐漸被AI取代。
正如于旭所說,“如果我們需要做一些與本地生活相關的業務,比如出行業務,那么,具有攜程或者飛豬工作背景的員工,也是我們非常需要的。”