在人工智能(AI)的快速發展浪潮中,數據標注行業作為AI產業鏈的關鍵一環,正經歷著前所未有的變革。特別是隨著大型語言模型的興起,數據標注行業迎來了爆發式增長,但其勞動密集型的特性也使其面臨市場的重新評估。
以美股市場知名數據標注公司Innodata為例,其股價在過去一年中飆升了432%,成為市場關注的焦點。最新財報顯示,Innodata在2024年的營收同比增長了96.44%,且其八大主要客戶中,有五家來自美股科技巨頭。這一強勁表現無疑彰顯了數據標注行業在當前AI時代的重要地位。
然而,市場的預期并非一成不變。隨著DeepSeek等技術的發布,市場對用于訓練大模型的公開數據需求產生了新的質疑。這直接導致了Innodata股價的波動,尤其是在三月,股價跌幅超過了30%。對于Innodata的未來,市場聲音出現了明顯的分歧。
一方面,看空者指出,在過去十年中,Innodata僅實現了兩次盈利,因此其股價的飆升似乎缺乏合理的支撐。而另一方面,看多者則認為,隨著大模型時代的來臨,Innodata已經成功轉型,專注于大模型的數據清理業務,因此其增長潛力巨大。
回顧數據標注行業的發展歷程,自動駕駛的興起曾為其帶來了第一次高光時刻。在大型語言模型出現之前,自動駕駛領域的標注需求占據了AI下游應用的相當大比例。然而,大型語言模型的出現將數據標注的需求提升到了一個全新的高度。有投資者表示,如果沒有大型語言模型的興起,即便是自動駕駛領域的數據標注龍頭Scale AI,在2023年之前的年收入也僅為1億至2億美元。而到了2024年,Scale AI的全年ARR預計將達到12-14億美元,實現了數倍的增長。
Innodata作為業務集中在數據工程領域的公司,充分享受到了大型語言模型帶來的紅利。最新財報顯示,其最大客戶授予了價值約2400萬美元的額外合同,使得來自該客戶的總年化運營收入達到了約1.35億美元。來自其他七家大型科技公司客戶的收入也在第四季度實現了環比159%的增長。
然而,隨著大型語言模型行業的擴張期逐漸過去,數據標注行業也開始面臨新的挑戰。Epoch AI的研究估計,自2020年以來,用于訓練大語言模型的數據增長了100倍,且AI訓練數據集的規模每年都在翻倍。然而,互聯網可用內容的年增長率卻不足10%。這意味著,到2028年,AI訓練數據很可能面臨耗盡的風險。
事實上,數據不足所導致的發展瓶頸已經成為行業中的普遍現象。去年11月,有報道稱OpenAI下一代旗艦模型Orion的改進速度大幅放緩,其中一個主要原因就是高質量訓練數據的短缺。行業共識是,目前通用數據的供給已經接近飽和,垂類數據將成為未來AI模型差異化的關鍵。
盡管Innodata在數據標注領域取得了顯著成績,但其“AI含量”卻一直飽受質疑。早在2019年,Innodata就宣稱自己開始實施人工智能和機器學習流程,并將其劃為一家人工智能公司。然而,去年的一份報告卻指出,Innodata的核心業務仍然是依靠海外廉價勞動力進行基礎數據標注,而非自主研發的AI技術。報告還引用前員工的說法,稱公司為硅谷客戶提供的服務本質上是“鍵盤勞動”。
盡管如此,Innodata的財報數據卻顯示出了強勁的增長勢頭。僅在2024年第二季度,公司就花費了360萬美元的招聘代理費,這表明其仍然非常依賴人力。業內人士指出,這主要是由于數據標注的復雜性和多樣性,以及不同領域的數據標注要求不同。自動化標注技術在現階段還存在一定的局限性。
然而,DeepSeek等技術的出現卻在一定程度上改寫了數據需求的邏輯。DeepSeek采用的強化學習技術使得大模型能夠利用模型內已存在的數據進行自我訓練,從而降低了對數據量的需求。這一變化無疑對數據標注行業產生了沖擊。
關于DeepSeek對數據標注行業的沖擊,Innodata管理層在財報電話會上表示,他們相信預訓練數據和微調數據對于通用人工智能(AGI)的發展而言是無法替代的。在他們看來,DeepSeek依賴以現有模型數據訓練新模型的方式會極大地壓縮數據,最終導致模型崩潰。
盡管市場存在質疑,但仍有投資者認為DeepSeek的出現對Innodata來說并非利空。他們指出,隨著DeepSeek帶來的模型部署和運行成本的大幅降低,將有更多應用層的公司部署自己的大模型,這將帶來額外的數據標注需求。
然而,對于數據標注工作的自動化程度問題,市場仍然存在爭議。當投資者質疑Innodata的“AI含量”低時,一個不可忽視的事實是,數據標注工作的AI化可能會首先革掉數據標注公司自己的命。這一悖論使得Innodata等公司的可持續增長面臨不確定性。
盡管如此,隨著AI技術的不斷發展,數據標注行業仍然具有廣闊的發展前景。特別是在垂類數據領域,人工標注仍然具有不可替代性。因此,對于Innodata等公司而言,如何在保持業務增長的同時,不斷提升自身的技術含量和自動化水平,將是其未來面臨的重要挑戰。