近期,一家專注于大模型架構創新的企業——元始智能(RWKV),成功完成了數千萬人民幣的天使輪融資。本輪融資由天際資本獨家領投,融資后公司估值實現了翻倍增長。這筆資金將主要用于團隊規模的擴大、新架構的研發迭代以及產品的商業化推廣。
自2022年11月OpenAI推出ChatGPT以來,生成式AI技術迅速席卷全球,而Transformer架構及其背后的Scaling Law成為了這場技術革命的核心。通過大幅提升AI模型的參數規模,從億級躍升至千億、萬億級別,大語言模型(LLM)在學習了龐大的數據后,展現出了前所未有的智能。
然而,大模型并非無所不能。幻覺問題和準確率的局限性,成為了其難以克服的障礙。隨著2024年大模型迭代速度的放緩,無論是學術界還是工業界,都開始對Transformer架構及其背后的Scaling Law進行深入探討。
正是在這樣的背景下,元始智能(RWKV)應運而生,致力于探索超越Transformer架構的新路徑。聯合創始人羅璇表示:“我們不僅僅是一家大模型公司,更是一家具備持續創新AI模型底層架構能力的‘黑科技’企業。”
RWKV的創始人彭博,一位畢業于香港大學物理系的量化交易專家,自2020年起便獨立開發RWKV這一創新架構。從2022年底發布首個模型,到如今商業公司的正式成立,RWKV團隊已從最初的3人壯大至近20人。
與依賴巨額算力和數據的Transformer架構不同,RWKV選擇了一條更為高效和靈活的技術路線。羅璇解釋道:“Transformer架構在處理對話時,需要重復讀取前文并記錄每個Token的狀態,這導致其信息處理效率低下且算力需求巨大。而RWKV則無需記錄每個Token的狀態,大大減少了計算量,實現了高效推理。”
RWKV的技術突破在于,它將Transformer的高效并行訓練與RNN的高效推理能力相結合。雖然RNN并非新技術,且過去被認為能力弱于Transformer,但RWKV證明了改進后的RNN不僅效率更高,而且同樣具備強大的語言建模能力。
然而,RWKV也面臨一個挑戰:作為狀態空間大小固定的RNN,它無法將無限長度的前文全部壓縮進狀態空間。這意味著RWKV會逐漸遺忘一些細節。但彭博認為,這并非缺陷。通過引入強化學習方法,RWKV可以自動判斷在必要時重新閱讀前文,這比Transformer的“強行記憶”更為高效。
RWKV的特性使其在寫作、音樂生成等創意性場景中更具優勢。羅璇表示:“RWKV的架構更接近人腦的記憶演繹機制,能夠產生更具創新性的內容。”目前,RWKV已經完成了從0.1B到14B的模型訓練,并發布了32B的預覽模型。其最新版本的RWKV-7模型,在同等參數規模下全面超越了Transformer架構的性能。
RWKV-7不僅在模型學習效率上更快提升準確度,而且在核心benchmark測試中表現更優。其記憶力也顯著增強。例如,0.1B的RWKV-7在4k上下文窗口下訓練,就能自動解決16k的復雜問題。
除了技術上的突破,元始智能還在商業化方面取得了進展。其公司業務分為兩大部分:一是將模型開源并持續保持全開源和免費;二是在商業實體方面,推出了AI音樂生成應用,并面向B端市場提供模型授權服務。目前,已有包括騰訊、阿里在內的多家高校和公司使用了RWKV。
在To B領域,元始智能選擇了智能和新能源兩大領域作為切入點,已與國家電網、有鹿機器人等企業達成合作。未來,元始智能計劃推出更大參數的RWKV-7模型及終端部署方案,并探索結合新型推理框架和芯片的大規模模型應用。