近期,清華大學(xué)、騰訊云與英特爾在北京共同宣布了一項(xiàng)名為“數(shù)據(jù)庫AI聯(lián)合創(chuàng)新計(jì)劃”的重大合作。這一合作項(xiàng)目旨在深入探索數(shù)據(jù)庫與大模型技術(shù)的交叉領(lǐng)域,推動(dòng)數(shù)據(jù)庫的智能化轉(zhuǎn)型,并為AI應(yīng)用構(gòu)建更為高效的數(shù)據(jù)基礎(chǔ)設(shè)施。作為國內(nèi)首個(gè)數(shù)據(jù)庫AI領(lǐng)域的產(chǎn)學(xué)研聯(lián)動(dòng)項(xiàng)目,此舉無疑將為相關(guān)領(lǐng)域的發(fā)展注入新的活力。
隨著大語言模型技術(shù)的迅猛發(fā)展,數(shù)據(jù)庫系統(tǒng)正面臨前所未有的轉(zhuǎn)型挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫依賴于人工編寫的復(fù)雜查詢語句,操作門檻較高。而大模型的自然語言交互能力,則為降低這一門檻提供了可能。同時(shí),AI訓(xùn)練與推理所需的海量數(shù)據(jù)處理,也對(duì)數(shù)據(jù)庫在分布式架構(gòu)、緩存管理等方面提出了更高要求。
針對(duì)這一趨勢(shì),本次合作規(guī)劃了兩大技術(shù)攻堅(jiān)方向。一方面,將研發(fā)基于大模型的智能查詢生成與優(yōu)化系統(tǒng)(Text2SQL),使用戶能夠通過自然語言直接操作數(shù)據(jù)庫。這意味著,即便是復(fù)雜的數(shù)據(jù)庫技術(shù),也能“聽懂”用戶的日常語言,從而極大地提升用戶體驗(yàn)。
在Text2SQL方向上,項(xiàng)目組提出了一個(gè)端到端的技術(shù)框架,致力于突破語義理解、模式匹配、SQL驗(yàn)證等關(guān)鍵環(huán)節(jié)。通過大模型微調(diào)、強(qiáng)化學(xué)習(xí)(DPO)與檢索增強(qiáng)(RAG)技術(shù),該系統(tǒng)能夠?qū)⒂脩舻奶釂柌鸾鉃槎鄠€(gè)子任務(wù),并動(dòng)態(tài)匹配數(shù)據(jù)庫表結(jié)構(gòu),最終生成高準(zhǔn)確率的SQL語句。
另一方面,合作團(tuán)隊(duì)還將打造面向大模型推理的分布式緩存產(chǎn)品。這一產(chǎn)品將解決AI任務(wù)調(diào)度、存儲(chǔ)資源分配等核心難題,從而進(jìn)一步提升AI應(yīng)用的運(yùn)行效率。為此,項(xiàng)目組設(shè)計(jì)了一個(gè)分布式緩存系統(tǒng),通過兩階段任務(wù)調(diào)度、KVCache優(yōu)化及GPU直連存儲(chǔ)技術(shù),顯著降低了計(jì)算資源的浪費(fèi)。
清華大學(xué)數(shù)據(jù)庫科研組對(duì)此次合作表示高度期待。他們認(rèn)為,未來的數(shù)據(jù)庫將不再僅僅是存儲(chǔ)工具,而是AI產(chǎn)業(yè)鏈中的“數(shù)據(jù)大腦”。通過此次合作,他們希望能夠?yàn)槿驍?shù)據(jù)庫技術(shù)的發(fā)展提供具有中國特色的解決方案,推動(dòng)相關(guān)領(lǐng)域邁向新的高度。