2024年5月16日,九章云極DataCanvas公司自主研發(fā)和設(shè)計(jì)的開源多模向量數(shù)據(jù)庫(kù)DingoDB順利完成中國(guó)信息通信研究院(以下簡(jiǎn)稱中國(guó)信通院)多模數(shù)據(jù)庫(kù)產(chǎn)品測(cè)試。本次測(cè)試的成功標(biāo)志著DingoDB在技術(shù)能力、性能表現(xiàn)和產(chǎn)品穩(wěn)定性方面得到了權(quán)威機(jī)構(gòu)的高度認(rèn)可,并進(jìn)一步印證其為用戶提供可靠高效數(shù)據(jù)管理解決方案的能力,以及在多模數(shù)據(jù)庫(kù)領(lǐng)域的領(lǐng)先地位和卓越品質(zhì)。目前,DingoDB已完成中國(guó)信通院《向量數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)》和《多模數(shù)據(jù)庫(kù)技術(shù)要求》兩大數(shù)據(jù)庫(kù)領(lǐng)域的重量級(jí)測(cè)試。

DingoDB多模向量數(shù)據(jù)庫(kù)的多重能力
中國(guó)信通院作為國(guó)家級(jí)科研機(jī)構(gòu),承擔(dān)了多項(xiàng)國(guó)家級(jí)重大科研任務(wù)和標(biāo)準(zhǔn)制定工作,具有極高的權(quán)威性和公信力,其測(cè)試和認(rèn)證在業(yè)內(nèi)廣受認(rèn)可。中國(guó)信通院定期對(duì)數(shù)據(jù)庫(kù)產(chǎn)品進(jìn)行全面測(cè)試,為用戶選擇合適的數(shù)據(jù)庫(kù)產(chǎn)品提供權(quán)威指南,本次多模數(shù)據(jù)庫(kù)產(chǎn)品測(cè)試正是基于《多模數(shù)據(jù)庫(kù)技術(shù)要求》的標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)由中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所聯(lián)合多家企業(yè)專家制定,涵蓋了多模數(shù)據(jù)庫(kù)的基本能力、管理能力、兼容能力、安全能力、擴(kuò)展能力、高可用等六大能力域,共33個(gè)測(cè)試項(xiàng)(包括21個(gè)必選項(xiàng)和12個(gè)可選項(xiàng)),測(cè)試產(chǎn)品需要滿足所有必選項(xiàng)方可通過(guò)。
DingoDB——功能完全內(nèi)建的數(shù)據(jù)庫(kù),而非多組件的簡(jiǎn)單堆砌
DingoDB集成了關(guān)系型、文檔、向量和鍵值四種數(shù)據(jù)模型,能為用戶提供高效多模型數(shù)據(jù)庫(kù)解決方案。區(qū)別于市場(chǎng)上很多多模數(shù)據(jù)庫(kù)廠商,它不是多個(gè)數(shù)據(jù)模型組件的簡(jiǎn)單堆砌,而是一款具備在線強(qiáng)一致性的完全內(nèi)建的數(shù)據(jù)庫(kù)。
DingoDB產(chǎn)品特性:
· 企業(yè)級(jí)存儲(chǔ)可靠性:基于Multi-Raft多副本存儲(chǔ),確保數(shù)據(jù)強(qiáng)一致性,滿足企業(yè)級(jí)容災(zāi)需求。
· 多模數(shù)據(jù)聯(lián)合檢索:支持通過(guò)SQL進(jìn)行執(zhí)行關(guān)系、向量、文檔的聯(lián)合檢索,并提供豐富的索引類型,簡(jiǎn)化RAG應(yīng)用的開發(fā)復(fù)雜度,滿足各種場(chǎng)景需求。
· 多模數(shù)據(jù)庫(kù)的能力:部署一套DingoDB即可擁有鍵值緩存加速、關(guān)系數(shù)據(jù)庫(kù)和向量數(shù)據(jù)庫(kù)和文檔的服務(wù)能力,減少多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的維護(hù)和管理成本,提高整體系統(tǒng)的效率和靈活性。
· 兼容MySQL協(xié)議:用戶可以直接使用原生的MySQL客戶端訪問(wèn),無(wú)需學(xué)習(xí)新的數(shù)據(jù)庫(kù)語(yǔ)法和工具,降低用戶的使用門檻。
· 水平擴(kuò)縮容:基于存算分離的架構(gòu)設(shè)計(jì),DingoDB能夠?qū)崿F(xiàn)對(duì)性能和資源的一鍵水平擴(kuò)容和縮容,使得企業(yè)能夠根據(jù)業(yè)務(wù)需求快速調(diào)整數(shù)據(jù)庫(kù)規(guī)模,有效應(yīng)對(duì)流量變化。
· 多存儲(chǔ)引擎兼容:支持多種存儲(chǔ)引擎,使得企業(yè)可以根據(jù)業(yè)務(wù)特點(diǎn)選擇最適合的存儲(chǔ)引擎,最大化性能效益。
· 分布式事務(wù):支持多種數(shù)據(jù)模態(tài)下的分布式事務(wù),同時(shí)提供多種隔離級(jí)別,既兼容樂(lè)觀事務(wù)和悲觀事務(wù),確保事務(wù)在分布式環(huán)境下的完整性和一致性。
· 多租戶支持:原生支持多租戶,服務(wù)隔離防止數(shù)據(jù)泄露與干擾。支持請(qǐng)求級(jí)動(dòng)態(tài)流控,靈活分配資源。支持混合存儲(chǔ)與按租戶和資源組隔離,確保資源的合理分配和高效利用。
· 開源開放:完整開放數(shù)據(jù)庫(kù)源代碼,提供豐富的多語(yǔ)言SDK及詳盡的開發(fā)文檔,滿足用戶在不同應(yīng)用開發(fā)場(chǎng)景中的需求。
DingoDB場(chǎng)景應(yīng)用:
1)基于RAG技術(shù)的場(chǎng)景的應(yīng)用
DingoDB覆蓋關(guān)系型、文檔、向量和鍵值等多種數(shù)據(jù)模型的特點(diǎn),使得它在基于RAG技術(shù)(Retrieval Augmented Generation)的場(chǎng)景中得到廣泛應(yīng)用,例如企業(yè)知識(shí)管理場(chǎng)景。該場(chǎng)景的目標(biāo)是從海量的技術(shù)文檔中找到與問(wèn)題相關(guān)的片段并生成回答。這個(gè)過(guò)程需要結(jié)合大語(yǔ)言模型(LLM,large language model)和多模數(shù)據(jù)庫(kù)的能力。其中,LLM因?yàn)闊o(wú)法直接生成與技術(shù)內(nèi)容相關(guān)的答案,只起到輔助性作用,效果好壞是由執(zhí)行檢索任務(wù)的多模數(shù)據(jù)庫(kù)決定。在該場(chǎng)景,DingoDB提供兩種不同的檢索方式來(lái)召回相關(guān)文本數(shù)據(jù),包括向量檢索和關(guān)鍵詞檢索。向量檢索依賴于DingoDB的向量數(shù)據(jù)庫(kù)功能,而關(guān)鍵詞檢索則依賴于其文檔數(shù)據(jù)庫(kù)功能。這種多模檢索方式能有效提高生成內(nèi)容的準(zhǔn)確性、連貫性和信息量,確保用戶獲得更高質(zhì)量的響應(yīng)。
使用DingoDB的企業(yè)知識(shí)管理場(chǎng)景的流程如下,分為下列三個(gè)步驟:

基于DingoDB多模向量數(shù)據(jù)庫(kù)的RAG構(gòu)建流程
· Step1.文檔解析入庫(kù)
將企業(yè)的技術(shù)文檔上傳,通過(guò)Text Splitter模塊進(jìn)行分割,生成多個(gè)文本塊(段落、句子等)。對(duì)文本塊進(jìn)行標(biāo)注提取,生成標(biāo)題或標(biāo)簽,便于檢索。對(duì)于包含表格的數(shù)據(jù),生成描述性句子,確保表格內(nèi)容能被準(zhǔn)確理解和檢索。通過(guò)Embedding模型將文本塊向量化,生成用于向量檢索的表示,存入DingoDB。
· Step2. 基于DingoDB的向量檢索和關(guān)鍵詞檢索
用戶提出問(wèn)題后,通過(guò)Embedding模型生成向量表示,在DingoDB中進(jìn)行向量檢索,找到最相關(guān)的多個(gè)文本塊。關(guān)鍵詞檢索是為解決用戶口頭表達(dá)與專業(yè)文檔不匹配而造成的檢索不準(zhǔn)確問(wèn)題。關(guān)鍵詞檢索通過(guò)LLM提取關(guān)鍵詞,輸入DingoDB進(jìn)行關(guān)鍵詞匹配(match召回),找到相關(guān)文本塊。DingoDB支持標(biāo)量向量聯(lián)合檢索,結(jié)合關(guān)鍵詞匹配和向量召回進(jìn)行混合召回,返回TopN相關(guān)文本塊。
· Step3. 答案生成
將檢索到的TopN相關(guān)文本塊通過(guò)預(yù)定義的Prompt模板傳遞給LLM,由LLM生成詳細(xì)且準(zhǔn)確的答案。
在大語(yǔ)言模型時(shí)代的RAG典型應(yīng)用企業(yè)知識(shí)管理場(chǎng)景,DingoDB可以高效地處理和檢索海量技術(shù)文檔,提供精準(zhǔn)、及時(shí)的答案,支持企業(yè)內(nèi)部的信息查詢和知識(shí)管理。依托該場(chǎng)景,DingoDB在多家央企客戶得到應(yīng)用。
2)分布式KV場(chǎng)景的應(yīng)用
在金融行業(yè)的實(shí)時(shí)風(fēng)控、反欺詐、精準(zhǔn)營(yíng)銷、產(chǎn)品推薦等需要亞秒級(jí)決策的場(chǎng)景,DingoDB以其高性能和低延遲的特點(diǎn),輕松駕馭亞秒級(jí)大規(guī)模數(shù)據(jù)處理與分析,為實(shí)時(shí)決策提供堅(jiān)實(shí)的服務(wù)支撐。DingoDB采用先進(jìn)的數(shù)據(jù)復(fù)制與故障轉(zhuǎn)移機(jī)制,并通過(guò)持久化技術(shù)確保數(shù)據(jù)安全可靠。同時(shí),能根據(jù)業(yè)務(wù)需求靈活擴(kuò)展計(jì)算與存儲(chǔ)資源,從容應(yīng)對(duì)數(shù)據(jù)處理需求的持續(xù)增長(zhǎng)。DingoDB具備滿足信創(chuàng)標(biāo)準(zhǔn)的高頻Serving計(jì)算能力,使企業(yè)在面對(duì)實(shí)時(shí)數(shù)據(jù)處理和決策時(shí)能夠快速響應(yīng)。
3)其他場(chǎng)景的應(yīng)用
除上述兩類場(chǎng)景,DingoDB還在多種豐富場(chǎng)景應(yīng)用中展現(xiàn)了其強(qiáng)大的功能和多樣化的能力。

DingoDB多模向量數(shù)據(jù)庫(kù)支撐多種業(yè)務(wù)場(chǎng)景
● Vector Ocean數(shù)據(jù)支撐:Vector Ocean是九章云極DataCanvas對(duì)數(shù)據(jù)架構(gòu)的一種全新設(shè)想。DingoDB在Vector Ocean中提供結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),支持多模態(tài)數(shù)據(jù)分析能力和科學(xué)計(jì)算能力。其強(qiáng)大的數(shù)據(jù)處理能力使得企業(yè)能夠在一個(gè)平臺(tái)上處理多種數(shù)據(jù)類型,簡(jiǎn)化數(shù)據(jù)管理流程。
● 大模型記憶體:DingoDB輔助大語(yǔ)言模型生成前的Prompt管理,提供高效并發(fā)的搜索答案能力。這在大語(yǔ)言模型時(shí)代尤為重要,能夠?yàn)锳I模型提供可靠的數(shù)據(jù)支持,提升模型生成答案的準(zhǔn)確性和效率。
● 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的融合分析:DingoDB支持音頻、視頻、文本等非結(jié)構(gòu)化數(shù)據(jù)的向量化存儲(chǔ),提供結(jié)構(gòu)化與向量數(shù)據(jù)的聯(lián)合分析和計(jì)算能力。這種融合分析能力使得企業(yè)能夠從多維度進(jìn)行數(shù)據(jù)分析,獲取更全面的洞察。
總結(jié)
DingoDB作為一款多模數(shù)據(jù)庫(kù),在企業(yè)知識(shí)管理、實(shí)時(shí)決策、數(shù)據(jù)支撐、大語(yǔ)言模型應(yīng)用以及多類型數(shù)據(jù)檢索和分析等方面展現(xiàn)出強(qiáng)大的應(yīng)用能力,獲得了廣泛的認(rèn)可和好評(píng)。DingoDB不僅可以充當(dāng)海量數(shù)據(jù)的存儲(chǔ)中心,還是推動(dòng)數(shù)據(jù)驅(qū)動(dòng)決策的核心動(dòng)力。在數(shù)字化轉(zhuǎn)型的浪潮中,DingoDB成為傳統(tǒng)業(yè)務(wù)與前沿技術(shù)的重要橋梁。無(wú)論是云計(jì)算的高效處理、大數(shù)據(jù)的深度分析、人工智能的智能決策,還是物聯(lián)網(wǎng)的實(shí)時(shí)數(shù)據(jù)交換,DingoDB都能提供堅(jiān)實(shí)的數(shù)據(jù)分析和處理支撐。