2024年5月16日,九章云極DataCanvas公司自主研發和設計的開源多模向量數據庫DingoDB順利完成中國信息通信研究院(以下簡稱中國信通院)多模數據庫產品測試。本次測試的成功標志著DingoDB在技術能力、性能表現和產品穩定性方面得到了權威機構的高度認可,并進一步印證其為用戶提供可靠高效數據管理解決方案的能力,以及在多模數據庫領域的領先地位和卓越品質。目前,DingoDB已完成中國信通院《向量數據庫標準》和《多模數據庫技術要求》兩大數據庫領域的重量級測試。

DingoDB多模向量數據庫的多重能力
中國信通院作為國家級科研機構,承擔了多項國家級重大科研任務和標準制定工作,具有極高的權威性和公信力,其測試和認證在業內廣受認可。中國信通院定期對數據庫產品進行全面測試,為用戶選擇合適的數據庫產品提供權威指南,本次多模數據庫產品測試正是基于《多模數據庫技術要求》的標準。該標準由中國信通院云計算與大數據研究所聯合多家企業專家制定,涵蓋了多模數據庫的基本能力、管理能力、兼容能力、安全能力、擴展能力、高可用等六大能力域,共33個測試項(包括21個必選項和12個可選項),測試產品需要滿足所有必選項方可通過。
DingoDB——功能完全內建的數據庫,而非多組件的簡單堆砌
DingoDB集成了關系型、文檔、向量和鍵值四種數據模型,能為用戶提供高效多模型數據庫解決方案。區別于市場上很多多模數據庫廠商,它不是多個數據模型組件的簡單堆砌,而是一款具備在線強一致性的完全內建的數據庫。
DingoDB產品特性:
· 企業級存儲可靠性:基于Multi-Raft多副本存儲,確保數據強一致性,滿足企業級容災需求。
· 多模數據聯合檢索:支持通過SQL進行執行關系、向量、文檔的聯合檢索,并提供豐富的索引類型,簡化RAG應用的開發復雜度,滿足各種場景需求。
· 多模數據庫的能力:部署一套DingoDB即可擁有鍵值緩存加速、關系數據庫和向量數據庫和文檔的服務能力,減少多個數據庫系統的維護和管理成本,提高整體系統的效率和靈活性。
· 兼容MySQL協議:用戶可以直接使用原生的MySQL客戶端訪問,無需學習新的數據庫語法和工具,降低用戶的使用門檻。
· 水平擴縮容:基于存算分離的架構設計,DingoDB能夠實現對性能和資源的一鍵水平擴容和縮容,使得企業能夠根據業務需求快速調整數據庫規模,有效應對流量變化。
· 多存儲引擎兼容:支持多種存儲引擎,使得企業可以根據業務特點選擇最適合的存儲引擎,最大化性能效益。
· 分布式事務:支持多種數據模態下的分布式事務,同時提供多種隔離級別,既兼容樂觀事務和悲觀事務,確保事務在分布式環境下的完整性和一致性。
· 多租戶支持:原生支持多租戶,服務隔離防止數據泄露與干擾。支持請求級動態流控,靈活分配資源。支持混合存儲與按租戶和資源組隔離,確保資源的合理分配和高效利用。
· 開源開放:完整開放數據庫源代碼,提供豐富的多語言SDK及詳盡的開發文檔,滿足用戶在不同應用開發場景中的需求。
DingoDB場景應用:
1)基于RAG技術的場景的應用
DingoDB覆蓋關系型、文檔、向量和鍵值等多種數據模型的特點,使得它在基于RAG技術(Retrieval Augmented Generation)的場景中得到廣泛應用,例如企業知識管理場景。該場景的目標是從海量的技術文檔中找到與問題相關的片段并生成回答。這個過程需要結合大語言模型(LLM,large language model)和多模數據庫的能力。其中,LLM因為無法直接生成與技術內容相關的答案,只起到輔助性作用,效果好壞是由執行檢索任務的多模數據庫決定。在該場景,DingoDB提供兩種不同的檢索方式來召回相關文本數據,包括向量檢索和關鍵詞檢索。向量檢索依賴于DingoDB的向量數據庫功能,而關鍵詞檢索則依賴于其文檔數據庫功能。這種多模檢索方式能有效提高生成內容的準確性、連貫性和信息量,確保用戶獲得更高質量的響應。
使用DingoDB的企業知識管理場景的流程如下,分為下列三個步驟:

基于DingoDB多模向量數據庫的RAG構建流程
· Step1.文檔解析入庫
將企業的技術文檔上傳,通過Text Splitter模塊進行分割,生成多個文本塊(段落、句子等)。對文本塊進行標注提取,生成標題或標簽,便于檢索。對于包含表格的數據,生成描述性句子,確保表格內容能被準確理解和檢索。通過Embedding模型將文本塊向量化,生成用于向量檢索的表示,存入DingoDB。
· Step2. 基于DingoDB的向量檢索和關鍵詞檢索
用戶提出問題后,通過Embedding模型生成向量表示,在DingoDB中進行向量檢索,找到最相關的多個文本塊。關鍵詞檢索是為解決用戶口頭表達與專業文檔不匹配而造成的檢索不準確問題。關鍵詞檢索通過LLM提取關鍵詞,輸入DingoDB進行關鍵詞匹配(match召回),找到相關文本塊。DingoDB支持標量向量聯合檢索,結合關鍵詞匹配和向量召回進行混合召回,返回TopN相關文本塊。
· Step3. 答案生成
將檢索到的TopN相關文本塊通過預定義的Prompt模板傳遞給LLM,由LLM生成詳細且準確的答案。
在大語言模型時代的RAG典型應用企業知識管理場景,DingoDB可以高效地處理和檢索海量技術文檔,提供精準、及時的答案,支持企業內部的信息查詢和知識管理。依托該場景,DingoDB在多家央企客戶得到應用。
2)分布式KV場景的應用
在金融行業的實時風控、反欺詐、精準營銷、產品推薦等需要亞秒級決策的場景,DingoDB以其高性能和低延遲的特點,輕松駕馭亞秒級大規模數據處理與分析,為實時決策提供堅實的服務支撐。DingoDB采用先進的數據復制與故障轉移機制,并通過持久化技術確保數據安全可靠。同時,能根據業務需求靈活擴展計算與存儲資源,從容應對數據處理需求的持續增長。DingoDB具備滿足信創標準的高頻Serving計算能力,使企業在面對實時數據處理和決策時能夠快速響應。
3)其他場景的應用
除上述兩類場景,DingoDB還在多種豐富場景應用中展現了其強大的功能和多樣化的能力。

DingoDB多模向量數據庫支撐多種業務場景
● Vector Ocean數據支撐:Vector Ocean是九章云極DataCanvas對數據架構的一種全新設想。DingoDB在Vector Ocean中提供結構化和非結構化數據的存儲,支持多模態數據分析能力和科學計算能力。其強大的數據處理能力使得企業能夠在一個平臺上處理多種數據類型,簡化數據管理流程。
● 大模型記憶體:DingoDB輔助大語言模型生成前的Prompt管理,提供高效并發的搜索答案能力。這在大語言模型時代尤為重要,能夠為AI模型提供可靠的數據支持,提升模型生成答案的準確性和效率。
● 結構化與非結構化數據的融合分析:DingoDB支持音頻、視頻、文本等非結構化數據的向量化存儲,提供結構化與向量數據的聯合分析和計算能力。這種融合分析能力使得企業能夠從多維度進行數據分析,獲取更全面的洞察。
總結
DingoDB作為一款多模數據庫,在企業知識管理、實時決策、數據支撐、大語言模型應用以及多類型數據檢索和分析等方面展現出強大的應用能力,獲得了廣泛的認可和好評。DingoDB不僅可以充當海量數據的存儲中心,還是推動數據驅動決策的核心動力。在數字化轉型的浪潮中,DingoDB成為傳統業務與前沿技術的重要橋梁。無論是云計算的高效處理、大數據的深度分析、人工智能的智能決策,還是物聯網的實時數據交換,DingoDB都能提供堅實的數據分析和處理支撐。