Data Connection

定義

許多基於大型語言模型而執行的應用常會用到模型數據集中沒有的數據。而針對這類需求，Langchain 提供了許多工具使用戶可以從各類數據源中加載新的數據、轉換數據、儲存數據、訪問數據。

※大型語言模型不可能在訓練階段就涵蓋所有數據，且每時每刻都有新的數據產生。

Data_Connection

將文本數據從原始數據(Source)中提取出來，改成 langchain 認識的語言，總而言之就是將非結構化的文本數據加載到結構化的字符串中。

舉例

結構化文件: 加載 CSV 文件

from langchain.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path='./data/file.csv')
data = loader.load()

將加載好的文檔進行轉換，從而更好的適應各種場景。舉例，將文檔拆分成較小的塊，以避免大型語言模型對於輸入長度的限制。
Langchain 中提供的文檔轉換器可以提供拆分、合併、過濾等功能。

將文本拆分為小、具語意意義的塊。
將小塊組合成大塊，直到達到一定規模。
將達到一定規模的塊作為獨立的文本片段，然後創建新的文本塊，此外，為了維持塊間的連貫性，兩個文本塊之間會有重疊的部分。
以圖例而言，Document 由一塊變為三塊。

詞嵌入是將詞語數值化表達的方式，通常會將詞映射到高維的向量中，使電腦藉由高維的數字化表達得以理解自然語言的語意，接近的語意=接近的向量距離。

用於儲存嵌入的數據向量。

根據輸入的非結構化查詢語句返回對應文檔的接口(一系列 Documents 對象)。
不同於向量數據庫，向量數據庫可以視為一種具備儲存功能的檢索器，但檢索器不一定需要具備儲存的功能。