在 AI 应用的生命周期中,向量数据库(Vector DB)的迁移往往比传统数据库更令人头疼。与关系型数据库只需导出 SQL 或同步 Binlog 不同,向量数据具有极强的“模型依赖性”。简单来说,向量是文本在特定多维空间中的坐标,而这个空间是由 Embedding 模型定义的。一旦更换了模型(例如从 OpenAI 的 text-embedding-ada-002 迁移到 DeepSeek 的模型),所有旧向量的坐标系就彻底失效了。

面对百万级甚至千万级的数据量,如何在不中断业务的前提下完成 Embedding 数据的平滑重构?这不仅是一个数据搬运问题,更是一个涉及并发控制、内存管理与系统可观测性的综合工程挑战。

向量迁移的核心难点在于“重索引(Re-indexing)”。这意味着每一条存量数据都需要重新经过 Embedding 模型计算,再重新写入新的向量库。在这个过程中,瓶颈通常呈现为三个维度: