调用大模型 API 时,你有没有遇到过这些问题:某个模型突然限流、响应变慢、甚至直接挂掉?或者 不同模型价格差异大,想根据任务复杂度选择合适的模型?如果你的服务只依赖单一模型,这些问题就是单点故障。解决方案很简单:多模型 + 负载均衡。这篇就聊用 Go 实现 AI 多模型负载均衡的思路和代码。


假设你的应用只调用 OpenAI 的 GPT-4,某天 OpenAI 服务波动,你的应用就跟着「躺平」。更现实的问题是: