灵眸文档
用户指南

稳定性架构

灵眸 AI 如何通过多源路由、自动故障转移与分级服务,保障 API 调用的可用性与一致性。

我们把"稳定"当作产品的第一特性。这一页解释我们怎么做到这件事,以及当问题发生时会发生什么。

为什么稳定性这么难?

直连官方 API 的开发者,时不时会遇到:

  • 区域性限流 / 不可用
  • 单一支付通道或账号被封
  • 模型版本切换期间的兼容性问题
  • 高峰时段排队、首 token 延迟飙升

中转服务如果只是简单代理,这些问题会原样传递给用户,甚至更糟。我们的做法是把"上游不稳定"作为前提来设计系统,而不是当成异常。

我们的多源路由架构

每一次 API 调用,请求会按以下路径处理:

核心机制:

  • 多上游池:同一模型背后接入多条独立通道,避免单点故障
  • 健康度探测:持续监测各上游的成功率、首 token 延迟、限流率,不健康的通道会被自动降权或剔除
  • 自动故障转移:当主通道返回 5xx / 限流 / 超时,请求会在毫秒级切换到备用通道,用户侧通常无感知
  • 流式中断重连:流式响应中途断开时,对支持的协议会尝试续传

服务等级(SLA)

我们对外承诺以"实际能交付"为底线,不做空头承诺。

档位可用性目标月度报告商务合同
经济档尽力而为不适用
标准档99.5%不适用
企业档99.5%提供可定制更高 SLA 与赔付条款

经济档面向追求性价比、可容忍偶发波动的个人开发者;如果你的业务对稳定性有硬性要求,请选择企业档或与我们商务对接定制方案。

可用性的计算口径:

  • 仅统计"灵眸侧"的请求成功率,不包括用户侧网络问题、参数错误、上游模型本身的内容拒绝
  • 单次故障持续时间 < 60 秒不计入
  • 月度报告含分模型、分时段的成功率与 P95 延迟

出现故障时会发生什么

短时抖动(< 5 分钟)

  • 路由层自动切换上游,不发公告
  • 状态页会留下事件记录

单一上游中断(< 1 小时)

  • 路由层完成切换;如对部分用户/模型可见,会在状态页发布
  • 标准档和企业档用户邮件通知

区域性或多上游同时受影响

  • 状态页置顶事件,提供阶段性更新
  • 企业档用户邮件实时同步进展
  • 事件结束后 48 小时内发布事后报告(Postmortem)

我们不做的事

为了不误导用户,以下事情我们目前不承诺

  • 零延迟无感切换:故障转移会引入毫秒级到秒级的额外延迟,不会做到完全无感
  • 跨模型兼容补偿:如果上游模型本身下线(例如某模型版本被官方停用),我们会公告而非偷偷切换到不同模型
  • 无限重试:失败请求会按策略重试有限次数,避免你为非预期的重复调用付费

常见问题

为什么我偶尔还是会遇到失败?

任何系统都不存在 100% 可用。我们的目标是把整体可用性做到 99.5% 以上、且失败时能快速恢复。如果你遇到持续失败(例如同一类请求 5 分钟内多次失败),请联系客服并附上请求 ID,我们会优先排查。

企业档如何申请?

参见 企业方案 页面,或直接联系商务:

On this page