- 美国机房通常承载国际流量,攻击面更广,易遭大规模攻击。
- 上游链路带宽大但峰值攻击能迅速耗尽资源,需提前规划。
- 法规与滞后响应差异要求运维具备自动化防护策略。
- 多租户VPS环境会因邻居噪声放大影响,需要隔离策略。
- 与域名解析、CDN配合能显著降低直连压力,形成多层防护。
- 启用BGP Anycast或与上游提供商协商黑洞过滤(null route)。
- 设置最大允许带宽阈值,例如对公共服务端口阈值:500 Mbps为警戒线。
- 在路由器上配置ACL与速率限制(rate-limit),如对UDP flood限制为200k pps。
- 使用上游清洗(scrubbing)服务,选择清洗容量>=预估峰值2倍。
- 配置RTBH和社区属性,能在上游直接丢弃恶意流量,避免击穿机房链路。
- 调整内核参数:net.ipv4.tcp_syncookies=1,net.ipv4.tcp_max_syn_backlog=4096。
- 连接追踪优化:nf_conntrack_max 设置为 524288 以应对高并发短连接。
- 使用iptables/nftables做速率与状态跟踪示例规则(见后文配置样例)。
- 部署TCP堆栈优化:tcp_fin_timeout=30,keepalive_time=120。
- 安装并配置fail2ban 与 mod_evasive(Web服务),限制暴力请求。
- 使用Anycast CDN将访问分散到多个点,减轻单点带宽压力。
- WAF拦截常见应用层攻击(HTTP Flood/Slowloris),配置规则集并启用速率限制。
- 将权威DNS和负载均衡器配置为多层解析(GeoDNS),遇到攻击时快速切换至清洗节点。
- 对关键域名设置较短TTL以便在攻击时快速切换IP或启用代理。
- 在CDN端设置基于行为的Challenge(如JS挑战)以过滤机器人流量。
- 建议设置多级告警:流量(Mbps)、包速率(pps)、连接数三个维度同时监控。
- 典型阈值示例(可根据带宽调整)见下表,表中阈值用于自动触发策略。
- 使用NetFlow/sFlow采样与IDS日志联动,提高攻击识别精度。
- 自动化响应:阈值触发后自动下发ACL或切换至CDN清洗,减少人工延迟。
- 记录并归档攻击流量样本,用于后续封堵规则与法律取证。
| 指标 | 触发值 | 动作 |
|---|---|---|
| 流量峰值 | >500 Mbps | 启用上游清洗 |
| 包速率 | >200k pps | 速率限制/黑洞 |
| 短时连接数 | >100k | 调整conntrack或启用CDN |
- 背景:某电商美国机房遭遇UDP/UDP反射混合流量攻击,峰值约420 Mbps,包速率约150k pps。
- 机房资源:8核CPU、32GB内存、1 Gbps物理上行,BGP Anycast已就绪,上游清洗容量10 Gbps。
- 处理流程:监测触发后1分钟内自动切换至上游清洗,CDN拦截应用层请求,主机启用速率限制。
- 结果:网络流量经清洗后到达机房的流量降至30 Mbps内,服务可用率从攻击前的99.2%恢复至99.99%。
- 主机示例配置(节选):sysctl -w net.ipv4.tcp_syncookies=1; nft add rule inet filter input udp dport 53 limit rate 200/second drop。
- 预先与上游和CDN厂商谈清洗时延与费用,做到SLA层面保障。
- 在美国机房部署Anycast+CDN+WAF形成多层防护,降低单机负担。
- 定期进行压力演练(演练流量建议为预计峰值的1.5倍)。
- 保留日志与样本,便于追踪源头与优化规则。
- 持续更新防护策略,结合业务特性调整阈值与规则。