infra-bench

Open infrastructure benchmark for AI agents.

infra-bench compares AI agents on reproducible infrastructure repair and operations tasks.

Dataset

Kubernetes-first infrastructure benchmark scenarios for AI agents.

Easy

Medium

Hard

Latest Run Pass Rate

Select a model to inspect its task results.

gpt-5.5 medium

OpenAI

84.5%

pass rate(49/58)

Pass Rate By Difficulty

Easy

21/22

Medium

20/23

Hard

8/13

Pass Rate By Category

Task Duration Distribution

Task Details

Open a task to inspect logs and artifacts.


add-maintenance-toleration	51s	migration-maintenance	Easy
add-rbac-list-verb	42s	access-and-isolation	Easy
allow-api-network-policy	1m	access-and-isolation	Easy
clear-upgrade-blocking-apis	1m	platform-apis-controllers	Medium
complete-namespace-restore-preserving-state	3m	migration-maintenance	Hard
complete-node-pool-drain-migration	3m	migration-maintenance	Hard
complete-staging-namespace-restore	3m	migration-maintenance	Medium
coordinate-secret-rotation-rollout	2m	configuration-secrets	Hard
debug-service-endpoints	33s	service-connectivity	Easy
fix-config-key-reference	34s	configuration-secrets	Easy
fix-controller-service-selector	44s	platform-apis-controllers	Easy
fix-crashloop-env-var	1m	workload-health	Easy
fix-hpa-scale-target	51s	scheduling-capacity	Easy
fix-job-command-argument	51s	workload-health	Easy
fix-node-selector-mismatch	44s	scheduling-capacity	Easy
fix-pvc-mount-claim	47s	storage-state	Easy
fix-quirky-health-endpoint	1m	workload-health	Easy
fix-restricted-security-context	37s	access-and-isolation	Easy
fix-service-dns-name	1m	service-connectivity	Easy
fix-simple-cr-field	43s	platform-apis-controllers	Easy
harden-payments-stack-without-breaking-runtime	1m	access-and-isolation	Hard
place-inference-canary-on-gpu-node	1m	scheduling-capacity	Medium
prepare-node-drain-with-pdb	2m	migration-maintenance	Medium
reconnect-checkout-worker-queue	1m	service-connectivity	Medium
reconnect-frontend-api	43s	service-connectivity	Easy
recover-api-rollout-after-config-change	1m	workload-health	Medium
recover-nightly-report-cronjob	3m	workload-health	Medium
recover-web-rollout-after-bad-release	2m	workload-health	Hard
repair-cache-volume-binding	1m	storage-state	Medium
repair-cross-namespace-service-discovery	2m	service-connectivity	Medium
repair-ingress-backend-port	1m	service-connectivity	Easy
repair-payment-tenant-network-boundary	2m	access-and-isolation	Hard
repair-plugin-driven-app-startup	2m	workload-health	Hard
repair-readiness-probe-path	1m	workload-health	Easy
repair-report-custom-resource-status	2m	platform-apis-controllers	Medium
repair-report-operator-finalizer-reconcile	3m	platform-apis-controllers	Hard
repair-restricted-multi-container-pod	43s	access-and-isolation	Medium
repair-secret-projection-reload	2m	configuration-secrets	Medium
repair-sidecar-generated-config	1m	workload-health	Medium
repair-statefulset-headless-service-identity	1m	storage-state	Medium
repair-worker-hpa-scaling-inputs	2m	scheduling-capacity	Medium
replace-deprecated-ingress-api	2m	platform-apis-controllers	Easy
restore-alert-signal-after-telemetry-split	3m	workload-health	Hard
restore-checkout-network-path	1m	access-and-isolation	Medium
restore-grafana-logs-datasource	2m	workload-health	Medium
restore-metrics-controller-after-values-change	1m	platform-apis-controllers	Medium
restore-missing-configmap	40s	migration-maintenance	Easy
restore-multi-hop-checkout-route	1m	service-connectivity	Hard
restore-order-pipeline-after-queue-migration	2m	service-connectivity	Hard
restore-portal-ingress-tls-route	1m	service-connectivity	Medium
restore-stateful-cache-identity	3m	storage-state	Hard
restore-worker-config-access	1m	access-and-isolation	Medium
rightsize-cpu-request	53s	scheduling-capacity	Easy
schedule-reporting-api-on-labeled-node	1m	scheduling-capacity	Medium
stabilize-checkout-autoscaling-under-load	2m	scheduling-capacity	Hard
stabilize-cpu-throttled-worker	2m	scheduling-capacity	Medium
target-gpu-node-label	1m	scheduling-capacity	Easy
trace-service-route-regression	48s	service-connectivity	Medium