66% „fast richtig, aber nicht ganz“ — die #1 Entwickler-Frustration 2025 (SO)

Deine KI schreibt den Code. Das Eine, was sie nicht kann, bleibt deins: zu sagen, was richtig heißt.

plumb zeigt, dass dein Code tut, was du gesagt hast — genau dort, wo sich „gesagt“ präzise fassen lässt. Ein unabhängiges Orakel leitet die Absicht aus Signatur und Docstring ab, fragt einmal, und friert das Urteil als reproduzierbaren Nachweis ein.

agetra radar · die Sicht des Release-Verantwortlichen futur · preview Phase 2, der Warteliste vorbehalten
Sorgfalts-Abdeckung 58% der kritischen Logik im Prüfumfang
conforming hält 58% diverging widerlegt 3% blind ungeprüft 31% waived begründet 8%

Unter umgekehrter Beweislast ist „unbekannt“ deine schwächste Position. Es ist derselbe Nachweis, den die CLI oben erzeugt — verdichtet für die, die fürs Release geradestehen.

Der Mechanismus · nicht „KI prüft KI“

Das Orakel liest deine Absicht, nie deinen Code. Es fragt einmal.

2026 ist der erste Leser deines Codes ein Agent — und das eine, das er nicht darf, ist entscheiden, was korrekt heißt. Diese Linie bleibt menschlich. plumb ist, wo sie gezogen wird.

01
liest die Absicht

Aus Signatur + Docstring — das Orakel sieht den Rumpf nie. Dein Code bleibt lokal.

02
fragt einmal

Kein stiller Default. Wo deine Absicht Spielraum lässt, legt es die Annahme offen — Einigkeit der Modelle ist nicht Korrektheit — und du ratifizierst sie einmal. Die eine Entscheidung, die es dir nicht abnimmt.

03
dann ist es CPU

Nach dem Ratifizieren ist das Urteil deterministisch, wiederholbar — kein Modell mehr in der Schleife.

Der Nachweis · was jede Prüfung hinterlässt

Ein Sorgfalts-Nachweis, darauf ausgelegt, zweifach signiert zu werden — nativ auf jedem Export.

Er landet in .plumb/, neben deinem Code — nur ein Digest quert je die Leitung. Sorgfalt, die sich später zeigen lässt, nicht nur behaupten.

Was er tun sollte futur · preview illustratives Beispiel

“Dosis (mg) = Gewicht_kg × mg_pro_kg, begrenzt auf [0, Höchst-Einzeldosis]”

ratifiziert von m.weber@mediapp · Qualifikation: medizinische Sicherheitsprüfung · v3
▲ gehalten an gemessen an ▼
Notar der Unabhängigkeit

Der Maßstab wurde ohne Sicht auf den Code abgeleitet — 3 unabhängige Modelle, eingefroren.

digest a1b2c3 · DSSE
Zeuge der Sorgfalt

Wir haben Code 9f2c… vor dem Release v2.4 an diesem Maßstab gemessen.

signed · OIDC · 14:02 UTC
Die Grenze

Wo der Anspruch beginnt und endet.

ist
eine unabhängige Verifikations-Schicht — zeigt, dass Code tut, was du gesagt hast, auf reiner Logik
ist
ein Sorgfalts-Nachweis — zeitgleich, zurechenbar, reproduzierbar
ist nicht
noch eine LLM-Meinung — „KI prüft KI“
ist nicht
ein Bug-Finder oder ein Korrektheits-Versprechen
ist nicht
ein Urteil darüber, ob das Gesagte richtig ist — das bleibt deins
Für den Handwerker

Auf die Warteliste

Wir sagen Bescheid, wenn das Senklot ruhig hängt. Nur E-Mail.

Für die, die fürs Release geradestehen

Ich habe einen Fall

Rolle · Sektor · Codebase-Sprache · reguliert · Dringlichkeit. Kein Freitext.

Lead-EngArchitektCISOAuditor

Ab dem 9. Dezember 2026 behandelt die EU-Produkthaftungsrichtlinie Software wie ein Produkt — bei komplexen Systemen kann die Beweislast zum Hersteller wandern. „Wir waren sorgfältig“ muss dann gezeigt werden, nicht nur behauptet.