Experimentation & Conversion Intelligence
Schluss mit Bauchgefühl und Client-Side-Flickering. Wir bauen die serverseitige A/B-Test-Architektur und das Product-Analytics-Setup, mit denen Ihre Conversion Rate steigt, ohne Core Web Vitals zu opfern.
- PostHog
- GrowthBook
- Statsig
- Kameleoon (Server-Side)
- Vercel Edge / Cloudflare Workers
- BigQuery (Frankfurt)
- GA4 Exploration
Google Optimize ist tot. Client-Side-Test-Frameworks injizieren Varianten nach dem ersten Paint und zerstören damit Core Web Vitals. Adblocker filtern Exposures, ITP killt das Bucketing-Cookie. Wer 2026 noch im Browser zuweist, testet gegen Rauschen.
Wir setzen die Assignment-Logik auf den Edge-Layer. Server-Side Bucketing vor Render, Exposure-Logging in BigQuery, Bayesian oder Frequentist Signifikanz, je nach Fragestellung. Variante kommt fertig aus dem Edge-Handler, kein FOUC, kein CLS-Sprung.
kaputt
Client-Side
- Browser lädt Control
- A/B-Snippet im
<head> - DOM-Mutation nach First Paint
- FOUC + CLS-Sprung
- Adblocker filtert ~25 % Exposures
- ITP killt 7-Tage-Cookie
- Bucketing zerfällt nach 1 Woche
resilient
Datascale (Edge)
- Request trifft Edge-Handler
- Hashed User-ID → Bucket
- Variant-HTML direkt geliefert
- Zero CWV-Impact
- Exposure-Event → PostHog + BigQuery
- Stable Bucketing (Server-State)
- GrowthBook / Statsig Backend
Architektur: Server-Side Assignment am Edge vor dem ersten Paint. Bucket-Cookie, Exposure-Event und Variant-Rendering passieren atomar, bevor der Browser das HTML erhält.
Was wir bauen
Die meisten Experimentation-Programme scheitern nicht an schwachen Hypothesen. Sie scheitern an Setup-Lecks. Falsch attribuierte Exposures, gefiltertes Bucketing, vorzeitig gestoppte Tests, dieselben Fehler wiederholen sich in jedem CRO-Audit, das wir machen.
Experimentation & Conversion Intelligence schließt diese Lecks an der Architektur, nicht am Auswertungs-Excel. Edge-basierte Assignment-Logik. Exposure-Logging mit PII-Trennung. Bayesian und Frequentist nebeneinander, mit dokumentierter Methodenwahl.
Der datascale-Unterschied: Wir sind keine CRO-Agentur, die Buttons rot färbt. Wir sind Engineers, die die Pipeline bauen, in der Buttons-Färben überhaupt erst messbar wird.
Für wen?
E-Commerce mit Headless-Stack
Next.js, Astro, Remix oder SST in Production. Performance ist KPI, Client-Side-Test-Tools sind keine Option, weil sie die Lighthouse-Scores ruinieren, die Ihre SEO trägt.
B2B SaaS mit Pricing- und Onboarding-Tests
Trial-Funnel, Pricing-Page-Varianten und Aktivierungs-Flows brauchen statistisch valide Tests, nicht Heatmap-Bauchgefühl. Bucket-Konsistenz über Login-Status hinweg ist Pflicht.
Paid-Media-Teams mit Landingpage-Tests
Sie schalten Ads und brauchen Landingpage-Varianten, die statistisch sauber gegeneinander laufen. Pro Channel separat ausgewertet, mit korrekter Multi-Variant-Korrektur.
Post-Relaunch-Teams
Nach dem Relaunch beobachten Sie Regressions oder unerwartete Drop-offs. Wir bauen das Switchback-Testing-Setup, mit dem Sie A/B gegen den Pre-Relaunch-State validieren können.
Kontinuierlicher Loop
- 01
Data Audits
Conversion-Funnel auf Datenqualität geprüft.
- Event-Validierung gegen Measurement Blueprint
- Funnel-Vollständigkeit Cross-Device
- Bot- und Sampling-Korrektur
Tools: PostHog, GA4 Exploration, BigQuery
- 02
Hypothesis Engineering
Priorisierte Hypothesen aus der Funnel-Analyse.
- ICE-Score (Impact, Confidence, Ease)
- MDE und benötigte Laufzeit vorab gerechnet
- Methodenwahl: Bayesian oder Frequentist
Pro Test: Hypothesen-Dokument im Notion-Backlog
- 03
Edge Deployment
Server-Side Assignment vor dem ersten Paint.
- Middleware-Handler in Next.js, Vercel Edge oder Cloudflare Workers
- Hashed Bucketing, persistent über Sessions
- Exposure-Event parallel an Backend und BigQuery
Stack: GrowthBook, Statsig, Kameleoon SS
- 04
Bayesian / Frequentist Analysis
Signifikanz mit dokumentierter Methodenwahl.
- SRM-Check vor Auswertung (Sample Ratio Mismatch)
- Konfidenzintervall + Effektgröße, kein nackter p-Wert
- Eintrag in Learnings Library, Backlog-Reprio
Output: Test-Report mit Handlungsempfehlung
Der Prozess: Kontinuierliche Validierung statt einmaliger Relaunch-Lotterie. Schritt 04 schreibt in die Learnings Library und priorisiert das nächste Backlog, das wiederum Schritt 01 mit Daten füttert.
Deliverables
Je nach Engagement-Typ variiert der Umfang. Vollständiges Engagement enthält:
Conversion-Daten-Audit (Audit Sprint)
- Funnel-Analyse Cross-Device mit Drop-off-Quoten pro Schritt
- Priorisiertes Hypothesen-Backlog (ICE-Score, MDE, benötigte Laufzeit)
- Bot- und Sampling-Korrektur, Exposure-Validierung
- Audit-Report mit konkreten Test-Empfehlungen für die nächsten 90 Tage
Edge-Architektur (Build Sprint)
- Middleware-Handler (Next.js / Vercel Edge / Cloudflare Workers)
- Flag-Service-Integration (GrowthBook EU-self-hosted oder Statsig)
- Exposure-Event-Pipeline an Backend und BigQuery
- Bucket-Konsistenz Cross-Domain, Pre- und Post-Login
Test-Betrieb (Managed Evolution)
- Test-Setup mit dokumentierter Laufzeit und Stopp-Kriterien
- SRM-Monitoring und Sequential-Testing-Spending
- Auswertung mit Konfidenzintervall und Effektgröße
- Dokumentation in der Learnings Library
Reporting und Übergabe
- Monatlicher Test-Performance-Report
- Quartalsweise Hypothesen-Reprio auf Basis der Learnings
- Handover-Dokumentation für internes Team
- 30 Tage Post-Launch-Support
Engineering Scope
Drei parallele Werkstätten, die zusammen ein vollständiges Experimentation-Setup ergeben.
Analytics & Tracking
- Event-basiertes Measurement-Setup (PostHog, GA4)
- Funnel-Tracking Cross-Device, Cross-Domain
- Exposure-Logging in BigQuery (Frankfurt)
- Consent-Mode-V2-Integration für Exposure-PII-Trennung
Test Engineering
- Edge-basiertes Assignment-Setup (Vercel Edge, Cloudflare Workers, Next.js Middleware)
- Feature-Flag-Service über Statsig oder GrowthBook (EU-self-hosted)
- Bucket-Persistenz über Session- und Login-Grenzen
- Kameleoon Server-Side oder VWO Server-Mode für Enterprise-Verträge
Data Science
- Kohortenanalysen nach Quelle, Device, Segment, LTV-Stratum
- Signifikanz-Reporting (Bayesian + Frequentist nebeneinander)
- SRM-Check, Sequential-Testing-Spending, Multi-Variant-Korrektur
- BigQuery-ML-Modelle für Pre-Test-Stratifikation
Engagement-Tiefen
Drei Tiefen. Klare Scopes.
Kein Retainer ohne Bedarf.
Audit Sprint
Wir prüfen was falsch läuft. Report + priorisierter Handlungsplan.
zzgl. gesetzlicher MwSt. · Festpreis für klar begrenzten Scope
Eingeschlossen im Festpreis
- 1 Domain
- 1 Analytics Property
- 1 Tag Manager / Tracking Setup
- 1 CMP
- bis zu 5 Kern-Conversions
- 10 Arbeitstage
- PDF-Report + 90-Min Walkthrough
Lieferumfang
- Vollständige Analyse des bestehenden Setups
- Priorisierter Report mit konkreten Handlungsempfehlungen
- Walkthrough-Call mit dem Team (90 Min)
- Kein Folgevertrag, keine Retainer-Verpflichtung
Wann sinnvoll
Wenn das Setup läuft, aber die Zahlen intern angezweifelt werden. Oder wenn nach einer UA→GA4-Migration unklar ist, was davon belastbar geblieben ist.
Für E-Commerce, mehrere Domains oder App + Web: Audit Sprint Plus, 3.900 € netto Festpreis. Bonus: 50 % des Audit Sprint werden auf einen Build Sprint angerechnet, wenn innerhalb von 30 Tagen beauftragt.
Audit Sprint anfragenBuild Sprint
Neuaufbau oder Restrukturierung eines Tracking-Setups.
zzgl. gesetzlicher MwSt. · finaler Festpreis nach Scope-Definition
Typischer Scope
- 1 Domain (Multi-Domain auf Anfrage)
- 1 Analytics-Property (GA4 oder Piwik PRO)
- Server-Side Container (Stape oder eigene Cloud)
- 1 CMP mit Consent Mode V2
- bis zu 15 Events / Conversions
- 4–8 Wochen Umsetzung
- Blueprint, QA-Sign-off, Handover-Doku
Lieferumfang
- Measurement Blueprint für das Dev-Team
- GTM + Server-Side Setup inkl. CMP-Integration
- Vollständige QA gegen Blueprint mit Sign-off
- Handover-Dokumentation + 30 Tage Post-Launch Support
Wann sinnvoll
Wenn Analytics strukturell falsch aufgebaut ist und Reparieren im laufenden Betrieb mehr kostet als ein sauberer Neuaufbau.
Managed Evolution
Laufende Partnerschaft. Analytics als Produkt, nicht als Einmal-Projekt.
zzgl. gesetzlicher MwSt. · monatlich kündbar nach Mindestlaufzeit
Im Monatspreis enthalten
- bis zu 3 Domains in laufender Betreuung
- Wartung von GA4 + Server-Side Stack
- monatliche Roadmap + Sprint-Planung
- QA bei jedem Release-Deploy
- Slack-Kanal, < 4 h Response (Mo–Fr)
- monatlicher Report + Executive-Summary
- 3 Monate Mindestlaufzeit, dann monatlich
Lieferumfang
- Monatliche Entwicklung + Feature-Rollouts
- Laufende QA bei jedem Deploy
- Executive-Reports + Dashboard-Evolution
- Slack-Support mit garantierten Response-Zeiten
Wann sinnvoll
Wenn Analytics laufend mitwachsen muss. Neue Kampagnen, neue Produkte, neue Datenquellen, und der Aufbau eines internen Teams kommt nicht in Frage.
Alle Preise netto, zzgl. gesetzlicher MwSt. Für Unternehmen in Deutschland, Österreich und der Schweiz.
-
Warum ist Server-Side A/B-Testing 2026 Pflicht?
Drei Faktoren machen klassische Client-Side-Tests untauglich. Erstens: ITP 2.3 in Safari kappt clientseitige Cookies auf 7 Tage Lebensdauer, ein Bucketing-State, der nach einer Woche zerfällt, ruiniert jeden Test. Zweitens: ML-basierte Adblocker filtern 25 bis 40 Prozent aller Exposure-Events, die Power-Analyse arbeitet dann gegen unsichtbares Sampling. Drittens: Client-Side-Varianten erzwingen einen FOUC, bevor das Snippet die Variante setzt, und zerstören CLS und LCP messbar in den Core Web Vitals. Server-Side Assignment am Edge umgeht alle drei: das Bucketing passiert auf dem Server, die Exposure wird im Backend geloggt, der Browser sieht die finale Variante ohne Flicker.
-
Bayesian vs. Frequentist: Welches Verfahren nutzen Sie?
Beide, je nach Fragestellung. Frequentist (Welch-t-Test, Mann-Whitney-U) liefert klassische p-Werte und MDE-Power-Analysen, gut für regulatorisch dokumentierte Tests und harte Go-/No-Go-Entscheidungen vor Launch. Bayesian (über GrowthBook oder Statsig nativ) gibt eine direkte Wahrscheinlichkeitsaussage ("Variant B ist mit 94 % Wahrscheinlichkeit besser") und erlaubt Sequential Testing ohne Alpha-Inflation, sinnvoll wenn der Business-Case asymmetrisch ist und ein Peek erlaubt sein muss. Wir entscheiden den Ansatz im Hypothesen-Kickoff, nicht später.
-
Wie integrieren Sie Testing in einen Next.js / Headless-Stack?
Die Assignment-Logik läuft in Next.js Middleware oder einem Cloudflare Worker. Konkret: der Request trifft den Edge-Layer, wir hashen die User-ID (anonym oder Consent-bedingt PII) gegen die Test-Definition, schreiben das Bucket-Cookie und routen zur entsprechenden Variante. Das Exposure-Event geht parallel an PostHog oder GrowthBook und in BigQuery für die Auswertung. Die Variant-Code-Implementierung verbleibt bei Ihrem Dev-Team, wir liefern Edge-Handler, Flag-Service und Exposure-SDK-Wiring. Funktioniert mit Vercel, Cloudflare Pages, Netlify Edge und SST.
-
Wie verhindern Sie Client-Side-Flickering bei Tests?
Durch Architektur, nicht durch Trickserei. Client-Side-Test-Frameworks wie Google Optimize (eingestellt 2023), VWO Visual Editor oder Optimizely Web injizieren CSS und DOM-Mutationen erst nach dem ersten Paint, das erzeugt Flash of Unstyled Content und einen messbaren CLS-Sprung. Bei Server-Side Assignment am Edge erhält der Browser direkt das HTML der zugewiesenen Variante. Kein Paint-Cycle, kein Mutation Observer, kein Layout-Shift. Vor dem Rollout dokumentieren wir den CLS-Delta zwischen Control und Variante und stoppen den Test, wenn die Variante Performance-Regression zeigt.
-
Ab wann hat eine Website genug Traffic für A/B-Tests?
Faustregel: mindestens 1.000 Conversions pro Testvariante in 4 Wochen. Darunter dauert der Test länger als die Hypothese überlebt oder liefert keine valide Signifikanz. Bei niedrigerem Traffic nutzen wir qualitative Methoden, sogenannte Obvious Wins aus dem Conversion-Audit und Switchback-Designs auf Marketing-Channel-Ebene. Wir empfehlen keine Tests, die strukturell nicht messbar sind, das ist Verbrennen von Budget.
-
Was ist eine Learnings Library?
Eine dokumentierte Sammlung jedes Tests, gewonnen und verloren. Jeder Eintrag enthält: Hypothese, Testdesign, MDE, Laufzeit, Ergebnis mit Konfidenzintervall, abgeleitete Lerneffekte. Verhindert, dass dieselben Tests doppelt laufen, beschleunigt die nächste Hypothese um Wochen. Wir hosten die Library in Notion oder Linear, Sie behalten das Eigentum.
-
Wie lange dauert ein A/B-Test?
Mindestens 2 Wochen, um Wochentags- und Wochenend-Effekte abzudecken. Typisch 3 bis 6 Wochen bis zur Signifikanz, abhängig von Baseline-Conversion-Rate, MDE und Traffic-Volumen. Wir stoppen keinen Test früh, weil ein Zwischenergebnis gut aussieht. Peeking ohne Alpha-Spending zerstört die statistische Aussage, das ist einer der häufigsten Fehler in CRO-Projekten.
-
Was kostet ein Experimentation-Setup?
Audit Sprint zum Festpreis 2.400 € netto, 10 Arbeitstage Lieferung. Enthält Conversion-Daten-Audit, Funnel-Lecks priorisiert, Test-Roadmap. Build Sprint für die Edge-Architektur (Middleware-Handler, Flag-Service, Exposure-Pipeline) ab 7.500 € netto, abhängig vom Hosting-Setup. Managed Evolution monatlich, ab 4.000 € netto pro Monat, deckt Hypothesen-Backlog, Test-Betrieb und Quartals-Rollup ab.
Nächster Schritt
Wo verlieren Sie Conversions heute?
Audit Sprint zum Festpreis 2.400 € netto, 10 Arbeitstage Lieferung. Conversion-Daten-Audit, priorisierte Funnel-Lecks, Test-Roadmap. Kein Folge-Vertrag, kein Retainer-Zwang.