AI Evals For Engineers & PMs (Hamel Husain & Shreya Shankar @ Maven / Parlance Labs)
Scope: Anbieter ist die spezifische Maven-Cohort plus das Beratungs-Vehikel Parlance Labs als gemeinsame Marken-Klammer. Maven liefert Marketplace, Payment und Garantie; Curriculum, Brand und Skala-Signale stammen von Hamel Husain (Co-Lead) und Shreya Shankar (Co-Lead). Personal-Sites hamel.dev und sh-reya.com sind als Reichweite-/Credential-Layer eingelesen.
Markt-Anbieter-Slice der Doppel-Person. Personen-Stubs: [[../personen/husain-hamel]] · [[../personen/shankar-shreya]]. Hauptwohnorte (vermutet
dev-wiki/personen/) noch nicht angelegt.
Stammdaten
- Name: AI Evals For Engineers & PMs
- Co-Lead-Instructor: Hamel Husain (Independent Consultant, Parlance Labs; Ex-Airbnb / GitHub / DataRobot / AlixPartners)
- Co-Lead-Instructor: Shreya Shankar (PhD-Kandidatin UC Berkeley EECS; Ex-Google; Ex-Stanford)
- Vertriebskanal: Maven (https://maven.com)
- Cohort-URL: https://maven.com/parlance-labs/evals
- Beratungs-Vehikel: Parlance Labs (https://parlance-labs.com/)
- Personal-Brands: hamel.dev, sh-reya.com
- Land / Markt: US, international (englischsprachig)
- Sprache: Englisch
- Cohort-Schedule (aktuell): 7. September – 3. Oktober 2026 (4 Wochen)
Positionierung
- Statement (Anbieter-Zitat): “Stop guessing if your AI works. Build the feedback loops that make it better.”
- Kern-Promise: “Learn proven approaches for quickly improving AI applications and building AI that outperforms competitors, regardless of use case.”
- Zielgruppe (explizit): Engineers, die Prompt-Änderungen ausliefern, ohne Wirkung zu messen; Teams, die AI-Outputs manuell stichprobenartig prüfen statt systematisch messen; Leader/PMs, die unsicher sind, wo AI-Systeme scheitern oder wohin Ressourcen investiert werden sollen. Voraussetzungen: Vertrautheit mit AI-Anwendungen + LLM-Grundlagen hilfreich, keine Coding-Skills nötig — explizit auch für Non-Coder geöffnet.
- USP / Differenzierung:
- Eval-Spezialisierung statt Allgemein-Curriculum: Fokus auf Evaluation und systematische Verbesserung statt Building-Cohort.
- Tool-agnostisch: lehrt Prozesse, die Stack-übergreifend anwendbar sind — keine Bindung an einen Framework-Vendor.
- Engineer × PM gemeinsam adressiert — im Stack-Tiefe-Markt selten.
- Refresh-Diskretion: Material wird vor jeder Cohort komplett aktualisiert.
- Specific Knowledge: Hamels 20 Jahre Industrie-ML-Engineering-Track-Record (Airbnb, GitHub, DataRobot) plus Shreyas akademisch-publizierte Eval-Forschung (Best-Paper-Awards UIST 2025, CHI 2026; DocETL real eingesetzt in Justiz, Journalismus, Medizin, Policy, Finance) — Production-Engineering × Top-Tier-HCI-Forschung in dieser Kombination im Cohort-Markt singulär.
Angebot
| Produkt | Format | Dauer | Preis |
|---|---|---|---|
| Free Resource: AI Eval Flashcards | Download | – | kostenlos |
| Free Resource: “Evals Skills For Claude” | Skills-Pack | – | kostenlos |
| Free Resource: “FAQ About AI Evals” | Download | – | kostenlos |
| Course-Reader-Mailingliste (sh-reya.com) | Newsletter | laufend | kostenlos (> 25.000 Subscriber) |
| AI Evals For Engineers & PMs (Hauptprogramm) | Live-Cohort + Async + Recordings | 4 Wochen, 3–5 h/Woche, 10+ h Office Hours | 5.000 USD |
| Team-Enrollment | wie Hauptprogramm | wie Hauptprogramm | 20%+ Discount |
| Lifetime-Continuity (im Hauptpreis enthalten) | Mitgliedschaft | unbegrenzt | inklusive (“unlimited access to future cohorts and office hours”) |
| AI Eval Assistant | Tool / Software | 6 Monate | inklusive im Hauptprogramm |
| Companion-Buch (O’Reilly) | Buch | – | unbekannt (Spring 2026) |
| Parlance Labs Consulting | Custom-Beratung | n/a | unbekannt (kein öffentlicher Preis) |
Inklusivleistungen Hauptprogramm: Live-Sessions, Lifetime-Recordings + Materialien, 6 Monate Unlimited-Zugang zum AI Eval Assistant, 10+ h Office Hours, Private Discord (1.000+ Mitglieder), 150+-Seiten-Course-Reader, 4 Homework-Assignments mit Solutions, Certificate of Completion, Vendor-/Tools-Workshops mit Industry-Experts, Maven Guarantee.
Curriculum (4-Wochen-Auszug):
- Week 1: Fundamentals & Lifecycle of Application-Centric Evals; Systematic Error Analysis (Lessons 1–3).
- Week 2: Automated Evaluators (Lessons 4–5) — LLM-as-a-Judge + Code-Based Evals.
- Weeks 3–4: Architecture-spezifische Strategien (RAG, Multi-Step-Pipelines, Multi-Modal); Production Implementation (CI/CD-Eval-Gates, Experiment-Comparison, Guardrails); ROI-Optimierung (Decision-Frameworks, Review-Interface-Design, Team-Organisation).
Marketing
Kanäle und Kadenz
- Maven-Cohort-Seite als zentraler Conversion-Punkt; profitiert von Maven-Domain-Authority.
- hamel.dev als Hochfrequenz-Content-Hub (≥ 5 referenzierte Posts in 12 Monaten — z.B. “LLM Evals: Everything You Need to Know” 2026-01, “Evals Skills for Coding Agents” 2026-03, “The Revenge of the Data Scientist” 2026-03).
- sh-reya.com als peer-validierter Reichweite-Layer mit Top-Tier-Konferenz-Publikationen (VLDB, SIGMOD, UIST, CHI 2025/26).
- X / Twitter: @HamelHusain und @sh_reya als Hauptaktivitäts-Surface.
- GitHub: github.com/shreyashankar (DocETL 3.7k Stars) als technischer Trust-Anker.
- Eigene Owned-Audience: 25.000+-Newsletter (Course-Reader-Liste); 1.000+-Discord-Community.
- Cohort-Frequenz: Mindestens Cohort 5 in Testimonials referenziert; aktuelle Cohort 2026-09 ist mindestens die 7. Iteration → hochfrequente, erprobte Delivery.
Top-Themen
Application-Centric Evals, Systematic Error Analysis, Automated Evaluators (LLM-as-a-Judge + Code-Based), Agentic-System-Analyse, RAG-Debugging, Multi-Modal-Evaluation, CI/CD-Eval-Gates, ROI-Frameworks. Konsistent Production-Engineering-Sprache mit Schwerpunkt “Feedback-Loops” und “systematic improvement”, kein Hype-Vokabular.
Werbeanzeigen
Auf Cohort-Seite und Personal-Sites nicht erkennbar. Kanal-Strategie liest sich als Content + Authority + Owned-Audience, nicht Paid-Ads — nicht ermittelt.
SEO-Signale
- Cohort lebt auf Maven-Subpath (
maven.com/parlance-labs/evals), profitiert von Maven-Domain-Authority. - hamel.dev und sh-reya.com mit thematisch dichten Posts/Papers; github.com/shreyashankar (DocETL 3.7k Stars) als technischer SEO-Hub.
- Eigenständiges Keyword-Targeting auf parlance-labs.com nur indirekt erkennbar (sparsame Site).
Proof
Direkter Proof
- Course-Rating: 4,7 / 5 bei 864 Ratings (Maven-intern, transparent ausgewiesen).
- Testimonials (Cohort 5, ausformuliert mit Klarname + Firma): Alex (Senior SW Engineer); Kumail (Product Lead, Developer Platform @ Airbnb); Justin (Applied AI Engineer @ Blank Metal); Baybars (CTO @ Galtea); Anna (Senior QA Engineer @ Costar Group).
- Alumni-Skala: 4.500+ Professionals aus 500+ Companies inkl. OpenAI, Anthropic, Google.
- Case Studies / Vorher-Nachher-Daten: Keine ausgewiesenen Outcome-Stories mit harten Metriken auf Cohort-Seite — Testimonials sind erfahrungs-basiert; Outcome-Schicht wird teilweise durch externe Endorsements ersetzt.
Indirekter Proof
- Akademische Credentials Shreya: UC Berkeley EECS PhD-Kandidatin (Aditya Parameswaran); Stanford BS; Best Paper CHI 2026, Honorable Mention UIST 2025; VLDB 2025, SIGMOD 2026.
- Industrie-Credentials Hamel: Airbnb, GitHub, DataRobot, AlixPartners; Co-Creator nbdev; frühe LLM-Forschung von OpenAI genutzt.
- Plattform-Credential: Maven Satisfaction Guarantee.
- Karriere-Stage Shreya: “on the computer science faculty job market this year” — peer-validated Senior-Career-Stage.
Peer-Proof
External Endorsements von Branchen-Schwergewichten (öffentlich auf Cohort-Seite, mit Klarname + Rolle):
- Harrison Chase, CEO Langchain: “Hamel is one of the most knowledgeable people about LLM evals.”
- Eugene Yan, Senior Applied Scientist: “Shreya and Hamel are legit. […] dozens of use cases.”
- Charles Frye, Dev Advocate Modal: “Hamel and Shreya technically goated, deeply experienced engineers of AI systems.”
- Bryan Bischof, Director of Engineering @ Hex: “When I have questions about the intersection of data and production AI systems, Shreya & Hamel are the first people I call.”
Zusatz: DocETL-Adoption durch Snowflake, LangChain, ChromaDB, OpenAI; Companion-Buch O’Reilly Spring 2026 als peer-reviewed Publishing-Anchor.
Portfolio-Proof
- Hamel: Blog hamel.dev (Hochfrequenz); Co-Creator nbdev; Technical Guides FastHTML / Dokku / Kubernetes.
- Shreya: DocETL Open-Source-Stack (3.7k Stars; real eingesetzt bei California Public Defenders, Snowflake, LangChain, ChromaDB, OpenAI); 4+ peer-reviewed Top-Tier-Konferenz-Papers in 12-18 Monaten.
- Eigene Tooling-Component: “AI Eval Assistant” als Software-Produkt im Kurs (6 Monate Unlimited-Zugang).
- Owned Audience: 25.000+-Newsletter, 1.000+-Discord.
Medien-Proof
- Companion-Buch via O’Reilly (Spring 2026).
- Awards: Best Paper Award CHI 2026 (Shreya); Honorable Mention UIST 2025.
- Parlance-Labs-Logo-Bar (Selbst-Aussage “500+ companies”): Google, Meta, Microsoft, Amazon, Apple, Netflix, NVIDIA, Salesforce, Adobe, PayPal, Stripe, Shopify, Databricks, OpenAI, Cohere, Hugging Face, Scale AI, Snorkel AI, Visa, Walmart, Ford, Cisco, Intuit, Aetna, Booking.com, Airbnb, StubHub, Ramp, Rippling, Gusto, ClickUp, Rivian, Dataiku, Capgemini, Khan Academy, Spotify.
- Eigene Presse / Podcast-Auftritte: auf Cohort-Seite nicht systematisch ausgewiesen — nicht ermittelt.
Computed/Analyse
-
Stage: C (geschätzt C1 spät bis C2-Schwelle für die kombinierte Cohort + Consulting + Buch + Newsletter-Linie) — Konfidenz: hoch. Signale: Preis 5.000 USD × 4.500+ Alumni → Cohort-Linie hat Lifetime-Bruttoumsatz im hohen siebenstelligen bis achtstelligen USD-Bereich (vor Plattform-/Discount-Abzug). 864 Ratings × 4.7-Schnitt zeigt institutionalisierte Skalierung. 25.000+-Newsletter, 1.000+-Discord, Branchen-Endorsements von Langchain/Anthropic/Modal/Hex, O’Reilly-Buchvertrag bilden Marken-Architektur über das Cohort-Programm hinaus. Parlance-Labs-Consulting-Vehikel mit Selbst-Aussage “500+ companies” als parallele Stage-III-Linie.
-
Persona: P2 — Trainer — Konfidenz: hoch. Begründung: Wiederholbares Bildungsprodukt (≥ 7 Cohorts), festes Curriculum (4 Wochen mit Lessons + Office Hours + Homework), Co-Instructor-Modell, Zertifikat, Maven-Akademie-Anbindung, transparentes Pricing, expliziter Refresh-Zyklus pro Cohort, Companion-Buch. Siehe P2 — Trainer.
-
Engpass-Hypothese:
- Primär (Outcome-Spezifität): Sehr starker Peer-Proof, aber keine quantifizierten Vorher-Nachher-Stories auf Cohort-Seite (“Team X reduzierte Eval-Zyklus-Zeit um Y%, fand Z bisher unentdeckte Failure-Modes”). Value-Equation Variable 1 (Dream Outcome) ist im 5.000-USD-Segment unterspezifiziert für budgetverteidigende Käufer:innen — typischer Stage-C1-Hebel “Proof-Leverage” laut hormozi-checks.
- Sekundär (Money-Model-Stage-I-Härtung): Free Resources sind reichlich vorhanden, aber niedrigschwelliges bezahltes Attraction-Offer (99–499 USD Workshop, Mini-Audit, “Eval-Quickstart”) fehlt zwischen Free-Magnet und 5.000-USD-Cohort. Bei einem Markt mit PMs/Leaders, die “ist das was für uns?” testen wollen, ist das ein langer Conversion-Sprung.
- Tertiär (Brand-Architektur): Vier Marken-Vehikel (Maven-Cohort, Parlance-Labs-Consulting, hamel.dev, sh-reya.com) — kein eigenständiger zentraler Brand-Hub für “AI Evals” als Marke selbst. Bei Stage-C1-spät-/C2-Schwelle wird Marken-Architektur zum eigenen Hebel (siehe 3-Stages-Modell C1).
- Hinweis: Continuity ist hier kein Engpass — die Lifetime-Membership (“unlimited access to future cohorts”) deckt Hormozi-Stage-III ab; im Vergleich zum maven-agent-bootcamp ein Reife-Vorsprung.
-
Top-3-Agent-Empfehlungen (aus 9-Stufen-Fahrplan, P2-Stage-C1-spät-Profil):
- Case-Study- / Outcome-Agent — strukturierte 30/60/90-Tage-Re-Befragung von Cohort-Alumni mit Fokus auf quantifizierbare Wins (gefundene Failure-Modes, Eval-Zyklus-Zeit, Stakeholder-Akzeptanz, Production-Incident-Rückgang). Liefert die fehlende Outcome-Schicht im Marketing-Surface und stützt Stage-C1-Hebel “Proof-Leverage / Klienten als Ko-Autoren”.
- Newsletter- / Content-Agent für die 25k-Mailingliste — zerteilt Hamels und Shreyas Long-Form-Inhalte (Posts, Papers, Buch-Auszüge) in sequenzierte Drip-Sequenzen pro Persona-Segment (Engineer / PM / Leader) und routet zu passendem Tier (Free → Quickstart → Cohort → Consulting). Adressiert Money-Model-Stage-I-Lücke und Brand-Architektur-Tertiär-Engpass.
- Eval-Quickstart- / Lead-Qualifier-Agent — als Produkt-Bauteil eines neuen Stage-I-Attraction-Offers (z.B. 199-USD-”Eval-Audit-Workshop”): geführter Self-Check, Architecture-Diagnose, individueller 5-Schritte-Plan. Senkt Conversion-Risiko, qualifiziert Cohort-Käufer:innen vor und produziert Daten-Punkte für die Case-Study-Pipeline (Empfehlung 1).
Eigene Einordnung
Ideal für Klient:innen, die als Engineering- oder Produkt-Team an Production-AI eine Eval-Spezialisierungs-Cohort am internationalen Top-End suchen — mit echter Forschungs-Tiefe (Shreyas peer-reviewed-Awards) statt Tool-Marketing, mit Industrie-Track-Record (Hamels Airbnb/GitHub-Stationen) statt akademischer Distanz und mit eingebautem Lifetime-Continuity-Layer. Im DACH-Markt taugt das Programm als Eval-Benchmark gegenüber deutschsprachigen Solo-Trainer-Programmen, nicht als direkter Wettbewerber. Innerhalb der agentic-engineering-Welle ist die Eval-Nische ein eigenes Sub-Segment: Methoden-Tiefe statt Tool-Tiefe. Auffällig für die Nischen-Analyse: Money-Model deutlich vollständiger als beim maven-agent-bootcamp, aber Outcome-Spezifität im Marketing bleibt hinter dem Skala-Niveau zurück — typischer Stage-C1-spät-Hebel ungenutzt.
Quellen
- https://maven.com/parlance-labs/evals — abgerufen 2026-05-02 — Qualität: hoch (Cohort-Hauptseite via Jina Reader, vollständige Curriculum-, Pricing-, Testimonial- und Endorsement-Daten)
- https://parlance-labs.com/ — abgerufen 2026-05-02 — Qualität: hoch (Beratungs-Vehikel Homepage, Logo-Bar)
- https://hamel.dev/ — abgerufen 2026-05-02 — Qualität: hoch (Personal-Brand, Blog-Index)
- https://www.sh-reya.com/ — abgerufen 2026-05-02 — Qualität: hoch (Personal-Brand, Publikationen, Skala-Signale)
- Roh-Quellen-Verzeichnis:
raw/anbieter/hamel-shreya-ai-evals/(website.md,parlance-labs.md,hamel-husain.md,shreya-shankar.md,meta.yaml) - Analyse-Frame:
outputs/entwuerfe/analyse-hamel-shreya-ai-evals.md(2026-05-02)