AI Evals For Engineers & PMs (Hamel Husain & Shreya Shankar @ Maven / Parlance Labs)

programm · US · Stage C · P2 · Anbieter-Website

Nische: agentic-engineering

Scope: Anbieter ist die spezifische Maven-Cohort plus das Beratungs-Vehikel Parlance Labs als gemeinsame Marken-Klammer. Maven liefert Marketplace, Payment und Garantie; Curriculum, Brand und Skala-Signale stammen von Hamel Husain (Co-Lead) und Shreya Shankar (Co-Lead). Personal-Sites hamel.dev und sh-reya.com sind als Reichweite-/Credential-Layer eingelesen.

Markt-Anbieter-Slice der Doppel-Person. Personen-Stubs: [[../personen/husain-hamel]] · [[../personen/shankar-shreya]]. Hauptwohnorte (vermutet dev-wiki/personen/) noch nicht angelegt.

Stammdaten

Name: AI Evals For Engineers & PMs
Co-Lead-Instructor: Hamel Husain (Independent Consultant, Parlance Labs; Ex-Airbnb / GitHub / DataRobot / AlixPartners)
Co-Lead-Instructor: Shreya Shankar (PhD-Kandidatin UC Berkeley EECS; Ex-Google; Ex-Stanford)
Vertriebskanal: Maven (https://maven.com)
Cohort-URL: https://maven.com/parlance-labs/evals
Beratungs-Vehikel: Parlance Labs (https://parlance-labs.com/)
Personal-Brands: hamel.dev, sh-reya.com
Land / Markt: US, international (englischsprachig)
Sprache: Englisch
Cohort-Schedule (aktuell): 7. September – 3. Oktober 2026 (4 Wochen)

Positionierung

Statement (Anbieter-Zitat): “Stop guessing if your AI works. Build the feedback loops that make it better.”
Kern-Promise: “Learn proven approaches for quickly improving AI applications and building AI that outperforms competitors, regardless of use case.”
Zielgruppe (explizit): Engineers, die Prompt-Änderungen ausliefern, ohne Wirkung zu messen; Teams, die AI-Outputs manuell stichprobenartig prüfen statt systematisch messen; Leader/PMs, die unsicher sind, wo AI-Systeme scheitern oder wohin Ressourcen investiert werden sollen. Voraussetzungen: Vertrautheit mit AI-Anwendungen + LLM-Grundlagen hilfreich, keine Coding-Skills nötig — explizit auch für Non-Coder geöffnet.
USP / Differenzierung:
- Eval-Spezialisierung statt Allgemein-Curriculum: Fokus auf Evaluation und systematische Verbesserung statt Building-Cohort.
- Tool-agnostisch: lehrt Prozesse, die Stack-übergreifend anwendbar sind — keine Bindung an einen Framework-Vendor.
- Engineer × PM gemeinsam adressiert — im Stack-Tiefe-Markt selten.
- Refresh-Diskretion: Material wird vor jeder Cohort komplett aktualisiert.
Specific Knowledge: Hamels 20 Jahre Industrie-ML-Engineering-Track-Record (Airbnb, GitHub, DataRobot) plus Shreyas akademisch-publizierte Eval-Forschung (Best-Paper-Awards UIST 2025, CHI 2026; DocETL real eingesetzt in Justiz, Journalismus, Medizin, Policy, Finance) — Production-Engineering × Top-Tier-HCI-Forschung in dieser Kombination im Cohort-Markt singulär.

Angebot

Produkt	Format	Dauer	Preis
Free Resource: AI Eval Flashcards	Download	–	kostenlos
Free Resource: “Evals Skills For Claude”	Skills-Pack	–	kostenlos
Free Resource: “FAQ About AI Evals”	Download	–	kostenlos
Course-Reader-Mailingliste (sh-reya.com)	Newsletter	laufend	kostenlos (> 25.000 Subscriber)
AI Evals For Engineers & PMs (Hauptprogramm)	Live-Cohort + Async + Recordings	4 Wochen, 3–5 h/Woche, 10+ h Office Hours	5.000 USD
Team-Enrollment	wie Hauptprogramm	wie Hauptprogramm	20%+ Discount
Lifetime-Continuity (im Hauptpreis enthalten)	Mitgliedschaft	unbegrenzt	inklusive (“unlimited access to future cohorts and office hours”)
AI Eval Assistant	Tool / Software	6 Monate	inklusive im Hauptprogramm
Companion-Buch (O’Reilly)	Buch	–	unbekannt (Spring 2026)
Parlance Labs Consulting	Custom-Beratung	n/a	unbekannt (kein öffentlicher Preis)

Inklusivleistungen Hauptprogramm: Live-Sessions, Lifetime-Recordings + Materialien, 6 Monate Unlimited-Zugang zum AI Eval Assistant, 10+ h Office Hours, Private Discord (1.000+ Mitglieder), 150+-Seiten-Course-Reader, 4 Homework-Assignments mit Solutions, Certificate of Completion, Vendor-/Tools-Workshops mit Industry-Experts, Maven Guarantee.

Curriculum (4-Wochen-Auszug):

Week 1: Fundamentals & Lifecycle of Application-Centric Evals; Systematic Error Analysis (Lessons 1–3).
Week 2: Automated Evaluators (Lessons 4–5) — LLM-as-a-Judge + Code-Based Evals.
Weeks 3–4: Architecture-spezifische Strategien (RAG, Multi-Step-Pipelines, Multi-Modal); Production Implementation (CI/CD-Eval-Gates, Experiment-Comparison, Guardrails); ROI-Optimierung (Decision-Frameworks, Review-Interface-Design, Team-Organisation).

Marketing

Kanäle und Kadenz

Maven-Cohort-Seite als zentraler Conversion-Punkt; profitiert von Maven-Domain-Authority.
hamel.dev als Hochfrequenz-Content-Hub (≥ 5 referenzierte Posts in 12 Monaten — z.B. “LLM Evals: Everything You Need to Know” 2026-01, “Evals Skills for Coding Agents” 2026-03, “The Revenge of the Data Scientist” 2026-03).
sh-reya.com als peer-validierter Reichweite-Layer mit Top-Tier-Konferenz-Publikationen (VLDB, SIGMOD, UIST, CHI 2025/26).
X / Twitter: @HamelHusain und @sh_reya als Hauptaktivitäts-Surface.
GitHub: github.com/shreyashankar (DocETL 3.7k Stars) als technischer Trust-Anker.
Eigene Owned-Audience: 25.000+-Newsletter (Course-Reader-Liste); 1.000+-Discord-Community.
Cohort-Frequenz: Mindestens Cohort 5 in Testimonials referenziert; aktuelle Cohort 2026-09 ist mindestens die 7. Iteration → hochfrequente, erprobte Delivery.

Top-Themen

Application-Centric Evals, Systematic Error Analysis, Automated Evaluators (LLM-as-a-Judge + Code-Based), Agentic-System-Analyse, RAG-Debugging, Multi-Modal-Evaluation, CI/CD-Eval-Gates, ROI-Frameworks. Konsistent Production-Engineering-Sprache mit Schwerpunkt “Feedback-Loops” und “systematic improvement”, kein Hype-Vokabular.

Werbeanzeigen

Auf Cohort-Seite und Personal-Sites nicht erkennbar. Kanal-Strategie liest sich als Content + Authority + Owned-Audience, nicht Paid-Ads — nicht ermittelt.

SEO-Signale

Cohort lebt auf Maven-Subpath (maven.com/parlance-labs/evals), profitiert von Maven-Domain-Authority.
hamel.dev und sh-reya.com mit thematisch dichten Posts/Papers; github.com/shreyashankar (DocETL 3.7k Stars) als technischer SEO-Hub.
Eigenständiges Keyword-Targeting auf parlance-labs.com nur indirekt erkennbar (sparsame Site).

Proof

Direkter Proof

Course-Rating: 4,7 / 5 bei 864 Ratings (Maven-intern, transparent ausgewiesen).
Testimonials (Cohort 5, ausformuliert mit Klarname + Firma): Alex (Senior SW Engineer); Kumail (Product Lead, Developer Platform @ Airbnb); Justin (Applied AI Engineer @ Blank Metal); Baybars (CTO @ Galtea); Anna (Senior QA Engineer @ Costar Group).
Alumni-Skala: 4.500+ Professionals aus 500+ Companies inkl. OpenAI, Anthropic, Google.
Case Studies / Vorher-Nachher-Daten: Keine ausgewiesenen Outcome-Stories mit harten Metriken auf Cohort-Seite — Testimonials sind erfahrungs-basiert; Outcome-Schicht wird teilweise durch externe Endorsements ersetzt.

Indirekter Proof

Akademische Credentials Shreya: UC Berkeley EECS PhD-Kandidatin (Aditya Parameswaran); Stanford BS; Best Paper CHI 2026, Honorable Mention UIST 2025; VLDB 2025, SIGMOD 2026.
Industrie-Credentials Hamel: Airbnb, GitHub, DataRobot, AlixPartners; Co-Creator nbdev; frühe LLM-Forschung von OpenAI genutzt.
Plattform-Credential: Maven Satisfaction Guarantee.
Karriere-Stage Shreya: “on the computer science faculty job market this year” — peer-validated Senior-Career-Stage.

Peer-Proof

External Endorsements von Branchen-Schwergewichten (öffentlich auf Cohort-Seite, mit Klarname + Rolle):

Harrison Chase, CEO Langchain: “Hamel is one of the most knowledgeable people about LLM evals.”
Eugene Yan, Senior Applied Scientist: “Shreya and Hamel are legit. […] dozens of use cases.”
Charles Frye, Dev Advocate Modal: “Hamel and Shreya technically goated, deeply experienced engineers of AI systems.”
Bryan Bischof, Director of Engineering @ Hex: “When I have questions about the intersection of data and production AI systems, Shreya & Hamel are the first people I call.”

Zusatz: DocETL-Adoption durch Snowflake, LangChain, ChromaDB, OpenAI; Companion-Buch O’Reilly Spring 2026 als peer-reviewed Publishing-Anchor.

Portfolio-Proof

Hamel: Blog hamel.dev (Hochfrequenz); Co-Creator nbdev; Technical Guides FastHTML / Dokku / Kubernetes.
Shreya: DocETL Open-Source-Stack (3.7k Stars; real eingesetzt bei California Public Defenders, Snowflake, LangChain, ChromaDB, OpenAI); 4+ peer-reviewed Top-Tier-Konferenz-Papers in 12-18 Monaten.
Eigene Tooling-Component: “AI Eval Assistant” als Software-Produkt im Kurs (6 Monate Unlimited-Zugang).
Owned Audience: 25.000+-Newsletter, 1.000+-Discord.

Medien-Proof

Companion-Buch via O’Reilly (Spring 2026).
Awards: Best Paper Award CHI 2026 (Shreya); Honorable Mention UIST 2025.
Parlance-Labs-Logo-Bar (Selbst-Aussage “500+ companies”): Google, Meta, Microsoft, Amazon, Apple, Netflix, NVIDIA, Salesforce, Adobe, PayPal, Stripe, Shopify, Databricks, OpenAI, Cohere, Hugging Face, Scale AI, Snorkel AI, Visa, Walmart, Ford, Cisco, Intuit, Aetna, Booking.com, Airbnb, StubHub, Ramp, Rippling, Gusto, ClickUp, Rivian, Dataiku, Capgemini, Khan Academy, Spotify.
Eigene Presse / Podcast-Auftritte: auf Cohort-Seite nicht systematisch ausgewiesen — nicht ermittelt.

Computed/Analyse

Stage: C (geschätzt C1 spät bis C2-Schwelle für die kombinierte Cohort + Consulting + Buch + Newsletter-Linie) — Konfidenz: hoch. Signale: Preis 5.000 USD × 4.500+ Alumni → Cohort-Linie hat Lifetime-Bruttoumsatz im hohen siebenstelligen bis achtstelligen USD-Bereich (vor Plattform-/Discount-Abzug). 864 Ratings × 4.7-Schnitt zeigt institutionalisierte Skalierung. 25.000+-Newsletter, 1.000+-Discord, Branchen-Endorsements von Langchain/Anthropic/Modal/Hex, O’Reilly-Buchvertrag bilden Marken-Architektur über das Cohort-Programm hinaus. Parlance-Labs-Consulting-Vehikel mit Selbst-Aussage “500+ companies” als parallele Stage-III-Linie.
Persona: P2 — Trainer — Konfidenz: hoch. Begründung: Wiederholbares Bildungsprodukt (≥ 7 Cohorts), festes Curriculum (4 Wochen mit Lessons + Office Hours + Homework), Co-Instructor-Modell, Zertifikat, Maven-Akademie-Anbindung, transparentes Pricing, expliziter Refresh-Zyklus pro Cohort, Companion-Buch. Siehe P2 — Trainer.
Engpass-Hypothese:
- Primär (Outcome-Spezifität): Sehr starker Peer-Proof, aber keine quantifizierten Vorher-Nachher-Stories auf Cohort-Seite (“Team X reduzierte Eval-Zyklus-Zeit um Y%, fand Z bisher unentdeckte Failure-Modes”). Value-Equation Variable 1 (Dream Outcome) ist im 5.000-USD-Segment unterspezifiziert für budgetverteidigende Käufer:innen — typischer Stage-C1-Hebel “Proof-Leverage” laut hormozi-checks.
- Sekundär (Money-Model-Stage-I-Härtung): Free Resources sind reichlich vorhanden, aber niedrigschwelliges bezahltes Attraction-Offer (99–499 USD Workshop, Mini-Audit, “Eval-Quickstart”) fehlt zwischen Free-Magnet und 5.000-USD-Cohort. Bei einem Markt mit PMs/Leaders, die “ist das was für uns?” testen wollen, ist das ein langer Conversion-Sprung.
- Tertiär (Brand-Architektur): Vier Marken-Vehikel (Maven-Cohort, Parlance-Labs-Consulting, hamel.dev, sh-reya.com) — kein eigenständiger zentraler Brand-Hub für “AI Evals” als Marke selbst. Bei Stage-C1-spät-/C2-Schwelle wird Marken-Architektur zum eigenen Hebel (siehe 3-Stages-Modell C1).
- Hinweis: Continuity ist hier kein Engpass — die Lifetime-Membership (“unlimited access to future cohorts”) deckt Hormozi-Stage-III ab; im Vergleich zum maven-agent-bootcamp ein Reife-Vorsprung.
Top-3-Agent-Empfehlungen (aus 9-Stufen-Fahrplan, P2-Stage-C1-spät-Profil):
1. Case-Study- / Outcome-Agent — strukturierte 30/60/90-Tage-Re-Befragung von Cohort-Alumni mit Fokus auf quantifizierbare Wins (gefundene Failure-Modes, Eval-Zyklus-Zeit, Stakeholder-Akzeptanz, Production-Incident-Rückgang). Liefert die fehlende Outcome-Schicht im Marketing-Surface und stützt Stage-C1-Hebel “Proof-Leverage / Klienten als Ko-Autoren”.
2. Newsletter- / Content-Agent für die 25k-Mailingliste — zerteilt Hamels und Shreyas Long-Form-Inhalte (Posts, Papers, Buch-Auszüge) in sequenzierte Drip-Sequenzen pro Persona-Segment (Engineer / PM / Leader) und routet zu passendem Tier (Free → Quickstart → Cohort → Consulting). Adressiert Money-Model-Stage-I-Lücke und Brand-Architektur-Tertiär-Engpass.
3. Eval-Quickstart- / Lead-Qualifier-Agent — als Produkt-Bauteil eines neuen Stage-I-Attraction-Offers (z.B. 199-USD-”Eval-Audit-Workshop”): geführter Self-Check, Architecture-Diagnose, individueller 5-Schritte-Plan. Senkt Conversion-Risiko, qualifiziert Cohort-Käufer:innen vor und produziert Daten-Punkte für die Case-Study-Pipeline (Empfehlung 1).

Eigene Einordnung

Ideal für Klient:innen, die als Engineering- oder Produkt-Team an Production-AI eine Eval-Spezialisierungs-Cohort am internationalen Top-End suchen — mit echter Forschungs-Tiefe (Shreyas peer-reviewed-Awards) statt Tool-Marketing, mit Industrie-Track-Record (Hamels Airbnb/GitHub-Stationen) statt akademischer Distanz und mit eingebautem Lifetime-Continuity-Layer. Im DACH-Markt taugt das Programm als Eval-Benchmark gegenüber deutschsprachigen Solo-Trainer-Programmen, nicht als direkter Wettbewerber. Innerhalb der agentic-engineering-Welle ist die Eval-Nische ein eigenes Sub-Segment: Methoden-Tiefe statt Tool-Tiefe. Auffällig für die Nischen-Analyse: Money-Model deutlich vollständiger als beim maven-agent-bootcamp, aber Outcome-Spezifität im Marketing bleibt hinter dem Skala-Niveau zurück — typischer Stage-C1-spät-Hebel ungenutzt.

Quellen

https://maven.com/parlance-labs/evals — abgerufen 2026-05-02 — Qualität: hoch (Cohort-Hauptseite via Jina Reader, vollständige Curriculum-, Pricing-, Testimonial- und Endorsement-Daten)
https://parlance-labs.com/ — abgerufen 2026-05-02 — Qualität: hoch (Beratungs-Vehikel Homepage, Logo-Bar)
https://hamel.dev/ — abgerufen 2026-05-02 — Qualität: hoch (Personal-Brand, Blog-Index)
https://www.sh-reya.com/ — abgerufen 2026-05-02 — Qualität: hoch (Personal-Brand, Publikationen, Skala-Signale)
Roh-Quellen-Verzeichnis: raw/anbieter/hamel-shreya-ai-evals/ (website.md, parlance-labs.md, hamel-husain.md, shreya-shankar.md, meta.yaml)
Analyse-Frame: outputs/entwuerfe/analyse-hamel-shreya-ai-evals.md (2026-05-02)

← zurück zur Startseite