Inzicht

Hoe we meten dat de merkscan werkt

Het Barnum-effect is het grootste risico bij AI-rapporten. Schwung meet systematisch of een merkscan echt over jouw organisatie gaat, of alleen goed klinkt.

Stel je koopt een AI-tool voor merkanalyse. De verkooppagina belooft diepgaande inzichten, een gepersonaliseerde diagnose en scherpe aanbevelingen. Hoe weet je of dat klopt? Vrijwel geen enkele aanbieder meet zijn eigen kwaliteit systematisch. Schwung doet het wel, en de uitkomsten zijn interessant genoeg om te delen.

Claimen is makkelijk, meten is iets anders

De meeste AI-tools bewijzen hun kwaliteit met testimonials en schermafdrukken. Begrijpelijk, maar het lost het echte probleem niet op: hoe weet je of een rapport echt over jouw organisatie gaat, of gewoon goed genoeg klinkt om overtuigend te voelen?

Dat tweede risico heeft een naam. In 1948 gaf psycholoog Bertram Forer zijn studenten een persoonlijkheidsbeschrijving en vroeg hoe nauwkeurig die was. Gemiddeld gaven ze een 4,26 op 5. De beschrijvingen waren identiek en generiek. Studenten herkenden zichzelf erin, niet omdat de beschrijving klopte, maar omdat ze vaag genoeg was om op iedereen te passen. Dit heet het Barnum-effect, en het is het grootste kwaliteitsrisico bij AI-rapporten: het gevoel van herkenning is geen bewijs van specificiteit.

De conclusie die daaruit volgt is ongemakkelijk. Als je het Barnum-effect wilt doorbreken, is er maar één verdediging: het rapport moet iets zeggen dat alleen over déze organisatie kan gelden.

Vier lagen om scankwaliteit te meten

Schwung gebruikt vier lagen om te toetsen of een rapport die drempel haalt.

De eerste laag is een scherpte-score op vijf criteria. Verrast het de lezer? Is het specifiek voor deze organisatie? Wijst het een concrete eerste stap aan? Is het niet uitwisselbaar met vijf andere klanten? Zijn meerdere bronnen verweven? Elke vraag levert nul tot twee punten op, samen een schaal van nul tot tien. Een rapport dat acht of hoger scoort, landt: de klant zegt "ze hebben ons gezien". Een rapport tussen vijf en zeven is competent maar vergeten binnen een dag. Alles eronder is boilerplate met de naam van de klant erin.

De tweede laag is een jury van drie beoordelaars. Eén model dat zijn eigen output beoordeelt, is niet betrouwbaar genoeg. Schwung gebruikt meerdere onafhankelijke beoordelaars die elk apart scoren, waarna de spreiding zichtbaar wordt. Als drie beoordelaars het eens zijn, is dat een sterk signaal. Als ze uiteenlopen, is dat ook informatie.

De derde laag is een website-delta-test. Bevat het rapport informatie die niet op de website van de organisatie staat? Een rapport dat alleen teruggeeft wat de website al zegt, is een dure samenvatting. De test meet of de scan iets toevoegt aan wat de organisatie zelf al communiceert.

De vierde laag is de uitwisselbaarheidstest. Zou dit rapport, met andere namen erin, ook kloppen voor vijf vergelijkbare organisaties? Als het antwoord ja is, is het rapport geen diagnose maar een sjabloon. Dit is de operationele tegenmaatregel tegen het Barnum-effect.

De actuele stand in juni 2026: gemiddelde scherpte 8,3 op 10, en honderd procent van de gemeten scans landt in de topband. De toegevoegde waarde boven de website scoort gemiddeld 8 op 10.

Wat een onafhankelijk model ervan vond

In juni 2026 vroeg Schwung Google Gemini om drie echte rapporten te beoordelen. Zonder sturing, zonder toegang tot de interne scores, zonder context over de methodologie. Gemini noemde de rapporten "specifiek, lokaal en pijnlijk nauwkeurig, geen boilerplate marketingpraatje". Het model herkende zelf de onderliggende technieken: differentiële diagnose, active listening en wat het omschreef als een adversarieel jurypanel.

Dat is interessant, en het vraagt om een eerlijke kanttekening. Een AI die het werk van een andere AI beoordeelt, is een serieuze kwaliteitsproxy, geen externe audit en geen klantvalidatie. De waarde van de Gemini-test zit niet in de absolute score. Hij zit in het feit dat een onafhankelijk model zonder sturing tot dezelfde conclusie komt als de interne jury. Dat is convergentie, en convergentie is geen bewijs.

Drie cases, drie tegengestelde adviezen

Het meest directe bewijs dat er geen sjabloon achter de scan zit, is een vergelijking van uitkomsten. Drie organisaties, dezelfde tool, drie radicaal verschillende diagnoses.

Een onderwijsstichting met vijf scholen mist een gedeeld merkfundament. Elke school communiceert vanuit eigen identiteit, de overkoepelende organisatie heeft geen verhaal dat de scholen verbindt. Het advies: begin bij de essentie, niet bij de uitingen.

Een talentbureau heeft het fundament al staan. De drijfveer is scherp, de interne cultuur is herkenbaar. Het probleem zit in de zichtbaarheid: de propositie is niet vertaald naar de markt. Het advies: het werk is niet het fundament bouwen, het werk is het fundament zichtbaar maken.

Schwung.ai zelf scoorde in dezelfde ronde vergelijkbaar met het talentbureau. Sterk fundament, herkenbare positie, maar de vertaling naar buiten loopt achter op de interne helderheid. Dat is een andere opgave dan die van de onderwijsstichting, ook al klinken beide "merk is niet helder genoeg" op het eerste gehoor hetzelfde.

Drie organisaties, drie tegengestelde adviezen. Dat is wat er gebeurt als er geen sjabloon achter zit.

Hoe best-of-N de kwaliteit borgt

Naast de jury-evaluatie achteraf gebruikt Schwung ook een techniek aan de voorkant: best-of-N sampling. Voor de kernspanning en de eerste concrete stap in elk rapport worden meerdere onafhankelijke versies gegenereerd, waarna een jury de scherpste kiest. De aanpak verhoogt de kwaliteit van LLM-output aantoonbaar, zonder het model opnieuw te trainen.

Vertaald naar de merkscan: de opening van een rapport, de kernspanning die het geheel draagt, is niet de eerste versie die het model produceert. Het is de versie die een jury als scherpste heeft beoordeeld. Dat kost meer rekentijd, en het verschil in kwaliteit is meetbaar.

Eerlijk over wat de meting niet is

Een taalmodel dat het werk van een taalmodel beoordeelt, heeft een structureel zwak punt. Het kan systematisch fout zitten op een manier die je niet ziet. Schwung's aanpak verlaagt dat risico met een adversarieel jurypanel en een externe blinde test, en elimineert het niet.

Wat de meting wél is: een transparante kwaliteitsdrempel die voor elk rapport geldt, openbaar gemaakt zodat je hem kunt beoordelen. Wat de meting niet is: een vervanging voor klantvalidatie. De enige echte toets is of een organisatie na het lezen van het rapport zegt "dit klopt, dit had ik zelf niet zo gezien". Die toets vindt plaats in het gesprek, niet in een benchmark.

De vraag die het rapport zelf moet doorstaan

Tijdens het gesprek dat de scan aanstuurt, kun je de lezing corrigeren. De scan is conversationeel: als een observatie niet klopt, zeg je dat, en het rapport past zich aan. Achteraf meet Schwung elk rapport opnieuw met de scherpte-score, zodat de kwaliteit niet wegzakt naarmate er meer scans worden gedaan.

De vraag die je jezelf kunt stellen na het lezen van een rapport: zou dit ook kloppen voor vijf vergelijkbare organisaties? Bij ja is het rapport niet scherp genoeg. Bij nee heeft de scan zijn werk gedaan.

Schwung werkt zo: eerst de positie en het gedrag helder krijgen, daarna pas de uiting. De merkscan is de eerste stap in dat proces, en de kwaliteitsmeting is de manier waarop we die eerste stap serieus nemen.

Verder lezen

Schwung AI merkscan

Daag ons maar uit.

Een merk-, design- of marketingvraag? We denken graag mee.