Three Minds, One Codebase: Een Klein Experiment met Claude, Copilot en Gemini

Ik was eigenlijk niet op zoek naar een winnaar. Ik was vooral benieuwd waar ze het níét met elkaar eens zouden zijn. Want juist daar zit meestal het interessante gedeelte.

En dat stelde niet teleur.

Drie Karakters, Geen Drie Tools

Het voelde minder als een wedstrijd en meer alsof je drie collega’s met totaal verschillende persoonlijkheden naar hetzelfde probleem zag kijken.

Claude speelde de architect: hield het volledige plan in zijn hoofd, zag een structurele fout waar de anderen volledig overheen keken, bouwde het werk logisch op en gaf (best charmant eigenlijk) gewoon toe wanneer het ergens niet zeker van was.

Copilot was meer de vakman met zijn handen al in de code: snel, volledig repo-aware en met testcode die je direct kon draaien. Maar terwijl het zo gefocust bezig was, brak het vrolijk een regel die het twee paragrafen eerder zelf had opgesteld.

Gemini was de snelle buitenstaander: zestig seconden lezen, een enorme specificatie terugbrengen tot iets waar je direct op kunt reageren en doordat het vanuit een andere trainingsbasis kijkt, een paar dingen zien waar de andere twee inmiddels blind voor waren geworden. Maar zodra je vroeg om echt diep te graven, leek de interesse snel weg te zakken.

“Vraag elk model welk model het beste is, en ze wijzen allemaal subtiel naar zichzelf. Uiteindelijk zijn ze ook getraind op menselijk gedrag.”

Handen aan de code: wanneer “Agentic” echt waarde krijgt

Het meest verrassende onderdeel had uiteindelijk weinig te maken met intelligentie, en alles met de vraag of een model daadwerkelijk toegang kreeg tot de code.

Geef een model tools en toegang tot de repository, en het kan bestanden lezen, tests draaien en eigen aannames controleren tegen wat er écht staat. Dat verandert alles. Copilot vond de meeste echte defects juist omdat het specificaties, broncode en tests tegelijkertijd kon vergelijken.

Precies hetzelfde soort redenatie, maar dan zonder toegang tot de bestanden, leverde de scherpste analyse van allemaal op. En miste vervolgens een bug van één regel simpelweg omdat het die regel niet kon zien. Het dacht briljant na over code die het nooit daadwerkelijk gelezen had.

Daarom pak ik tegenwoordig sneller een agentic setup wanneer de waarheid in de code zit. Voor bouwen, refactoren, gaten opsporen en doorfixen tot alle tests groen zijn. En ik zet de tools juist uit wanneer de waarheid in beoordelingsvermogen zit: architectuur, trade-offs, of zwakke plekken in een plan vinden voordat het überhaupt gebouwd wordt.

Mooie analyses en overtuigende fictie lijken verrassend veel op elkaar… Totdat je iets daadwerkelijk runt.

Wat ik nu anders doe

Het interessante is dit: als je alle drie de modellen achter elkaar gebruikt, krijg je iets dat beter is dan elk model afzonderlijk. Een snelle eerste scan, daarna een diepe contextuele analyse, vervolgens een onafhankelijke second opinion en tenslotte een reasoning-model dat er “koud” naar kijkt om gaten te schieten in het resultaat.

En eigenlijk is dat precies hoe een goed engineeringteam al jaren code reviewt: één auteur, één reviewer die het domein kent en één reviewer die er juist blanco in stapt.

We hebben niets nieuws uitgevonden. We hebben simpelweg de waarde van een tweede paar ogen herontdekt en er drie paar van gemaakt.

Was het wetenschappelijk? Absoluut niet. Eén codebase, één prompt en één nieuwsgierige middag. Maar de gewoonte die eruit ontstond, heeft zichzelf inmiddels meer dan terugverdiend: voordat ik iets ingewikkelds bouw, praat ik het eerst door met een model dat goed is in denken.

De goedkoopste minuut in het hele proces is nog altijd de minuut waarin je een fout op het whiteboard ontdekt in plaats van in productie.

Een laatste gedachte

Er is hier geen winnaar, en eerlijk gezegd ben ik daar blij om. Deze modellen zijn geen rivalen die strijden om één plek. Het is eerder een klein team. Elk met zijn eigen kracht, eigenaardigheid en blinde vlek.

De kunst zit in de casting.

Vandaar ook onze propositie: Commitment you can count on.

Dus als je onderzoekt hoe je dit soort tools écht kunt inpassen in de manier waarop je team software ontwikkelt (en je liever de zinloze ranglijst-discussies overslaat) dan is dat precies het soort gesprek waar wij enthousiast van worden.