Bronnen/Technische gids

Technische verdieping

Gids voor RAG-implementatie in productie

Bouw retrieval-augmented generation-systemen die echt werken in productie. Van architectuurbeslissingen tot evaluatieframeworks, deze gids behandelt alles wat u nodig hebt om betrouwbare RAG-systemen op te leveren.

35 min leestijd

Bijgewerkt in januari 2025

In productie geteste patronen

Wat is RAG?

Retrieval-Augmented Generation (RAG) is een architectuurpatroon dat grote taalmodellen versterkt door ze relevante context uit externe kennisbronnen te bieden. In plaats van uitsluitend te vertrouwen op de trainingsdata van het model, haalt RAG relevante documenten op tijdens de inferentie en gebruikt die om de antwoorden van het model te onderbouwen.

Deze aanpak lost verschillende fundamentele beperkingen van LLM's op:

Actualiteit van kennis: Toegang tot actuele informatie voorbij de trainingsdatum
Domeinspecificiteit: Onderbouw antwoorden met uw eigen data
Verifieerbaarheid: Citeer bronnen en maak feitencontrole mogelijk
Vermindering van hallucinaties: Beperk antwoorden tot de opgehaalde context

RAG-systemen zijn echter slechts zo goed als hun implementatie. Slechte opsplitsing, ontoereikende retrieval of slecht afgestemde prompts kunnen leiden tot systemen die net zoveel hallucineren als gewone LLM's — maar met vals vertrouwen. Deze gids behandelt de patronen die werken.

RAG-architectuur

Een RAG-systeem voor productie bestaat uit zes kerncomponenten, elk met hun eigen optimalisatieoverwegingen. Inzicht in deze componenten is essentieel voor het bouwen van schaalbare systemen.

Documentinname

Brondocumenten van diverse formaten laden en voorbewerken

PDF, DOCX, HTML, MarkdownOCR voor gescande documentenExtractie van metadataDeduplicatie

Opsplitsingspipeline

Documenten opsplitsen in semantisch betekenisvolle fragmenten

Zin-/alineasplitsingToken-bewuste opsplitsingOverlapstrategieënHiërarchische fragmenten

Embedding-generatie

Tekstfragmenten omzetten in dichte vectorrepresentaties

ModelkeuzeBatchverwerkingCachingstrategieënDimensieoverwegingen

Vectoropslag

Embeddings opslaan en indexeren voor efficiënte retrieval

IndexoptimalisatieFilteren op metadataHybride zoekenSchaalstrategieën

Retrieval-engine

Relevante fragmenten vinden voor een gegeven query

Gelijkenis-zoekenRerankingQuery-uitbreidingContextsamenstelling

LLM-generatie

Antwoorden genereren met de opgehaalde context

Prompt-engineeringContextopmaakAntwoordvalidatieCitatietracering

Architectuurbeslissing: synchrone vs. asynchrone inname

Scheid voor productiesystemen uw innamepipeline van uw querypipeline. Inname kan asynchroon draaien (batchverwerking, wachtrijen), terwijl query's een synchrone uitvoering met lage latentie nodig hebben. Deze scheiding maakt onafhankelijke schaling mogelijk.

Documenten opsplitsen

Opsplitsing is bij RAG vaak de doorslaggevende beslissing. Slechte opsplitsing leidt tot irrelevante retrievals en onvolledige context. De juiste strategie hangt af van uw documenttypes en querypatronen.

Strategie	Beste voor	Afwegingen	Complexiteit
Vaste grootte	Eenvoudige documenten, consistente structuur	Kan semantische eenheden doorbreken	Low
Zin-gebaseerd	Inhoud in natuurlijke taal	Variabele fragmentgroottes	Medium
Semantisch	Complexe documenten, uiteenlopende onderwerpen	Hogere rekenkosten	High
Hiërarchisch	Lange documenten, retrieval op meerdere niveaus	Complexe implementatie	High

Beste praktijken

•Gebruik 512-1024 tokens per fragment voor de meeste toepassingen
•Voeg 10-20% overlap toe om context over grenzen heen te behouden
•Behoud de documentstructuur (koppen, secties) in metadata
•Test verschillende fragmentgroottes met uw werkelijke query's

Veelgemaakte fouten

•Te kleine fragmenten = ontbrekende context voor complexe vragen
•Te grote fragmenten = ruis verdunt relevante informatie
•Documentstructuur negeren (tabellen, lijsten, codeblokken)
•Fragmentmetadata niet opslaan voor filtering

Embeddings & vectordatabases

Embeddings zetten tekst om in numerieke vectoren die de semantische betekenis vastleggen. De keuze van het juiste embedding-model en de juiste vectordatabase heeft invloed op de retrievalkwaliteit, latentie en kosten.

Vergelijking van embedding-modellen

Model	Dimensies	Prestaties	Kosten	Opmerkingen
OpenAI text-embedding-3-large	3072	Uitstekend	$$	Beste algehele kwaliteit, ondersteunt dimensiereductie
Cohere embed-v3	1024	Zeer goed	$$	Meertalig, compressieopties
Voyage AI	1024	Uitstekend	$$$	Domeinspecifieke modellen beschikbaar
BGE-large	1024	Goed	Free	Open source, zelf-gehoste optie
Mistral Embed	1024	Zeer goed	$	Europese aanbieder, AVG-vriendelijk

Vergelijking van vectordatabases

Pinecone

Beheerd

Snelle start, beheerde infrastructuur

ServerlessMetadata filteringNamespaces

Weaviate

Zelf-gehost/Cloud

Hybride zoeken, GraphQL-API

BM25 + VectorModules ecosystemMulti-tenant

Qdrant

Zelf-gehost/Cloud

Prestaties, fijnmazig filteren

Payload indexingQuantizationRust-based

Chroma

Ingebed/Cloud

Ontwikkeling, prototyping

Python-nativeSimple APILightweight

PostgreSQL + pgvector

Zelf-gehost

Bestaande Postgres-infrastructuur

HNSW/IVFFlatSQL integrationTransactional

Retrieval-strategieën

Basale semantische zoekopdrachten zijn slechts het uitgangspunt. Productiesystemen gebruiken meerdere retrieval-strategieën om de relevantie te maximaliseren.

1. Hybride zoeken (aanbevolen)

Combineer dichte vectorzoekopdrachten met dunne trefwoordzoekopdrachten (BM25). Dit vangt zowel semantische treffers als exacte trefwoordtreffers op die vectorzoekopdrachten mogelijk missen.

Beste voor algemeen gebruikAlpha-menging: 0.7 dense, 0.3 sparse

2. Reranking

Gebruik een cross-encoder-model om de initiële retrieval-resultaten opnieuw te rangschikken. Duurder, maar verbetert de relevantie van top-k-resultaten aanzienlijk.

Cohere RerankVoyage RerankerBGE Reranker

3. Query-uitbreiding

Gebruik een LLM om meerdere queryvarianten te genereren of complexe query's op te splitsen in subquery's. Haal voor elke op en voeg de resultaten samen.

Voegt latentie toeBeste voor complexe vragen

4. Filteren op metadata

Filter vooraf op metadata (datum, bron, categorie) vóór de vectorzoekopdracht. Essentieel voor grote documentcollecties en multi-tenant-systemen.

Verbetert de precisieVerkleint de zoekruimte

LLM-integratie

De generatiefase synthetiseert de opgehaalde context tot een coherent antwoord. Prompt-engineering en contextopmaak zijn cruciaal voor de kwaliteit.

Beste praktijken voor promptsjablonen

Expliciete onderbouwingsinstructie: "Antwoord UITSLUITEND op basis van de verstrekte context. Als het antwoord niet in de context staat, zeg dat dan."

Citatieformaat: Vraag het model om [Bron 1], [Bron 2] enz. in zijn antwoord te citeren

Contextvolgorde: Meest relevante fragmenten eerst (recency-bias helpt)

Fragmentlabeling: Bakent elk fragment duidelijk af met bronmetadata

Beheer van het contextvenster

Zelfs met contextvensters van 128k+ is meer context niet altijd beter. Studies tonen aan dat LLM's moeite hebben met informatie in het "midden" van lange contexten. Beperk de opgehaalde context tot 3-5 zeer relevante fragmenten en gebruik reranking om kwaliteit boven kwantiteit te stellen.

Evaluatie & testen

U kunt niet verbeteren wat u niet meet. RAG-systemen in productie hebben continue evaluatie over meerdere dimensies nodig.

Metriek	Beschrijving	Doel	Hoe te meten
Retrieval-precisie	% van de opgehaalde fragmenten die relevant zijn	> 80%	Handmatig labelen van retrieval-resultaten
Retrieval-recall	% van de relevante fragmenten die worden opgehaald	> 90%	Vergelijking met ground-truth-dataset
Antwoordrelevantie	Hoe goed het antwoord de query adresseert	> 85%	LLM-als-rechter of menselijke evaluatie
Getrouwheid	Antwoord is onderbouwd in de opgehaalde context	> 95%	Extractie en verificatie van beweringen
Latentie (P95)	End-to-end responstijd	< 3s	Prestatiemonitoring

Aanbevelingen voor evaluatieframeworks

RAGAS

Open-source framework voor RAG-evaluatie met metrieken voor getrouwheid, relevantie en context-recall.

LangSmith / Langfuse

Observability in productie met tracing, evaluaties en promptversiebeheer.

Productieoverwegingen

De overstap van prototype naar productie vereist het aanpakken van betrouwbaarheid, beveiliging en operationele aspecten.

Beveiliging

•Toegangscontroles op data en tenantisolatie
•Preventie van prompt-injectie
•PII-detectie en -maskering
•Auditlogging voor compliance

Infrastructuur

•Caching (embedding, retrieval, respons)
•Rate limiting en circuit breakers
•Asynchrone verwerking voor inname
•Horizontale schaalstrategieën

Actualiteit van data

•Incrementele vs. volledige herindexering
•Mechanismen voor wijzigingsdetectie
•Versiebeheer en rollback
•Detectie van verouderde inhoud

Operationeel

•Monitoring en alerting
•Tracing voor debugging
•Kostenmonitoring per query
•Graceful degradation

Geavanceerde patronen

Voorbij het basale RAG adresseren deze patronen specifieke toepassingen en verleggen ze de grenzen van wat mogelijk is.

Agentic RAG

Gebruik een agentlus om retrieval iteratief te verfijnen. De agent kan beslissen wanneer te zoeken, waarnaar te zoeken en wanneer hij genoeg context heeft om te antwoorden.

Beste voor complexe vragen met meerdere stappen

Graph RAG

Bouw een kennisgraaf uit documenten en doorloop relaties tijdens de retrieval. Maakt multi-hop-redenering en entiteitsgerichte query's mogelijk.

Beste voor gestructureerde domeinen met relaties

Self-RAG

Train of prompt het model om te beslissen wanneer retrieval nodig is, de retrieval-relevantie te beoordelen en gegenereerde antwoorden zelf te bekritiseren.

Vermindert onnodige retrievals

Corrective RAG (CRAG)

Beoordeel de retrievalkwaliteit en val terug op webzoekopdrachten of andere bronnen wanneer interne kennis onvoldoende of onbetrouwbaar is.

Verbetert de dekking voor randgevallen

Klaar om RAG voor productie te bouwen?

Of u nu vanaf nul begint of een bestaand systeem optimaliseert, ik help u RAG op te leveren dat echt werkt.

Bekijk RAG-diensten

Gerelateerde bronnen

Nalevingsgids EU AI-verordening

Zorg dat uw RAG-systeem voldoet aan de regelgevende vereisten

Dienst voor AI-systemen in productie

End-to-end-ondersteuning bij RAG-implementatie

AI Lab-demo's

Zie RAG en andere AI-patronen in actie

Bronnen/Technische gids

Technische verdieping

Gids voor RAG-implementatie in productie

35 min leestijd

Bijgewerkt in januari 2025

In productie geteste patronen

Wat is RAG?

Deze aanpak lost verschillende fundamentele beperkingen van LLM's op:

Actualiteit van kennis: Toegang tot actuele informatie voorbij de trainingsdatum
Domeinspecificiteit: Onderbouw antwoorden met uw eigen data
Verifieerbaarheid: Citeer bronnen en maak feitencontrole mogelijk
Vermindering van hallucinaties: Beperk antwoorden tot de opgehaalde context

RAG-architectuur

Een RAG-systeem voor productie bestaat uit zes kerncomponenten, elk met hun eigen optimalisatieoverwegingen. Inzicht in deze componenten is essentieel voor het bouwen van schaalbare systemen.

Documentinname

Brondocumenten van diverse formaten laden en voorbewerken

PDF, DOCX, HTML, MarkdownOCR voor gescande documentenExtractie van metadataDeduplicatie

Opsplitsingspipeline

Documenten opsplitsen in semantisch betekenisvolle fragmenten

Zin-/alineasplitsingToken-bewuste opsplitsingOverlapstrategieënHiërarchische fragmenten

Embedding-generatie

Tekstfragmenten omzetten in dichte vectorrepresentaties

ModelkeuzeBatchverwerkingCachingstrategieënDimensieoverwegingen

Vectoropslag

Embeddings opslaan en indexeren voor efficiënte retrieval

IndexoptimalisatieFilteren op metadataHybride zoekenSchaalstrategieën

Retrieval-engine

Relevante fragmenten vinden voor een gegeven query

Gelijkenis-zoekenRerankingQuery-uitbreidingContextsamenstelling

LLM-generatie

Antwoorden genereren met de opgehaalde context

Prompt-engineeringContextopmaakAntwoordvalidatieCitatietracering

Architectuurbeslissing: synchrone vs. asynchrone inname

Documenten opsplitsen

Strategie	Beste voor	Afwegingen	Complexiteit
Vaste grootte	Eenvoudige documenten, consistente structuur	Kan semantische eenheden doorbreken	Low
Zin-gebaseerd	Inhoud in natuurlijke taal	Variabele fragmentgroottes	Medium
Semantisch	Complexe documenten, uiteenlopende onderwerpen	Hogere rekenkosten	High
Hiërarchisch	Lange documenten, retrieval op meerdere niveaus	Complexe implementatie	High

Beste praktijken

•Gebruik 512-1024 tokens per fragment voor de meeste toepassingen
•Voeg 10-20% overlap toe om context over grenzen heen te behouden
•Behoud de documentstructuur (koppen, secties) in metadata
•Test verschillende fragmentgroottes met uw werkelijke query's

Veelgemaakte fouten

•Te kleine fragmenten = ontbrekende context voor complexe vragen
•Te grote fragmenten = ruis verdunt relevante informatie
•Documentstructuur negeren (tabellen, lijsten, codeblokken)
•Fragmentmetadata niet opslaan voor filtering

Embeddings & vectordatabases

Vergelijking van embedding-modellen

Model	Dimensies	Prestaties	Kosten	Opmerkingen
OpenAI text-embedding-3-large	3072	Uitstekend	$$	Beste algehele kwaliteit, ondersteunt dimensiereductie
Cohere embed-v3	1024	Zeer goed	$$	Meertalig, compressieopties
Voyage AI	1024	Uitstekend	$$$	Domeinspecifieke modellen beschikbaar
BGE-large	1024	Goed	Free	Open source, zelf-gehoste optie
Mistral Embed	1024	Zeer goed	$	Europese aanbieder, AVG-vriendelijk

Vergelijking van vectordatabases

Pinecone

Beheerd

Snelle start, beheerde infrastructuur

ServerlessMetadata filteringNamespaces

Weaviate

Zelf-gehost/Cloud

Hybride zoeken, GraphQL-API

BM25 + VectorModules ecosystemMulti-tenant

Qdrant

Zelf-gehost/Cloud

Prestaties, fijnmazig filteren

Payload indexingQuantizationRust-based

Chroma

Ingebed/Cloud

Ontwikkeling, prototyping

Python-nativeSimple APILightweight

PostgreSQL + pgvector

Zelf-gehost

Bestaande Postgres-infrastructuur

HNSW/IVFFlatSQL integrationTransactional

Retrieval-strategieën

Basale semantische zoekopdrachten zijn slechts het uitgangspunt. Productiesystemen gebruiken meerdere retrieval-strategieën om de relevantie te maximaliseren.

1. Hybride zoeken (aanbevolen)

Combineer dichte vectorzoekopdrachten met dunne trefwoordzoekopdrachten (BM25). Dit vangt zowel semantische treffers als exacte trefwoordtreffers op die vectorzoekopdrachten mogelijk missen.

Beste voor algemeen gebruikAlpha-menging: 0.7 dense, 0.3 sparse

2. Reranking

Gebruik een cross-encoder-model om de initiële retrieval-resultaten opnieuw te rangschikken. Duurder, maar verbetert de relevantie van top-k-resultaten aanzienlijk.

Cohere RerankVoyage RerankerBGE Reranker

3. Query-uitbreiding

Gebruik een LLM om meerdere queryvarianten te genereren of complexe query's op te splitsen in subquery's. Haal voor elke op en voeg de resultaten samen.

Voegt latentie toeBeste voor complexe vragen

4. Filteren op metadata

Filter vooraf op metadata (datum, bron, categorie) vóór de vectorzoekopdracht. Essentieel voor grote documentcollecties en multi-tenant-systemen.

Verbetert de precisieVerkleint de zoekruimte

LLM-integratie

De generatiefase synthetiseert de opgehaalde context tot een coherent antwoord. Prompt-engineering en contextopmaak zijn cruciaal voor de kwaliteit.

Beste praktijken voor promptsjablonen

Expliciete onderbouwingsinstructie: "Antwoord UITSLUITEND op basis van de verstrekte context. Als het antwoord niet in de context staat, zeg dat dan."

Citatieformaat: Vraag het model om [Bron 1], [Bron 2] enz. in zijn antwoord te citeren

Contextvolgorde: Meest relevante fragmenten eerst (recency-bias helpt)

Fragmentlabeling: Bakent elk fragment duidelijk af met bronmetadata

Beheer van het contextvenster

Evaluatie & testen

U kunt niet verbeteren wat u niet meet. RAG-systemen in productie hebben continue evaluatie over meerdere dimensies nodig.

Metriek	Beschrijving	Doel	Hoe te meten
Retrieval-precisie	% van de opgehaalde fragmenten die relevant zijn	> 80%	Handmatig labelen van retrieval-resultaten
Retrieval-recall	% van de relevante fragmenten die worden opgehaald	> 90%	Vergelijking met ground-truth-dataset
Antwoordrelevantie	Hoe goed het antwoord de query adresseert	> 85%	LLM-als-rechter of menselijke evaluatie
Getrouwheid	Antwoord is onderbouwd in de opgehaalde context	> 95%	Extractie en verificatie van beweringen
Latentie (P95)	End-to-end responstijd	< 3s	Prestatiemonitoring

Aanbevelingen voor evaluatieframeworks

RAGAS

Open-source framework voor RAG-evaluatie met metrieken voor getrouwheid, relevantie en context-recall.

LangSmith / Langfuse

Observability in productie met tracing, evaluaties en promptversiebeheer.

Productieoverwegingen

De overstap van prototype naar productie vereist het aanpakken van betrouwbaarheid, beveiliging en operationele aspecten.

Beveiliging

•Toegangscontroles op data en tenantisolatie
•Preventie van prompt-injectie
•PII-detectie en -maskering
•Auditlogging voor compliance

Infrastructuur

•Caching (embedding, retrieval, respons)
•Rate limiting en circuit breakers
•Asynchrone verwerking voor inname
•Horizontale schaalstrategieën

Actualiteit van data

•Incrementele vs. volledige herindexering
•Mechanismen voor wijzigingsdetectie
•Versiebeheer en rollback
•Detectie van verouderde inhoud

Operationeel

•Monitoring en alerting
•Tracing voor debugging
•Kostenmonitoring per query
•Graceful degradation

Geavanceerde patronen

Voorbij het basale RAG adresseren deze patronen specifieke toepassingen en verleggen ze de grenzen van wat mogelijk is.

Agentic RAG

Gebruik een agentlus om retrieval iteratief te verfijnen. De agent kan beslissen wanneer te zoeken, waarnaar te zoeken en wanneer hij genoeg context heeft om te antwoorden.

Beste voor complexe vragen met meerdere stappen

Graph RAG

Bouw een kennisgraaf uit documenten en doorloop relaties tijdens de retrieval. Maakt multi-hop-redenering en entiteitsgerichte query's mogelijk.

Beste voor gestructureerde domeinen met relaties

Self-RAG

Train of prompt het model om te beslissen wanneer retrieval nodig is, de retrieval-relevantie te beoordelen en gegenereerde antwoorden zelf te bekritiseren.

Vermindert onnodige retrievals

Corrective RAG (CRAG)

Beoordeel de retrievalkwaliteit en val terug op webzoekopdrachten of andere bronnen wanneer interne kennis onvoldoende of onbetrouwbaar is.

Verbetert de dekking voor randgevallen

Klaar om RAG voor productie te bouwen?

Of u nu vanaf nul begint of een bestaand systeem optimaliseert, ik help u RAG op te leveren dat echt werkt.

Bekijk RAG-diensten

Gerelateerde bronnen

Nalevingsgids EU AI-verordening

Zorg dat uw RAG-systeem voldoet aan de regelgevende vereisten

Dienst voor AI-systemen in productie

End-to-end-ondersteuning bij RAG-implementatie

AI Lab-demo's

Zie RAG en andere AI-patronen in actie

Gids voor RAG-implementatie in productie | Hyperion Consulting | Hyperion Consulting