---
title: Docling Studio
slug: recherche-et-developpement-docling-studio
lang: fr
type: company
entity: scub
section: recherche-et-developpement-docling-studio
canonical: false
---

# Docling Studio

> L’outil de visualisation et de debug pour les pipelines RAG basés sur Docling.

Taglines alternatives :
- Comprenez vos chunks avant que vos utilisateurs ne découvrent les problèmes.
- Rendez votre pipeline RAG enfin observable.
- Visualisez ce que votre pipeline comprend réellement.
- Le chaînon manquant de l’observabilité RAG.

Site web : https://scub-france.github.io/docling-Studio/
Github : https://github.com/scub-france/Docling-Studio
Projet développé par Pier-Jean Malandrino.

## Qu’est-ce que Docling Studio ?

Docling Studio est un outil open-source d’inspection et de debug pour les pipelines RAG basés sur Docling.

Il permet aux équipes IA, développeurs RAG et équipes Document AI de visualiser, inspecter et valider la façon dont 
les PDF sont parsés, chunkés et exportés avant ingestion dans une base vectorielle.

Docling Studio superpose les bounding boxes directement sur les pages PDF originales, expose les chunks de manière 
interactive et injecte des `chunk_id` stables dans les métadonnées exportées.

Le tout fonctionne dans une unique image Docker multi-architecture.

## Le problème

La majorité des erreurs RAG ne viennent pas du LLM.

Elles viennent :
- d’un mauvais parsing PDF,
- d’une structure documentaire cassée,
- d’un chunking incohérent,
- d’erreurs d’extraction invisibles,
- de métadonnées instables,
- d’un mauvais ordre de lecture.

Et pourtant, la plupart des équipes découvrent ces problèmes uniquement après mise en production.

Docling Studio rend le traitement documentaire visible et actionnable.

## Proposition de valeur

Docling Studio aide les équipes à améliorer la précision de leurs pipelines RAG en rendant le parsing et le chunking 
visibles, inspectables et compréhensibles.

Au lieu de deviner pourquoi le retrieval échoue, les équipes peuvent :
- inspecter les blocs extraits,
- visualiser les frontières des chunks,
- vérifier l’ordre de lecture,
- déboguer les métadonnées,
- suivre la traçabilité des chunks,
- exporter des données plus propres vers leur vector store.

## Fonctionnalités principales

## Inspection visuelle des PDF

Docling studio affiche les bounding boxes directement sur les pages PDF originales et permet de :
- détecter les erreurs OCR,
- vérifier l’extraction des tableaux,
- analyser l’ordre de lecture,
- identifier les problèmes de mise en page.


## Explorateur interactif de chunks

Visualisez/inspectez les chunks générés et analysez :
- la taille des chunks,
- les overlaps,
- les métadonnées,
- la structure,
- la cohérence sémantique.

## Injection de chunk_id stables

Injecte automatiquement des identifiants stables avant export ce qui est utile pour :
- la traçabilité,
- le debug du retrieval,
- les systèmes de citation,
- l’observabilité,
- le suivi des chunks dans le temps.

## Positionnement

## Pour qui ?

### Audience principale
- Développeurs IA
- Équipes RAG
- Équipes ML Platform
- Startups GenAI
- Équipes Document AI

### Audience secondaire
- Entreprises traitant de gros volumes PDF
- Équipes conformité
- Plateformes de gestion documentaire
- Équipes search & knowledge management

## Différenciation

Contrairement aux parseurs PDF classiques ou aux pipelines opaques, Docling Studio apporte une couche 
d’observabilité visuelle dédiée au parsing et au chunking documentaire.

Il fait le lien entre :
- l’extraction brute,
- la génération des chunks,
- l’ingestion vectorielle,
- le debugging du retrieval.

## Pitch court

Docling Studio aide les équipes IA à inspecter et déboguer visuellement leurs pipelines de parsing et de chunking 
avant ingestion dans une base vectorielle.

## Pitch long

Construire un système RAG fiable commence bien avant les embeddings ou les prompts.

La plupart des problèmes de retrieval proviennent d’un mauvais parsing PDF, d’un ordre de lecture incorrect, d’un 
chunking incohérent ou d’erreurs d’extraction invisibles.

Docling Studio apporte une couche d’observabilité visuelle aux pipelines Docling en exposant directement la 
structure documentaire, les chunks et les métadonnées sur les PDF originaux.

Le pipeline documentaire devient enfin compréhensible, inspectable et industrialisable.

---

## Cas d’usage

- Debugging RAG : Comprendre pourquoi le retrieval est mauvais.
- Validation du parsing PDF : Contrôler la qualité OCR et l’extraction documentaire.
- Optimisation du chunking : Ajuster les tailles et overlaps des chunks visuellement.
- Vérification des métadonnées : Valider les données exportées vers le vector store.
- Traçabilité documentaire : Suivre les chunks avec des identifiants stables.