Excel-opschoning

idee

Idee

Rommelige Excel-bestanden automatisch opschonen voordat ze het systeem binnenkomen. Structuurdetectie, kolomherkenning, type-inferentie en waarde-normalisatie — aangestuurd door een LLM in plaats van handmatige regels.

Probleem

Excel-bestanden van externe partijen bevatten structurele problemen: samengevoegde cellen, meerdere tabellen per sheet, kopteksten op onverwachte rijen, inconsistente datumnotaties, valuta als tekst, en onzichtbare tekens (NBSP, zero-width spaces). Bestaande tools lossen elk een deelprobleem op maar geen enkele combineert het volledige traject.

Pipeline

1. Upload Excel-bestand 2. openpyxl extraheert raw celgrid (waarden, merges, formatting) 3. Claude analyseert structuur: → Welke rij is de koptekst? → Zijn er meerdere tabellen op één sheet? → Welke kolommen mappen op het doelschema? 4. Type-inferentie per kolom (datum, getal, telefoon, valuta) 5. Waarde-normalisatie (trim, casing, encoding-fixes) 6. Validatie tegen doelschema 7. Anomalie-rapport: wat is aangepast, wat is in quarantaine 8. Schone output → klaar voor import-assistent

Relatie met import-assistent

Excel-opschoning is de stap vóór de import-assistent. De opschoning levert een schoon, gestructureerd bestand op. De import-assistent bepaalt vervolgens hoe de data in het systeem terechtkomt (dedup, linking, profiel).

Bestaand landschap

ToolSterrenDekt af
Docling (IBM)57kAI-tabelextractie uit Excel/PDF, merged cells, multi-level headers
OpenRefine12kInteractieve opschoning, clustering van varianten
pyjanitor1.5kChainable pandas-cleaning: clean_names, remove_empty
DataPrep2.2k140+ cleaning-API's, auto-infer met clean_df
Great Expectations11kDeclaratieve validatieregels
Valentine (TU Delft)107Fuzzy kolomnaam-matching met 5 algoritmes
visions217Semantische type-inferentie
thefuzz3.6kLevenshtein-gebaseerde fuzzy matching
dedupe4.5kActive-learning deduplicatie en entity resolution
TableSense (Microsoft)48CNN voor detectie van meerdere tabellen op één sheet
Cellm922LLM-aangedreven formules in Excel
AI Sheets (HuggingFace)1.6kNo-code spreadsheet met LLM-cleaning

Gat in de markt

Geen enkele open-source tool combineert koptekst-detectie, merged-cell-handling, multi-tabel-extractie, fuzzy kolom-matching en type-inferentie in één pakket. De LLM-aanpak vervangt 4-6 losse bibliotheken met één aanroep voor de moeilijkste stappen (structuurherkenning, semantische kolom-matching).

LLM vs. traditioneel

StapTraditioneelLLM-aanpak
Koptekst-detectiemessytables heuristiekClaude interpreteert eerste 20 rijen
Multi-tabel-detectieTableSense CNNClaude herkent lege rij/kolom-patronen
Kolom-mappingValentine + thefuzzClaude matcht semantisch ("DOB" → geboortedatum)
Type-inferentievisionsHybride: visions voor bulk, Claude voor edge cases
Normalisatiepyjanitor + ftfy + regexRegelgebaseerd (sneller, deterministisch)

Technische keuzes

Open vragen