L’entrenament de models d’IA afronta una limitació crítica: la manca de dades públiques de qualitat.
La intel·ligència artificial avança ràpidament, amb models cada vegada més sofisticats. Cada pocs mesos apareixen models més potents i precisos, capaços de generar text, imatges, codi i raonament complex. Tanmateix, darrere d’aquest progrés hi ha un factor crític que rep menys atenció: l’escassetat de dades de qualitat.
Durant anys s’ha repetit la idea que vivim en una era d’“excés d’informació”. No obstant això, els models d’IA no consumeixen qualsevol contingut: necessiten dades abundants, variades i, sobretot, de qualitat. I aquestes dades, especialment les públiques i ben estructurades, són molt més escasses del que sembla.
Algunes xifres que ajuden a dimensionar el problema:
Aquesta tendència continua accelerant-se. Investigacions independents, com les d’Epoch AI, projecten que, si continuem a aquest ritme, podríem esgotar les fonts públiques de text útil entre 2026 i 2032. Aquesta predicció ha estat recolzada per Elon Musk, que ha assenyalat públicament que el coneixement disponible a la web ja no és suficient per alimentar els models més grans.
En teoria, vivim envoltats de dades. En la pràctica, la major part són privades, propietàries o protegides per normatives. Registres mèdics, operacions bancàries, documentació empresarial, sistemes públics… la major part del coneixement valuós del món no és lliure ni accessible, i per bones raons.
Aquesta situació ha generat una intensa competència per l’accés a dades. Les grans companyies tecnològiques competeixen per llicències de contingut, els llocs web implementen restriccions al rastreig automàtic (web scraping), i es negocien acords milionaris per l’accés a bases de dades especialitzades. El resultat és un mercat de dades cada vegada més tancat, costós i estratègic.
Davant la creixent dificultat d’accedir a dades reals de qualitat, una alternativa està guanyant terreny a la indústria: les dades sintètiques. Aquestes dades no provenen de persones, empreses o registres reals, sinó que són generades artificialment per models estadístics o sistemes d’IA amb l’objectiu de reproduir els patrons i comportaments de dades autèntiques.
És a dir, si entrenem un model amb un conjunt d’historials clínics, imatges mèdiques o transaccions financeres, aquest model pot aprendre’n les característiques i després crear nous exemples que s’hi assemblin, però sense contenir informació identificable. Així s’aconsegueix un equilibri entre utilitat i privacitat.
Existeix un fenomen conegut com a “col·lapse del model” (model collapse). Si entrenem nous models principalment amb dades generades per altres models, la diversitat disminueix. És com fotocopiar una fotocòpia: amb cada generació, es perd nitidesa.
Això pot provocar:
Per això, l’ús de dades sintètiques ha d’anar acompanyat de supervisió humana i combinat sempre amb dades reals seleccionades acuradament.
La indústria està desenvolupant diversos enfocaments per gestionar aquesta limitació. En lloc de continuar escalant models cada cop més grans, moltes organitzacions opten per models més petits i especialitzats (Small Language Models o SLM), dissenyats per resoldre tasques específiques de manera més eficient.
L’entrenament multimodal també està prenent rellevància: combinar text, imatges, àudio i vídeo curats acuradament permet aprofitar millor les dades disponibles. Paral·lelament, s’estan establint marcs d’atribució de dades que permeten als creadors i organitzacions mantenir el control sobre com s’utilitzen els seus continguts.
Les dades sintètiques continuaran tenint un paper important, però el seu ús ha de ser responsable: requereix supervisió contínua i avaluació rigorosa per evitar tant la degradació dels models com l’amplificació de biaixos. El repte és real, però les solucions ja estan en marxa.
La IA no depèn només de models més grans o de maquinari més potent: depèn de les dades que l’alimenten. I aquestes dades ja no són infinites.
El futur de la IA no es jugarà únicament en els algoritmes, sinó en com recollim, estructurem, protegim i combinem les dades. Les organitzacions que entenguin aquesta dinàmica —empreses, governs i investigadors— tindran un avantatge competitiu significatiu en els pròxims anys.
22a Festibity
13 de maig de 2025 - Teatre Nacional de Catalunya