IThinkUPC

novembre 27, 2025
11:57

L’entrenament de models d’IA afronta una limitació crítica: la manca de dades públiques de qualitat.

La intel·ligència artificial avança ràpidament, amb models cada vegada més sofisticats. Cada pocs mesos apareixen models més potents i precisos, capaços de generar text, imatges, codi i raonament complex. Tanmateix, darrere d’aquest progrés hi ha un factor crític que rep menys atenció: l’escassetat de dades de qualitat.

Durant anys s’ha repetit la idea que vivim en una era d’“excés d’informació”. No obstant això, els models d’IA no consumeixen qualsevol contingut: necessiten dades abundants, variades i, sobretot, de qualitat. I aquestes dades, especialment les públiques i ben estructurades, són molt més escasses del que sembla.

Algunes xifres que ajuden a dimensionar el problema:

GPT-3 va ser entrenat amb aproximadament 300 mil milions de tokens.
DBRX, de Databricks, ha estat entrenat amb més de 12 bilions de tokens.

Aquesta tendència continua accelerant-se. Investigacions independents, com les d’Epoch AI, projecten que, si continuem a aquest ritme, podríem esgotar les fonts públiques de text útil entre 2026 i 2032. Aquesta predicció ha estat recolzada per Elon Musk, que ha assenyalat públicament que el coneixement disponible a la web ja no és suficient per alimentar els models més grans.

No és només una qüestió de quantitat

En teoria, vivim envoltats de dades. En la pràctica, la major part són privades, propietàries o protegides per normatives. Registres mèdics, operacions bancàries, documentació empresarial, sistemes públics… la major part del coneixement valuós del món no és lliure ni accessible, i per bones raons.

Aquesta situació ha generat una intensa competència per l’accés a dades. Les grans companyies tecnològiques competeixen per llicències de contingut, els llocs web implementen restriccions al rastreig automàtic (web scraping), i es negocien acords milionaris per l’accés a bases de dades especialitzades. El resultat és un mercat de dades cada vegada més tancat, costós i estratègic.

La resposta emergent: les dades sintètiques

Davant la creixent dificultat d’accedir a dades reals de qualitat, una alternativa està guanyant terreny a la indústria: les dades sintètiques. Aquestes dades no provenen de persones, empreses o registres reals, sinó que són generades artificialment per models estadístics o sistemes d’IA amb l’objectiu de reproduir els patrons i comportaments de dades autèntiques.

És a dir, si entrenem un model amb un conjunt d’historials clínics, imatges mèdiques o transaccions financeres, aquest model pot aprendre’n les característiques i després crear nous exemples que s’hi assemblin, però sense contenir informació identificable. Així s’aconsegueix un equilibri entre utilitat i privacitat.

Avantatges:

Privacitat per disseny: permeten entrenar models sense exposar informació sensible.
Escalabilitat: es poden generar milions d’exemples en pocs minuts.
Simulació de situacions poc comunes: permet entrenar models amb esdeveniments que rarament apareixen en dades reals, des d’anomalies industrials fins a condicions mèdiques infreqüents.
Reducció de costos: disminueix la necessitat de recollida manual o d’anotació extensa.

Riscos associats:

Existeix un fenomen conegut com a “col·lapse del model” (model collapse). Si entrenem nous models principalment amb dades generades per altres models, la diversitat disminueix. És com fotocopiar una fotocòpia: amb cada generació, es perd nitidesa.

Això pot provocar:

Respostes més repetitives.
Menys creativitat.
Desconnexió amb la realitat del món.

Per això, l’ús de dades sintètiques ha d’anar acompanyat de supervisió humana i combinat sempre amb dades reals seleccionades acuradament.

Estratègies per abordar l’escassetat de dades

La indústria està desenvolupant diversos enfocaments per gestionar aquesta limitació. En lloc de continuar escalant models cada cop més grans, moltes organitzacions opten per models més petits i especialitzats (Small Language Models o SLM), dissenyats per resoldre tasques específiques de manera més eficient.

L’entrenament multimodal també està prenent rellevància: combinar text, imatges, àudio i vídeo curats acuradament permet aprofitar millor les dades disponibles. Paral·lelament, s’estan establint marcs d’atribució de dades que permeten als creadors i organitzacions mantenir el control sobre com s’utilitzen els seus continguts.

Les dades sintètiques continuaran tenint un paper important, però el seu ús ha de ser responsable: requereix supervisió contínua i avaluació rigorosa per evitar tant la degradació dels models com l’amplificació de biaixos. El repte és real, però les solucions ja estan en marxa.

Conclusió

La IA no depèn només de models més grans o de maquinari més potent: depèn de les dades que l’alimenten. I aquestes dades ja no són infinites.

El futur de la IA no es jugarà únicament en els algoritmes, sinó en com recollim, estructurem, protegim i combinem les dades. Les organitzacions que entenguin aquesta dinàmica —empreses, governs i investigadors— tindran un avantatge competitiu significatiu en els pròxims anys.