IBM

Docling para IBM watsonx: convierta documentos complejos en datos preparados para la IA

IBM anuncia la disponibilidad general de Docling para IBM watsonx, incorporando el kit de herramientas Docling de código abierto ampliamente adoptado en un servicio gestionado para convertir documentos complejos y desordenados en datos estructurados y preparados para la IA.

Las iniciativas de IA empresarial suelen tener éxito o fracasar en función de la calidad de los datos en los que se basan. Sin embargo, la mayor parte del conocimiento empresarial está atrapado en documentos complejos que nunca se diseñaron para el consumo de IA, como archivos PDF, imágenes y diapositivas. A medida que las organizaciones desarrollan sistemas RAG, experiencias de búsqueda empresarial y agentes de IA, la transformación de esos documentos en datos estructurados y fiables es un requisito imprescindible para lograr una IA fiable a gran escala.

Con más de 40 millones de descargas, el kit de herramientas Docling de código abierto se ha convertido en una solución popular a este problema, ayudando a los equipos a convertir documentos en formatos estructurados que conservan el diseño, las tablas, el orden de lectura y las relaciones. Ahora, IBM ofrece Docling como un servicio gestionado de nivel empresarial.

Con Docling para IBM Watsonx, los equipos pueden pasar de documentos en bruto a datos reutilizables y regulados para IA de forma más rápida y rentable, sin tener que implementarlos y mantenerlos ellos mismos. A un precio fijo de 4 dólares por 1000 páginas, Docling para IBM watsonx ofrece un 20 % menos de precios para la Document Conversion en comparación con los principales proveedores seleccionados*, al tiempo que ayuda a los equipos a preparar entradas de mayor calidad para RAG, Enterprise Search y flujo de trabajo de agentes.

Por qué la preparación de los documentos es importante para la IA

Los proyectos de IA suelen comenzar con el objetivo sencillo de facilitar la búsqueda, la comprensión y el uso del conocimiento. Sin embargo, gran parte de ese conocimiento se encuentra en formatos no estructurados o semiestructurados que se diseñaron para que los leyeran las personas, no los sistemas de IA.

Un PDF puede contener párrafos, tablas, gráficos, encabezados de página, notas a pie de página, fórmulas e imágenes. Un documento escaneado puede requerir reconocimiento óptico de caracteres (OCR). Una presentación de diapositivas puede incluir relaciones visuales en varias capas que resultan evidentes para una persona, pero difíciles de interpretar para un modelo de IA. Cuando esos documentos se convierten a texto sin formato, puede perderse información contextual importante.

Pero ese contexto es crítico para una IA eficaz. La disposición, la jerarquía, las tablas, el orden de lectura y las relaciones entre los elementos del documento contribuyen a determinar el significado. Si una tabla se convierte en un bloque de texto sin ordenar, o si una imagen se separa de su pie de foto, los sistemas de IA posteriores podrían recuperar información errónea o generar respuestas poco fiables. Una mala conversión de documentos puede debilitar los flujos de trabajo de búsqueda, RAG y agentes, incluso cuando el modelo fundacional subyacente es sólido.

Algunos equipos intentan resolver esto enviando documentos en bruto directamente a grandes modelos frontera. Aunque esto puede funcionar, se vuelve caro rápidamente a escala y no crea resultados estructurados reutilizables. Otros equipos pueden unir herramientas de OCR, analizadores de archivos, fragmentadores e infraestructura personalizada. Este enfoque implica gestionar múltiples herramientas, ajustar los flujos de trabajo para distintos tipos de archivos y mantener la infraestructura; y, aun así, es posible que no se consiga preservar la estructura que necesitan las aplicaciones de IA.

Preservar el significado para una mejor preparación de los documentos

Docling para IBM watsonx ayuda a los equipos a convertir documentos complejos y multiformato en outputs estructurados que son más fáciles para las aplicaciones de IA a recuperar, procesar, analizar y reutilizar en todos los flujos de trabajo.

En lugar de tratar el procesamiento de documentos como una extracción de texto básica, Docling for IBM watsonx aplica capacidades de comprensión de documentos, como modelos especializados para el análisis de diseño y el reconocimiento de tablas, para preservar más del significado del contenido original.

El OCR se optimiza a menudo para reconocer texto, sin entender cómo se organiza ese texto en una página. Siempre que es posible, Docling evita el uso del OCR y opta por métodos que reconocen y clasifican los elementos visuales directamente, lo que ayuda a conservar aspectos contextuales importantes, como la maquetación, las tablas, el orden de lectura y las relaciones entre los documentos. Cuando se necesita OCR para archivos PDF o imágenes escaneados, Docling puede seguir utilizándolo como parte del proceso de procesamiento.

Este enfoque basado en la estructura proporciona un camino más sólido desde el contenido sin procesar hasta los datos preparados para la IA, lo que ayuda a los equipos a reducir la preparación manual, a mejorar la calidad de la recuperación posterior y a reducir los gastos operativos.

Llevar Docling a producción

Basado en el kit de herramientas de código abierto Docling, desarrollado por IBM Research y cedido a la Fundación Linux, Docling para IBM watsonx ofrece toda la potencia de Docling como un servicio de IBM totalmente gestionado. El proyecto de código abierto ha experimentado una adopción significativa en la comunidad, alcanzando recientemente las 500 mil descargas diarias, ya que la preparación de documentos se convierte en un paso crítico para hacer que el contenido sea utilizable para agentes RAG, búsqueda Enterprise Search e agentes de IA.

Ahora, IBM facilita a los equipos la puesta en producción de Docling sin que tengan que encargarse ellos mismos de implementar, configurar y mantener la infraestructura subyacente.

«Hemos estado utilizando Docling de código abierto en producción. Recientemente probamos [Docling for IBM watsonx] y descubrimos que ha mejorado la precisión. La velocidad de análisis también se duplicó», dijo un usuario de una institución financiera de Singapur. «Un servicio de Docling gestionado facilitaría la adopción al abstraer las operaciones de infraestructura, incluido el escalado de capacidad, para que los equipos puedan centrarse en la integración en lugar del mantenimiento de la plataforma».

El servicio está diseñado para ofrecer una vía más rápida hacia la obtención de valor, gracias a una configuración lista para usar, un escalado automático en función de la demanda de la carga de trabajo y un procesamiento de alto rendimiento, sin que los equipos tengan que planificar ni gestionar una capacidad dedicada.

Los equipos pueden utilizar Docling para IBM watsonx a través de una sencilla interfaz de usuario para la experimentación, la inspección y el procesamiento rápido de documentos. A escala, las capacidades pueden integrarse directamente en las aplicaciones de producción, los pipelines de automatización y los flujos de trabajo de IA empresarial a través de API fáciles de usar.

Diseñado para RAG, búsqueda y agentes

Al convertir archivos complejos en entradas más limpias, Docling para IBM watsonx ayuda a soportar un amplio conjunto de flujos de trabajo de IA y datos:

  • Conversión de documentos: Convierta más de 20 tipos de archivos, como PDF, imágenes y presentaciones, a formatos estructurados como Markdown o JSON, listos para su uso en sistemas de IA posteriores.
  • Generación aumentada por recuperación (RAG): cree contenido estructurado y listo para fragmentos que pueda mejorar la calidad de la recuperación, la conexión a tierra y la precisión de la respuesta. Docling actúa como la capa de ingestión y preparación de documentos para OpenRAG en watsonx.data, un marco RAG agéntico listo para usar.
  • Búsqueda empresarial: transforme documentos en datos listos para la búsqueda que conserven mejor el contexto, ayudando a los usuarios a encontrar la información correcta de forma más fiable. Puedes combinar Docling con OpenSearch para una búsqueda híbrida por palabra clave y vector, que también actúa como capa de búsqueda y recuperación para OpenRAG.
  • Extracción de información: extraiga campos clave, entidades, tablas y elementos de documentos del contenido sin procesar y estandarícelos en formatos que sean más fáciles de usar en los flujos de trabajo empresariales y de IA.
  • Flujos de trabajo agénticos: proporcione a los agentes de IA entradas más limpias e interpretables para que puedan recuperar el contexto, razonar sobre él y actuar de forma más fiable.

Primeros pasos con Docling para IBM watsonx

Docling para IBM watsonx ya está disponible de forma general como una oferta SaaS alojada en AWS. Puedes probarlo gratis y empezar a procesar documentos a través de una interfaz fácil de usar, y luego pasar a la integración basada en API cuando estés listo para integrar la inteligencia documental en los flujos de trabajo de producción.

El servicio está disponible a través de IBM Marketplace o AWS Marketplace con precios de pago por uso simples y predecibles a 4 dólares por 1000 páginas. A escala, eso significa que puede ahorrar 1000 dólares por millón de páginas convertidas en comparación con la oferta comparable de menor precio con Docling para IBM watsonx*. Las suscripciones anuales también están disponibles a partir de 1 millón de páginas al año e incluyen soporte y rendimiento de procesamiento premium.

Docling para IBM watsonx ofrece una forma práctica y rentable de convertir documentos complejos en datos reutilizables preparados para la IA y ayuda a reducir el esfuerzo manual, el coste y la complejidad operativa que pueden ralentizar las iniciativas de IA.