Mistral introdujo la interfaz de programación de aplicaciones (API) de reconocimiento óptico Mistral (API) el jueves. El modelo de inteligencia artificial (AI) es capaz de analizar y procesar documentos PDF y convertirlo en un formato de texto listo para AI como Markdown o un archivo de texto sin procesar. La herramienta es capaz de extraer datos de PDFS para que sean digeribles para los modelos de IA. La firma de IA con sede en París afirmó que la API de OCR Mistral permitirá a los desarrolladores crear aplicaciones de IA para archivos PDF, así como permitirles crear conjuntos de datos para capacitar nuevos modelos de IA.

API Mistral OCR introducida

Los documentos PDF plantean un desafío único para los modelos de IA. No se puede acceder al contenido en este formato de archivo mediante grandes modelos de lenguaje (LLM) utilizando técnicas de generación de recuperación tradicional (RAG), ya que los datos no pueden ser procesados por ellos. Por ejemplo, si le pide a una aplicación AI que escanee a través de documentos PDF en su computadora portátil para encontrar una información, podría tener dificultades para hacerlo.

Esto significa que los desarrolladores que construyen aplicaciones de IA estarán limitadas para ofrecer capacidad de análisis PDF. Mientras que Google's NotebookLM, el asistente de IA de Adobe y varias otras herramientas utilizan herramientas de OCR especializadas para superar este desafío, los desarrolladores de la comunidad de código abierto no tienen acceso a una herramienta de alta eficiencia.

La API de Mistral OCR resuelve este desafío al permitir a los desarrolladores extraer datos de PDF en un formato listo para AI. La compañía reclama en una sala de redacción correo que la herramienta puede comprender elementos separados en documentos, incluidos medios, texto, tablas y ecuaciones con alta precisión. Una vez analizado, puede extraer y presentar la información en la reducción o un formato de archivo de texto sin procesar.

Los modelos AI pueden usar este texto extraído ya que los sistemas de entrada y RAG pueden acceder fácilmente a ellos y responder consultas sobre ellos. “Mistral OCR sobresale en la comprensión de los elementos de documentos complejos, incluidas las imágenes entrelazadas, las expresiones matemáticas, las tablas y los diseños avanzados como el formato de látex. El modelo permite una comprensión más profunda de documentos ricos, como documentos científicos con cuadros, gráficos, ecuaciones y figuras ”, declaró la publicación.

La compañía afirmó que el OCR Mistral puede procesar hasta 2,000 páginas por minuto en un solo nodo. La API también permite a los desarrolladores usar el documento como un aviso y salidas de cadena para crear herramientas de llamadas de funciones y agentes de IA.

Según las pruebas internas, el OCR Mistral superó a los modelos como Google Document AI, Azure OCR y GPT-4O versión 2024-11-20 para documentos “solo de texto”. También superó a Google y Azure en capacidades multilingües.

Aquellos interesados en probar la capacidad del modelo pueden ir a la plataforma LE Chat de Mistral. Se puede acceder a la API desde La PlateForme.

Para obtener detalles de los últimos lanzamientos y noticias de Samsung, Xiaomi, Realme, OnePlus, Oppo y otras compañías en el Mobile World Congress en Barcelona, visite nuestro centro MWC 2025.

Donald Trump establece una reserva estratégica de bitcoin, stockpile criptográfico utilizando activos incautados