Gestionar metadatos es una parte importante de la automatización de documentos, especialmente para aplicaciones que trabajan con diferentes formatos de documentos. En este artículo, veremos cómo gestionar metadatos en aplicaciones de Python, con un enfoque en la extracción, modificación y eliminación de metadatos.

En esta guía, exploraremos las siguientes secciones:

  1. ¿Qué es GroupDocs.Metadata y cómo ayuda?
  2. Cómo instalar
  3. Guía de inicio rápido
  4. Características clave
  5. Casos de uso comunes
  6. Empezar con una prueba gratuita
  7. Ver también

¿Qué es GroupDocs.Metadata y cómo ayuda?

GroupDocs.Metadata for Python via .NET es una biblioteca potente diseñada para ayudar a los desarrolladores a gestionar metadatos en diversos formatos de documentos en aplicaciones de Python. Aunque Python proporciona métodos nativos para extraer metadatos básicos como el tamaño del archivo, el tipo y los atributos, estos métodos son insuficientes cuando se trata de metadatos más complejos asociados con formatos de archivo específicos.

GroupDocs.Metadata cubre esta brecha permitiendo a los usuarios recuperar, actualizar y eliminar metadatos de archivos como PDF, formatos de Microsoft Office, imágenes, audio, video y muchos otros. También permite acceder a información detallada como el autor, el título, propiedades específicas de los formatos de archivo, incluyendo datos de ubicación GPS y muchos otros. Con una API sencilla, GroupDocs.Metadata te permite manipular metadatos de manera efectiva para cubrir muchos escenarios de automatización de documentos y procesamiento de datos.

Cómo instalar

GroupDocs.Metadata for Python via .NET se puede instalar fácilmente utilizando pip. Puedes hacer referencia a nuestra API en tu proyecto de Python instalándola con el siguiente comando:

pip install groupdocs-metadata-net

Guía de inicio rápido

Empezar con GroupDocs.Metadata for Python via .NET es rápido y sencillo con nuestro proyecto de ejemplos. Aquí tienes una guía sencilla para ayudarte a configurarlo:

  1. Clonar el Repositorio: Clona el repositorio de ejemplos en tu máquina local.

    git clone https://github.com/groupdocs-metadata/GroupDocs.Metadata-for-Python-via-.NET.git
    
  2. Navegar a la carpeta de Ejemplos:

    cd ./GroupDocs.Metadata-for-Python-via-.NET/
    
  3. Instalar los Paquetes Necesarios:

    pip install groupdocs-metadata-net
    
  4. Ejecutar los Ejemplos:

    python run_examples.py
    

Esto ejecutará una serie de scripts de ejemplo que demuestran diversas funcionalidades de la biblioteca GroupDocs.Metadata.

Características clave

GroupDocs.Metadata for Python via .NET está equipado con una gama de características que lo convierten en una API útil para los desarrolladores que trabajan con metadatos de documentos. Aquí tienes algunas de las características clave:

  • Conjunto Rico de Características de Gestión de Metadatos: Leer, actualizar y eliminar metadatos de diversos formatos de documentos.
  • Manipulación de Propiedades Dirigidas: Buscar, actualizar y eliminar propiedades de metadatos específicas que cumplan ciertos criterios.
  • Gestión Unificada de Propiedades: Utilizar etiquetas para la manipulación fácil de propiedades de metadatos comunes de manera consistente.
  • Compatibilidad con Documentos Protegidos con Contraseña: Trabajar con documentos que están protegidos, asegurando flexibilidad incluso con datos sensibles.
  • Insight en las Propiedades del Documento: Extraer información detallada sobre páginas ocultas, firmas digitales, comentarios de usuario, revisiones y más.
  • Compatibilidad con Estándares Populares: Trabajar con estándares de metadatos líderes como IPTC, XMP, EXIF e Image Resources.
  • Manejo de Metadatos Multimedia: Manipular propiedades de metadatos nativas en diversos formatos y extraer información técnica de archivos multimedia.
  • Cálculo de Estadísticas de Documentos: Calcular estadísticas comunes de documentos como el recuento de palabras y el recuento de caracteres para tus documentos.
  • Detección de Formato de Archivo: Identificar el formato y el tipo MIME de un archivo en función de su estructura interna.
  • Compatibilidad con Etiquetas de Audio: Gestionar diversas etiquetas de audio, incluyendo ID3, Lyrics y APE.

Casos de uso comunes

A continuación se presentan algunos casos de uso comunes para GroupDocs.Metadata en aplicaciones de Python, junto con fragmentos de código correspondientes.

Caso de uso 1: Obtener metadatos de una imagen

En este ejemplo, recuperaremos las propiedades de metadatos de un archivo de imagen (por ejemplo, image.jpg) en función de criterios específicos.

  1. Inicializar el Objeto de Metadatos: Crea una nueva instancia de la clase Metadata con tu archivo.
  2. Definir Criterios de Búsqueda: Utiliza una especificación de búsqueda para encontrar propiedades específicas.
  3. Recuperar y Mostrar Metadatos: Recupera las propiedades coincidentes y registra sus nombres y valores.
import os
import groupdocs.metadata as gm
from datetime import datetime

def run():
    with gm.Metadata("image.jpg") as metadata:
        # Verificar si el formato del archivo es conocido y el documento no está cifrado
        if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
            # Definir una especificación de búsqueda para encontrar todas las propiedades
            specification = gm.search.AnySpecification()
            # Encontrar propiedades en función de la especificación de búsqueda
            properties = metadata.find_properties(specification)
            # Iterar a través de las propiedades encontradas y mostrar sus nombres y valores
            for property in properties:
                # Manejar tipos de datos complejos utilizando la propiedad interpreted_value
                if not (property.interpreted_value is None):
                    print(f"Nombre de la propiedad: {property.name}, Valor de la propiedad: {property.interpreted_value}")
                else:
                    print(f"Nombre de la propiedad: {property.name}, Valor de la propiedad: {property.value}")

Caso de uso 2: Limpiar metadatos de un documento

Aquí limpiaremos metadatos no deseados de un documento PDF.

  1. Cargar el PDF: Crea un objeto Metadata para el archivo PDF.
  2. Sanitizar Metadatos: Elimina los paquetes de metadatos detectados.
  3. Guardar el Documento Limpiado: Guarda el documento sanitizado en un nuevo archivo.
import groupdocs.metadata as gm

def run():
    with gm.Metadata("input.pdf") as metadata:
        # Eliminar paquetes de metadatos detectados y registrar las propiedades eliminadas
        affected = metadata.sanitize()
        print(f"Properties removed: {affected}")
        # Guardar el PDF limpiado
        metadata.save("output.pdf")

Caso de uso 3: Actualizar metadatos del documento

Este ejemplo demuestra cómo actualizar los metadatos de derechos de autor de tus documentos, como cuando comienza un nuevo año. El proceso implica tres pasos principales:

  1. Cargar el Documento: Inicializa un objeto Metadata para el archivo del documento.
  2. Establecer Nuevas Propiedades: Actualiza los metadatos de derechos de autor del documento.
  3. Guardar el Documento Actualizado: Guarda los cambios en el archivo.
import os
import groupdocs.metadata as gm
import pathlib
from datetime import datetime

def run():
    files = os.listdir(input_dir_path)
    for file in files:
        with gm.Metadata(input_dir_path + file) as metadata:
            if metadata.file_format != gm.common.FileFormat.UNKNOWN and metadata.get_document_info().is_encrypted != True:
                print()
                print(file)

                # Definir una especificación de búsqueda para encontrar la propiedad de derechos de autor
                specification = gm.search.ContainsTagSpecification(gm.tagging.Tags.legal.copyright)
                # Establecer la propiedad de derechos de autor en un nuevo valor
                affected = metadata.set_properties(specification, gm.common.PropertyValue("Copyright (C) 2011-2025 Your Company. All Rights Reserved."))
                print(f"Affected properties: {affected}")
                # Guardar el archivo actualizado
                metadata.save(output_dir_path + "output" + pathlib.Path(file).suffix)

Empezar con una prueba gratuita

Por defecto, la biblioteca funciona en modo de prueba sin una licencia, permitiéndote explorar sus características y funcionalidades básicas. Puedes descargar GroupDocs.Metadata for Python via .NET desde la página de lanzamientos de GroupDocs.

Además, puedes obtener una licencia temporal desde este enlace. La licencia temporal te permite usar la biblioteca sin ninguna restricción y explorar plenamente sus capacidades.

Ver también

Para profundizar más y obtener más información sobre GroupDocs.Metadata y sus funcionalidades, consulta los siguientes recursos: