רוצים לאבטח את הסוד, או המידע הרגיש שנמצא בתוך המסמכים? זה בר ביצוע גם אם זה מידע טקסטואלי רגיל או שזה טקסט עם המסמך הסרוק עם תמונות. המאמרים הקודמים עשויים לעזור לך לצמצם את החיפוש שלך, שם דנו באסטרטגיות שונות לחיפוש מילים ו-חפש מילים נרדפות בתוך מספר מסמכים. מאמר זה מנחה אותך כיצד לבטל טקסט וטקסט PDF בתמונות בתוך מסמך באמצעות Java.

הנושאים הבאים יכוסו להלן:

Java API עבור עיבוד טקסט ותמונה

GroupDocs.Redaction מספקת את פתרון העריכה לאבטחת המידע המסווג. ה-Java API שלו מאפשר לך לתקן או להסיר מידע סודי בתוך מסמכים בפורמטים שונים של קבצים מהיישומים מבוססי Java שלך. יחד עם עריכת הטקסט והרסטר הפשוטה, ה-API מאפשר גם לזהות את הטקסט בתמונות שאולי היו בתוך כל מסמך כמו קבצי PDF סרוקים הנפוצים ביותר. הרשימה המלאה של פורמטי קבצים נתמכים זמינה בתיעוד.

הורד או הגדר

אתה יכול להוריד את קובץ ה-JAR מסעיף ההורדות, או פשוט לקבל את תצורות המאגר והתלות העדכניות ביותר עבור ה-pom.xml של יישומי Java המבוססים על maven.

<repository>
	<id>GroupDocsJavaAPI</id>
	<name>GroupDocs Java API</name>
	<url>https://repository.groupdocs.com/repo/</url>
</repository>
<dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-redaction</artifactId>
        <version>21.6</version> 
</dependency>

צור טקסט PDF וטקסט תמונה סרוק באמצעות Java

כבר דנו בדרכים למצוא ולהחליף טקסט במסמכים. עם זאת, אנו יכולים גם לבטל טקסט בתוך תמונות. אני אשתמש במסמך ה-PDF הבא, שמכיל קצת טקסט וגם תמונה עם קצת טקסט. לשם כך, עלינו לשלב OCR עם תהליך העריכה. ראשית, נזהה את הטקסט במסמך וגם את הטקסט שנמצא בתוך תמונת המסמך. לאחר מכן, נכסה אותו בקופסה שחורה כדי להסתיר באופן תוכנתי כל מידע חוקי, סודי או סודי גם אם הוא כטקסט בתוך תמונת מסמך סרוקה.

PDF עם טקסט ותמונה סרוקה

השלבים הבאים יאתרו ויחליפו את הטקסט במסמכי ה-PDF, המכיל טקסט רגיל או כל טקסט בתוך התמונות המוטבעות.

  • הכן את הגדרות העורך באמצעות כל מחבר OCR.
  • טען את קובץ ה-PDF שלך באמצעות מחלקה Redactor וגם אם ישנן אפשרויות טעינה ספציפיות הנדרשות.
  • הגדר את אפשרויות ההחלפה שלך. אני בוחר להחשיך את הטקסט.
  • הכן את העריכות; השתמש באסטרטגיית העריכה המתאימה כמו Phrase Redaction או RegEx redaction.
  • החל את העריכות בשיטת apply.
  • שמור את המסמך שנערך בשיטת שמור.

קוד המקור הבא עורך את הטקסט שנבחר בתוך מסמך PDF באמצעות Java.

// צור טקסט ב-PDF וטקסט בתמונה כמו מסמך סרוק באמצעות Java
RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("path/document.pdf", new LoadOptions(), settings))
{
    ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
    Redaction redactions[] = new Redaction[] {
            new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // cardholder name
            new RegexRedaction("\\d{2}/\\d{2}", marker), // valid thru
            new RegexRedaction("\\d{4}", marker)  // card number parts
        };
    RedactorChangeLog result = redactor.apply(redactions);
    if (result.getStatus() != RedactionStatus.Failed)
    {
        redactor.save(new SaveOptions(false, "redacted"));
    }
}

הפלט של הקוד לעיל הוא כדלקמן עם הטקסט הנבחר המושחר של מסמך ה-PDF.

עריכת טקסט PDF וטקסט תמונה סרוקה

קבל רישיון API בחינם

אתה יכול לקבל רישיון זמני בחינם לשימוש ב-API ללא מגבלות ההערכה.

סיכום

לסיום, למדת כיצד לערוך טקסט במסמכים. בנוסף, דנו כיצד לבטל טקסט בתמונות בתוך מסמך PDF באמצעות Java. באופן דומה, אתה יכול לשנות טקסט ותמונות עם מסמכים בכל פורמט אחר. השתמשנו בעריכת הביטויים הרגולריים, עם זאת, ניתן לעשות זאת גם בדרכים רבות ושונות. מאוחר יותר הסתרנו את תוצאות החיפוש באמצעות קופסה שחורה.

לפרטים נוספים כדי ללמוד על ה-API, בקר בתיעוד. לשאלות, צור איתנו קשר דרך הפורום.

ראה גם