Trích xuất văn bản từ hình ảnh

Lê Dương Viễn Chinh  | 14/10/2011 12:00 PM

Ground Truth Text - ứng dụng mã nguồn mở hỗ trợ việc trích xuất văn bản từ file ảnh.

Có bao giờ bạn có ý định ghi chép lại những chữ trên một poster quảng cáo về một cuộc thi nào đó không? Nhưng bạn cảm thấy ngại vì số lượng chữ quá nhiều, bạn vừa phải nhìn trên poster vừa đánh lại thì khá mất thời gian. Với một tiện ích có tên là Ground Truth Text, bạn có thể dễ dàng trích xuất chữ từ một tấm ảnh bất kỳ.
 
Sau khi tải về và cài đặt trên máy tính của bạn, tiến hành khởi động ứng dụng từ màn hình desktop.
 
Điều đầu tiên sau khi kích hoạt chương trình là Ground Truth Text sẽ yêu cầu bạn chọn ảnh cần trích xuất văn bản. Bạn thao tác mở file ảnh tương tự như các ứng dụng phổ thông khác.
 
Sau khi chọn ảnh xong, giao diện chính của chương trình sẽ hiện ra. Bạn có thể trích xuất một phần văn bản trên ảnh bằng cách vào Tools / Area Text OCR và tiến hành khoanh vùng văn bản. Hoặc nếu bạn muốn trích xuất toàn bộ văn bản trên ảnh thì bạn có thể vào menu Tools / Copy Text From và chọn Full image..., ngoài ra bạn có thể thực hiện thao tác này bằng phím nóng Ctrl+F.
 
 
Sau khi đã chọn vùng văn bản cần trích xuất, một thông báo hiện ra với nội dung đoạn văn bản bạn cần trích xuất đã được chọn. Nếu bạn muốn chọn lại vùng văn bản, bạn có thể nhấn Cancel hay Try Again hoặc nhấn vào Continue để xác nhận và đoạn văn bản đó sẽ được lưu vào clipboard. Giờ bạn chỉ viết paste vào một trình soạn thảo văn bản bất kỳ như Notepad hay Word…
 
 
Ground Truth Text hỗ trợ các định dạng ảnh BMP, JPEG, GIF, TIFF và PNG. Theo thử nghiệm thì đôi lúc Ground Truth Text hoạt động không chính xác, thường bị lỗi font chữ. Điều mặc nhiên là Ground Truth Text chỉ sao chép nội dung văn bản đơn thuần, không bao gồm kiểu chữ trên ảnh cũng như không nhận ra các văn bản dạng thư pháp.
 
Ground Truth Text tương thích tốt với Windows Vista, Windows 7. Windows XP đôi lúc xảy ra lỗi.
 
Bạn có thể tải Ground Truth Text  về tại đây.
 
Tham khảo Addictivetips