Contenidos
Para convertir una imagen a texto en Python, puedes usar la biblioteca Pytesseract
, que es una envoltura de Python para el motor OCR (Reconocimiento Óptico de Caracteres) Tesseract, desarrollado por Google. Este motor extrae texto de imágenes y lo convierte en texto.
Pasos a seguir:
- Instalar Tesseract OCR:
- Debes tener instalado el motor Tesseract en tu sistema. Puedes descargarlo desde aquí y seguir las instrucciones de instalación correspondientes a tu sistema operativo.
- Asegúrate de que la ruta de instalación esté en tu variable de entorno
PATH
.
- Instalar las dependencias de Python:
- Instala
pytesseract
yPillow
(para manejar imágenes) usandopip
:
pip install pytesseract pillow
- Instala
Código para convertir una imagen a texto:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
# Instalar Tesseract OCR !sudo apt-get install tesseract-ocr # Instalar las dependencias de Python !pip install pytesseract pillow # Importar las bibliotecas from PIL import Image import pytesseract # Cargar la imagen ruta_imagen = "imagen.jpg" # Cambia esto a la ruta de tu imagen imagen = Image.open(ruta_imagen) # Extraer el texto de la imagen texto = pytesseract.image_to_string(imagen) # Mostrar el texto extraído print("Texto extraído de la imagen:") print(texto) # Guardar el texto en un archivo de texto with open("texto_extraido.txt", "w", encoding="utf-8") as archivo: archivo.write(texto) print("El texto se ha guardado en 'texto_extraido.txt'") |
Explicación del código:
- Importar las bibliotecas:
Pillow
(PIL
) para cargar la imagen.pytesseract
para realizar la extracción de texto.
- Especificar la ruta de Tesseract (opcional):
- Si Tesseract no está en el
PATH
, puedes especificar la ruta de instalación manualmente.
- Si Tesseract no está en el
- Cargar la imagen:
- Usamos
Image.open
para cargar la imagen desde el disco.
- Usamos
- Extraer el texto:
pytesseract.image_to_string
convierte la imagen en texto.
- Guardar el texto:
- El texto extraído se guarda en un archivo
texto_extraido.txt
.
- El texto extraído se guarda en un archivo
Ejemplo de uso:
![](https://www.jesusninoc.com/wp-content/uploads/2024/08/imagen.jpg)
![](https://www.jesusninoc.com/wp-content/uploads/2024/08/Convertir-una-imagen-a-texto-en-Python-usando-la-biblioteca-Pytesseract.png)