Hello,
Depuis quelques temps, je test l'OCR sur Nextcloud. Cela fonctionne bien. Je ne l'ai pas encore passé en auto, ni fait un tutoriel sur la mise en place mais cela ne devrais pas tarder ! Me reste encore un point à comprendre/résoudre ( d’où ce message ).
Pour les curieux qui passent par ici, l'OCR sur Nextcloud permet de faire de la reconnaissance de caractères dans les documents PDF. Cela peut permettre de réduire le poids des PDFs, mais surtout cela permet alors d'indexer le contenu, et de pouvoir faire des recherches globale, qui prendrons alors en compte le contenu des PDFs !
Malheuresement dans Nextcloud, quand je recherche un mot, il n'exploite pas ce qui est dans les PDFs. Pourtant c'est bien indexé.
Exemple, j'ai une facture ou le mot "CAILLEBOTI" apparait.
Si je fait une recherche Nextcloud il m'indique qu'il n'y a rien :
Par contre, si a l'intérieur du conteneur Nextcloud je lance la commande suivante (
Alors, j'en suis là. Cela semble donc bien indexé, la lisaison est ok avec Nextcloud, puisque l'indexation fonctionne. Mais la recherche dans Nextcloud ne fonctionne pas.
Dans les logs, j'ai vu des erreurs indiquant que Circles était nécessaires, et il n'était pas actif chez moi. Il est donc maintenant actif, mais cela n'a pas résolu le probleme.
Si certains ont des pistes pour ce probleme Merci
Depuis quelques temps, je test l'OCR sur Nextcloud. Cela fonctionne bien. Je ne l'ai pas encore passé en auto, ni fait un tutoriel sur la mise en place mais cela ne devrais pas tarder ! Me reste encore un point à comprendre/résoudre ( d’où ce message ).
Pour les curieux qui passent par ici, l'OCR sur Nextcloud permet de faire de la reconnaissance de caractères dans les documents PDF. Cela peut permettre de réduire le poids des PDFs, mais surtout cela permet alors d'indexer le contenu, et de pouvoir faire des recherches globale, qui prendrons alors en compte le contenu des PDFs !
Attention : Ceci n'est pas un tutoriel d'installation configuration, il explique juste dans les grandes lignes mon installation et configuration. Je ferait un tutoriel sur le sujet quand j'aurai réussi a comprendre et résoudre ma problématique.
Dans mon conteneurs Nextcloud ( qui est sur base Linuxserver ), je rajoute les paquets suivants pour la prise en charge de l'apps :
apk add ocrmypdf
apk add tesseract-ocr-data-fra
apk add tesseract-ocr-data-eng
Pour cela, je modifie mon docker compose en rajoutant les variables d'environnement suivant dans le compose :
Puis dans Nextcloud, j'install l'application https://github.com/R0Wi-DEV/workflow_ocr
et je configure le flow : https://github.com/nextcloud/fulltextsearch/wiki/Basic-Installation
Ensuite pour la recherche, il faut Elasticsearch, je créer donc dans ma stack un nouveau conteneur :
Ps : Attention la limite de mémoire est importante ! elasticsearch va consommer toutes la mémoire que vous lui offrez.
J'install les applications suivantes dans Nextcloud :
Full text search
Full text search - Elasticsearch Platform
Full text search - Files
Et je les configure :
Je force la première indexation sans probleme avec :
Dans mon conteneurs Nextcloud ( qui est sur base Linuxserver ), je rajoute les paquets suivants pour la prise en charge de l'apps :
apk add ocrmypdf
apk add tesseract-ocr-data-fra
apk add tesseract-ocr-data-eng
Pour cela, je modifie mon docker compose en rajoutant les variables d'environnement suivant dans le compose :
Code:
- DOCKER_MODS=linuxserver/mods:universal-package-install
- INSTALL_PACKAGES=ocrmypdf|tesseract-ocr-data-fra|tesseract-ocr-data-eng
Puis dans Nextcloud, j'install l'application https://github.com/R0Wi-DEV/workflow_ocr
et je configure le flow : https://github.com/nextcloud/fulltextsearch/wiki/Basic-Installation
Ensuite pour la recherche, il faut Elasticsearch, je créer donc dans ma stack un nouveau conteneur :
Code:
elasticsearch:
container_name: nextcloud-elastic
restart: unless-stopped
environment:
- ELASTIC_PASSWORD=MOTDEPASSE
- xpack.security.enabled=false
- discovery.type=single-node
mem_limit: 2048m
ports:
- '9200:9200'
image: 'docker.elastic.co/elasticsearch/elasticsearch:8.10.0'
Ps : Attention la limite de mémoire est importante ! elasticsearch va consommer toutes la mémoire que vous lui offrez.
J'install les applications suivantes dans Nextcloud :
Full text search
Full text search - Elasticsearch Platform
Full text search - Files
Et je les configure :
Je force la première indexation sans probleme avec :
Code:
occ fulltextsearch:index
Malheuresement dans Nextcloud, quand je recherche un mot, il n'exploite pas ce qui est dans les PDFs. Pourtant c'est bien indexé.
Exemple, j'ai une facture ou le mot "CAILLEBOTI" apparait.
Si je fait une recherche Nextcloud il m'indique qu'il n'y a rien :
Par contre, si a l'intérieur du conteneur Nextcloud je lance la commande suivante (
curl "http://172.18.108.8:9200/my_index/_search?q=CAILLEBOTI"
), pour recherche dans ElasticSearch, alors il me sort des résultats, et je vois clairement ma facture " :Alors, j'en suis là. Cela semble donc bien indexé, la lisaison est ok avec Nextcloud, puisque l'indexation fonctionne. Mais la recherche dans Nextcloud ne fonctionne pas.
Dans les logs, j'ai vu des erreurs indiquant que Circles était nécessaires, et il n'était pas actif chez moi. Il est donc maintenant actif, mais cela n'a pas résolu le probleme.
Si certains ont des pistes pour ce probleme Merci
Dernière édition: