Creation d'une base de données pomologique

  1. greffer.net
  2. >>
  3. Hors-sujet


floyd a écrit le 07/08/2010 19:08 (ref msg # 27890 )
Au niveau programmation, la base de données n'est pas la difficulté.
Il suffit d'un cahier des charges clair, donc des idées claires.
Après, pour les programmer, ça demande juste du temps, mais ce n'est pas la difficulté.

Sachant qu'il faut une partie codifiée (descripteurs) pour les recherches, la gestion des synonymes, et une partie pièces attachées (photos, scans des textes intégraux des pomologues, genre le descriptif leroy, mas, etc.... pour le relire en détail et affiner le résultat de la recherche ; à défaut un renvoi vers la référence du livre, mais c'est quand même bien plus pratique d'avoir juste un clic à faire).

La difficulté c'est la saisie, prendre toute la documentation pomologique (mas, leroy, marlaud, vercier...) , tout codifier selon les descripteurs retenus, scanner les photos, croquis...
Et une démarche qualité avec des individus qui vérifient le travail réalisé par les autres.
Comment gérer les cas de variétés où il y a des variantes de descriptions (associer multiples codages à une même variétés, introductions de qualificatifs "parfois/toujours", comme l'indiquait matiokidor dans une autre discussion)?


Ces quelques lignes de Patrice ont de quoi faire réfléchir… avant de se lancer. On ne peut qu'être d'accord sur les principes exposés.
Décrite comme cela, j'ai bien l'impression qu'il s'agirait d'une encyclopédie monumentale. L'œuvre d'une vie!

J'avais l'ambition plus modeste, d'une base qui puisse être simple mais efficace assez et dont les données puissent être aisément reversées dans une base plus générale à usage d'inventaire et d'identification.

Car il y a bien deux façon d'envisager la chose;
- soit construire la base encyclopédique rêvée et la prévoir divisible par grande région.
- soit monter des bases régionales sur un même modèle et les verser dans un fond national ou européen, à mesure.

Ne pas avoir peur d'enfoncer quelques portes déjà ouvertes par d'autres. Je ne doute pas que ces questions aient été déjà débattues ailleurs.
L'exercice sera utile en soi, d'autant que plus savants pourront toujours le corriger.
patrice a écrit le 07/08/2010 20:01 (ref msg # 27895 )
"floyd" a écrit :

J'avais l'ambition plus modeste, d'une base qui puisse être simple mais efficace assez et dont les données

Si le but est de décrire, il n'y a de soucis à faire une petite base (mais dans ce cas là, autant taper dans un document traitement de texte ou tableur).
Si le but est de tenter de déterminer une variété inconnue, il faut que la base de données à interroger soit remplie de façon conséquente, pas seulement une dizaine de variétés du coin.


puissent être aisément reversées dans une base plus générale à usage d'inventaire et d'identification.

Ce projet existe-t-il? J'en reviens à ma remarque ici : https://www.greffer.net/forum/viewtopic....
floyd a écrit le 07/08/2010 21:14 (ref msg # 27897 )
La question est lancée, je n'ai pas la réponse.

Une base de données ne vaut que par les possibilités de tri que le logiciel permet; des chiffres, des mots, des dates, des cases cochées ou non… et leurs multiples combinaisons.

Si j'avais un truc qui marche pour "10 variétés du coin" je serais déjà bien heureux. Après je tenterai de le faire marcher pour 20. Et si d'autres font la même démarche, en groupant 5 bonnes volontés on parviendra rapidement à 100 variétés locales.

Probablement ça ne marchera plus aussi bien. Faute d'avoir intégré un nombre suffisant de descripteurs, le tri ne sera plus assez sélectif.
Il sera temps de compléter.

Reste à choisir descripteurs les plus pertinents et déterminer un nombre minimum pour un test sur 10 ou 20 "variétés du coin"

Comme on dit sur certain forum, chantier participatif et auto-construction!
patrice a écrit le 07/08/2010 21:22 (ref msg # 27898 )
"floyd" a écrit :
un fond national ou européen, à mesure.


Je précise mieux le contexte, non pas sur la difficulté du travail ou difficulté technique, mais sur l'état d'esprit et la bonne volonté, et en supposant que le logiciel nécessaire soit mis à disposition gracieusement, et qu'il n'y ait plus qu'à faire la saisie des données :

Pensez-vous qu'il est possible qu'une synergie se créée autour d'un tel projet, en partant sur le principe d'une base de données web, publique en lecture, qui serait dans l'esprit de la licence wikipédia (pas de droits d'auteur, données réexploitables (aussi bien descripteurs, textes, photos) tant que ce n'est pas à but commercial et réutilisé dans le même cadre (sauvegarde de la base de données récupérable par qui veut sous ces conditions)). Pas d'argent, pas besoin de subvention, pas de "leader" avec médiatisation (juste un travail d'ombre de modération nécessaire). Bref du travail désintéressé dans l'intérêt de tous.
klakos a écrit le 08/08/2010 06:48 (ref msg # 27902 )
Personnellement, je suis très sceptique quant à une base de données web.
Non pas que l'idée soit mauvaise.
Si "fruitiers.net" perdure, c'est parce qu'il y a une personne derrière.
Une oeuvre collaborative du style de wikipedia est sensée gommer les erreurs qui s'y glisse. Pourtant, je n'y crois pas.
Déjà, je doute que beaucoup adhèrent à un site "estampillé Normandie". Non pas par préférence régionale mais "c'est leur truc où il y aura sans doute des choses vraies sur les fruits locaux mais pas quant aux autres..."
patrice a écrit le 08/08/2010 07:12 (ref msg # 27903 )
"klakos" a écrit :

Si "fruitiers.net" perdure, c'est parce qu'il y a une personne derrière.

C'est surtout que çà répond à un besoin. Lorsque tu cherches un greffon d'une variété, tu obtiens des interlocuteurs en quelques clics.
Alors qu'avant il fallait faire le tour de tous ses contacts dans diverses associations, plus l'association est grande plus l'info est difficile à obtenir, passer par un système de petites annonces dans les bulletins de l'association qui paraissent plusieurs mois après dans l'espoir d'une éventuelle réponse...
Il y a aussi l'aspect convivialité : çà te permet de nouer des contacts avec des personnes de tous horizons confondus, d'autres associations que celle à laquelle tu participes, etc.
Après, pour la partie documentaire/remplissage des fiches (photos...) très peu de monde y participe. Pour la très grande majorité des variétés ajoutées dans la bourse, c'est généralement juste le nom de la variété qui est tapé, le reste laissé vide, et débrouille toi webmaster avec ta doc pour y mettre quelques lignes pour donner une idée de quoi ça parle
klakos a écrit le 08/08/2010 07:39 (ref msg # 27904 )
"patrice" a écrit :

Après, pour la partie documentaire/remplissage des fiches (photos...) très peu de monde y participe. Pour la très grande majorité des variétés ajoutées dans la bourse, c'est généralement juste le nom de la variété qui est tapé, le reste laissé vide, et débrouille toi webmaster avec ta doc pour y mettre quelques lignes pour donner une idée de quoi ça parle

C'est dommage.
Même à mon avis, il faudrait que le nom paraisse à coté de la photo pour pouvoir faire le tri parmi ceux qui proposent des greffons.
Je serai plus dur : pas de photo - pas d'échange !
Par exemple, je n'en prendrais pas à celui qui a mis la photo de la "patte du(???) loup"
Je me rends compte que je sors du sujet. Enfin oui et non, car le fait que "fruitiers.net" dure est très certainement lié à sa relative simplicité.
patrice a écrit le 08/08/2010 08:07 (ref msg # 27905 )
Pour ma part, j'ai mis en garde les usagers dans le cadre de l'aide du site (mais qui la lit?) http://www.fruitiers.net/aide.php (chapitres 13 & 19).
Et j'en ai reparlé récemment ici : http://greffer.net/forum/viewtopic.php?p...
C'est le but de l'article sur pomum : http://www.pomum.fr/?p=134 , essayer d'inciter à entrer dans une certaine démarche...


Même à mon avis, il faudrait que le nom paraisse à coté de la photo pour pouvoir faire le tri parmi ceux qui proposent des greffons.
Je serai plus dur : pas de photo - pas d'échange !


Il faudrait des photos sous toutes faces, toutes coupes, et ce pour chacun des usagers... Impossible ... Par contre, tu peux le demander en privé à ton correspondant, avant de conclure ta demande de greffons.

Concernant la pomme patte de loup, le doute avait déjà été soulevé ici : https://www.greffer.net/forum/viewtopic....
floyd a écrit le 08/08/2010 10:04 (ref msg # 27906 )
Salut klakos,
On t'a connu plus optimiste

Je reviens sur la phase de montage de la Base de Données (BD)
Pour son fonctionnement sur le "mode identification" les photos ne sont pas nécessaires. Sauf pour une validation visuelle et finale à l'issu d'un tri soigneux, dans l'attente d'un hypothétique système expert avec reconnaissance optique et lecture ADN.

La demande d'identifications variétales par les amateurs et les assos est forte.
Pour créer une synergie autour de ce projet, rien de mieux que de commencer. L'accès à une application informatisée librement disponible aura tout pour séduire si déjà elle traite les 100 variétés les plus communes.
patrice a écrit le 08/08/2010 11:05 (ref msg # 27909 )
En outil interne à pomum.fr & fruitiers.net , j'avais commencé à travailler sur un tel projet. Qui finalement s'est terminé par une simple base de données documentaire (quel ouvrage décrit telle variété) (la base de données "ratatouille" pour ceux qui l'ont vu), pour la simple raison que renseigner une telle base est un travail long. .

Si cela avait été allé à terme, donc une réelle base de données pomologique d'identification, le principe était :

- des descripteurs dynamiques (possibilité d'ajouter pour améliorer... et non une base de données fixe dès le départ) (il suffit qu'il y ait une source intéressante qui utilise un descripteur que n'utilise pas une autre source et qu'on ait envie de le rajouter, ... ça évite de remodeler la base).

-multi source : dans l'idée d'une pure saisie à partir uniquement d'un fonds documentaire, on va être confronté au problème de sources qui ne racontent pas la même chose (par exemple deux sources distinctes qui ne donnent pas la meme info sur le pédoncule, ou une meme source qui indique plusieurs variantes).
Plutot que d'avoir à trancher, sans connaitre la variété et la pratiquer sur le terrain, il y aurait pour chaque variété, une codification par auteur et par variante (et non une seule codification arbitraire fait à l'instinct de la personne qui remplit les données, en supprimant donc des possibilités émises par d'autres auteurs).

Les fiches variétales codifiées seraient apparues sous cette forme :





D'une part, cela donne de facon claire (surlignage rouge) l'information que sur certains criteres il y a des auteurs qui divergent.

D'autre part, le moteur de recherche tiendrait compte de ces variantes (et aurait pu passer à coter si on aurait dit "a ben la majorité donne pédoncule court, alors on va coder pédoncule court".). Et sortirai les résultats sous forme de "note" en fonction du nombre de descripteurs qui pourraient coller.
floyd a écrit le 08/08/2010 12:03 (ref msg # 27910 )
Ce perfectionnisme t'honore Patrice et je comprends l'ampleur de la tâche. Elle s'avère utile dans une sorte de stade ultime quand un premier tri sur des descripteurs de base livre une liste plus ou moins longue de variétés rares.

Je poursuis la réflexion…
A la différence du pomologue averti, qui face à une pomme dira soit je sais, je sais pas ou ça me fait penser à… le tri informatisé livre une liste.
Dans cette liste on aura des identifications improbables, des identifications proches mais fausses et peut-être la bonne solution.

Cas extrême la bonne solution ne "sort" par car elle n'est pas dans la BD ou cette BD est insuffisamment ou mal renseignée.
Bref de quoi se décourager, puisque l'ordinateur se trompe aussi bien que l'humain. Au moins l'aura-t-il fait plus vite!

Reste la fameuse liste livrée par le tri informatisé; qu'en faire sinon la trier à nouveau avec des critères plus fins… et c'est là que la super base prend tout son intérêt.

Donc tel un chercheur d'or on se place dans la bonne rivière, on enlève les cailloux et les micas et on orpaille…
klakos a écrit le 08/08/2010 14:47 (ref msg # 27914 )
"floyd" a écrit :
Salut klakos,
On t'a connu plus optimiste .


Sans doute.
Je me rends compte néanmoins qu'un travail autant soit peu sérieux pour une seule variété ((notamment concernant celles qui ont été largement échangées, qui ont un nombre important de clones, etcl demande un temps très important (le résultat restant souvent très imparfait).
Déjà, une donnée qui s'impose serait.. une évaluation quantitative : nb de descriptions saisies, nb de critères, etc.
floyd a écrit le 08/08/2010 16:07 (ref msg # 27915 )
Tu soulèves, Klakos, deux des questions qui font renoncer…
- les multiples clones, qu'un pro ou un amateur très pointus peuvent dicerner.
- la valeur de la fiche selon l'étendue des renseignements qu'elle contient et la compétence du rédacteur.
Ces deux obstacles sont de nature à retarder la sortie automatique de la "bonne solution". C'est le défaut intrinsèque de la méthode. Il faut en prendre son parti mais non se résigner.

Dans l'encyclopédie exhaustive dont nous rêvons tous, il ne devrait rester aucune zone d'ombre, aucune erreur. Ce serait le rôle du contrôle qualité dont Patrice a dit deux mots.

Puisqu'il s'agit d'avancer à la mesure de nos moyens et à la hauteur de nos besoins d'amateurs, restons très pragmatiques. Nous savons bien que nous ne ferons pas mieux que les spécialistes.

Faisons simple et du mieux possible, mais faisons!
patrice a écrit le 08/08/2010 18:53 (ref msg # 27917 )
Je rajoute encore d'autres contraintes : tous les ouvrages pomologiques ne sont pas libres de droit, problème à les intégrer dans une base de données publiques (par exemple tous les bouquins de l'inra : pommiers à cidre, variétés anciennes de pruniers domestiques, etc.).
floyd a écrit le 08/08/2010 20:20 (ref msg # 27918 )
Cela doit être vrai pour la plupart des publications récentes. Pas d'autre choix que respecter les copyright.

Puisque le rôle de l'incorrigible optimiste m'incombe, je veux croire que la BD pourra être exploitée avec un pourcentage "encourageant" de recherche positive. 80% me conviendrait.
Michel a écrit le 12/08/2010 11:17 (ref msg # 27945 )
Bonjour,

Je ne crois pas qu'un ouvrage non libre de droit ne puisse pas servir de base à un travail (une base de donnée dans le cas présent). Ces mêmes ouvrages se sont bien inspirés de d'autres qui les ont précédés. Si les sources sont citées et qu'il n'y a pas de plagiat, le problème ne se pose pas.

Il y a une dizaine d'années, j'avais essayé de créer une base de donnée sur Excel. J'avais choisi de commencer par le prunier, ses variétés cultivées étant moins nombreuses que pour le pommier! Les lacunes dans les descriptions, les différences entre les descripteurs et l'impossibilité de vérifier (au moins sur un échantillon) m'ont découragées. J'ai finalement abandonné car j'avais d'autres occupations.

Pour conclure, c'est un gros travail qui demande du temps, de la rigueur et la possibilité de vérifier en verger.
matiokidor a écrit le 15/08/2010 10:46 (ref msg # 27968 )
Bonjour,
Michel a tout à fait raison. Je crois qu'il ne faut pas confondre les bases de données de connaissances, type wikipédia ou lescrets, qui compilent un maximum d'informations (et donc sans souci de redondance, de recopie ou de véracité des interprétations diverses),

et une base de données pour l'identification des fruits, qui doit se limiter à des documents de référence.

Christian Catoire l'avait fort bien expliqué à Gap en conférence du colloque des fruits alpins : comme en botanique, on doit pouvoir rattacher un fruit à un auteur.

Par exemple la pomme Fraise "de Leroy" ne sera pas la pomme Fraise "de Vercier".

Ces mêmes ouvrages se sont bien inspirés de d'autres qui les ont précédés.

Ces ouvrages n'ont pas leur place dans une base de données pour l'identification. Par contre ils sont intéressants pour les bases de données de connaissances.
floyd a écrit le 15/08/2010 13:00 (ref msg # 27971 )
Il est clair que Vercier ou Leroy n'ont pas décrit le même fruit issu du même arbre du même verger. Ont-ils seulement décrit la même variété ou même deux clones issus d'une origine commune?
Si les descriptions ne sont pas convergentes, on peut alors en douter.

Ces débats passionnants valent pour un outil informatique à l'usage des spécialistes, pomologues ou historiens.

Pour l'instant il faut imaginer pour l'amateur un outil simple à créer, à modifier, à renforcer. Les problèmes de convergence des descriptions seront révélés facilement à l'usage. Ils seront comme toujours, tranchés un jour, par les plus savants.
patrice a écrit le 15/08/2010 18:37 (ref msg # 27975 )
"matiokidor" a écrit :
on doit pouvoir rattacher un fruit à un auteur.

Par exemple la pomme Fraise "de Leroy" ne sera pas la pomme Fraise "de Vercier".


Cela confirme alors un peu l'idée que j'avais pour une telle base (multi auteurs).

Ces ouvrages n'ont pas leur place dans une base de données pour l'identification


Pourquoi?
matiokidor a écrit le 16/08/2010 11:36 (ref msg # 27990 )
Patrice,
Ca me semble tellement évident.

J'y répondrais par une série de questions :

    A quoi çà sert de refaire une nième description d'un fruit déjà décrit, alors qu'il y en tant d'autres qui n'ont jamais été décrits ?

    A t-on le droit de compiler des informations de plusieurs auteurs anciens, alors qu'ils ne sont plus là pour défendre "leurs observations" ? (je rejoins floyd)

    De la même façon, a-t-on le droit de contredire ou d'amender une description, alors que rien ne prouve que les fruits observés sont les mêmes ?

    A t-on le droit (moral) de repiquer de l'information sans citer ses sources ?

    Ne risque-t-on pas de faire beaucoup d'erreurs en repiquant de l'information, en place d'observations réelles ?

    La pomologie n'est elle pas "une science" de terrain ?

    etc... etc...

Bien entendu je me positionne dans le cas d'une base de données constituée à des fins de détermination. Les bases de données type Wikipédia ou lescrets ne sont pas concernées.


greffer.net >> Hors-sujet