Wikio

Outils pour l'analyse de données textuelles issues de la recherche d'information experte

versionz - complexity

Je publie ici en pièce jointe Ergoteur 0.1, sous GPL3, un ensemble d'outils bash (avec un chouilla de perl et de python) pour l'analyse de données textuelles dans le style de Alceste. A la différence d'outils qu'on trouvera dans le CPAN de Perl, ces outils sont personnalisés et très maniables, après un peu de pratique. Les scripts créent des classes de discours à partir d'un texte (algorithme à améliorer cependant), le divise en sections, font de l'analyse de fréquence de mots. Des exemples de textes sont inclus, il s'agit d'une interview que j'ai réalisé auprès d'étudiants de l'INSA dans le cadre d'une recherche experte. Une documentation a minima est fournie, contactez-moi pour le support.

On trouvera ici 4 documents :


LICENSES
Attention, seul le code source est sous license GPL3, less autres documents suivent la license du blog Creative Commons Paternité 2.0 France License.
Les dictionnaires de fréquences sont issus de documents produits par la Direction générale de l'Enseignement scolaire.
Le dictionnaire de lemmes est issu du projet SnowBall.
Bien que les auteurs de ces deux projets diffusent actuellement ces documents sur leur site, ils n'ont pas actuellement donné leur accord au 3/9/2009 pour une autre diffusion ; si vous souhaitez utiliser ces dictionnaires, utilisez les liens ci-dessus !

Photo : Versionz, Complexity.

fr/recherche/traces/developpement/analyse_textuelle.txt · Dernière modification: 2012-02-23 14:24:30 (modification externe)
[unknown link type]Haut de page
GNU Free Documentation License 1.3
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0