#!/bin/bash
# DOCUMENTATION
# prépare un texte avant de le diviser en classes de discours
# Paramètres à indiquer :
# - texte initial : $1
# - dictionnaire des lemmes : $2
# - dictionnaire des mots fréquents à supprimer : $3
# - nb de mots fréquents à supprimer : $4

if [ "$2" = "" ]
then
	echo "# Paramètres à indiquer :
	# - texte initial : \$1
	# - chemin des dictionnaires : \$2"
	exit
fi

echo -e "\nDémarrage d'erg-prepare..."

# PREPARATION DES VARIABLES
txtErgPrepare=$1
dic=$2
# dictionnaire des lemmes : transformations séparées par une tabulation
dic_lemmes=$dic/dic-auto-lemmatisation.csv
dic_frq=$dic/mots_frequents.txt
dic_manuel_lemmatisation=$dic/dic-manuel-lemmatisation.txt
dic_manuel_suppr=$dic/dic-manuel-suppr.txt
dic_frq=$dic/dic-frq
frq=200

if [ -f $txtErgPrepare ]
then
	echo "txtErgPrepare : $txtErgPrepare"
else
	echo "ERREUR $txtErgPrepare n'existe pas !"
	exit
fi

# construit le dictionnaire de fréquences à partir des paramètres précédents :
if [ -f "$dic_frq" ]
then
	echo "# $(wc -l $dic_frq) existe déjà"
else
	echo -e "\n# Construit le dictionnaire de fréquence avec $dic_frq et $frq"
	echo "erg-dic_frq $dic_frq $frq > $dic_frq"
	erg-dic_frq $dic_frq $frq > $dic_frq
fi

# suppression des mots inutiles (100 mots les plus courants) nettoyer-mots_frequents.txt.sh + erg-reduc(mots-frq-100.txt)
echo -e "\n# Suppression des mots inutiles"
echo "erg-reduc $txtErgPrepare $dic_frq > txt1"
erg-reduc $txtErgPrepare $dic_frq > txt1


# lemmatisation : erg-reduc (dic-lemmes-fr.txt -original, le .csv est pesronnalisé)
echo -e "\n# Lemmatisation"
echo "erg-reduc txt1 $dic_lemmes > txt2"
erg-reduc txt1 $dic_lemmes > txt2

# suppression des mots du dictionnaire manuel s'il existe
if [ -f $dic_manuel_suppr ]
then
	echo -e "\n# Suppression à partir du dictionnaire manuel"
	echo "erg-reduc txt2 $dic_manuel_suppr > txt3"
	erg-reduc txt2 $dic_manuel_suppr  > txt3
else
	echo "$dic_manuel_suppr non trouvé !"
fi

# suppression du dico manuel des lemmatisation s'il existe
if [ -f $dic_manuel_lemmatisation ]
then
	echo -e "\n# Lemmatisation à partir du dictionnaire manuel"
	echo "erg-reduc txt3 $dic_manuel_lemmatisation > txt4"
	erg-reduc txt3 $dic_manuel_lemmatisation > txt4
else
	echo "$dic_manuel_lemmatisation non trouvé !"
fi
# Pour chaque mot, fait un champ_lexical (erg-classes) avec :
#	le mot et tous les termes associés 
#	réduire la liste_mots-cache des mots ainsi récupérés
#	boucler sur le mot le plus fréquent suivant.
#-     suppression des titres de classes non pertinents, retour à erg-classes jusqu'à satisfaction
echo -e "\n# Classements en cours..."
echo "erg-classes2 txt4 $txtErgPrepare"
erg-classes2 txt4 $txtErgPrepare
echo -e "\n# Terminé !"