alex_aldo - Fotolia
Les différences entre arbre de décision, Random Forest et Gradient Boosting
Dans cet article, Stéphanie Glen, professeure de statistiques et autrice, explique simplement la différence entre trois méthodes de prise de décision et de classification en data science : les arbres de décisions, les forêts aléatoires et le boosting de gradient.
Les arbres de décision, les forêts aléatoires et le boosting de gradient figurent parmi les modèles statistiques et de machine learning les plus utilisés par les data scientists. Pourtant, les trois méthodes sont similaires et se chevauchent en grande partie. En bref :
- Un arbre de décision (decision tree) est un diagramme simple de prise de décision.
- Les forêts aléatoires (ou Random forest) génèrent un grand nombre d’arbres de décision, combinés (en utilisant des moyennes ou des « règles de majorité ») à la fin du processus.
- Les machines de Gradient Boosting combinent également les arbres de décision, mais commencent le processus de combinaison au début, plutôt qu’à la fin.
Les arbres de décision et leurs problèmes
Les arbres de décision sont une série d’étapes séquentielles conçues pour répondre à une question et fournir des probabilités, des coûts ou d’autres conséquences relatives à la prise d’une décision particulière.
Ils sont simples à comprendre. De plus, ils apportent une approche visuelle claire pour guider la prise de décision. Cependant, cette simplicité s’accompagne de quelques inconvénients sérieux, notamment l’ajustement excessif (beaucoup plus connu sous le nom d’overfitting), les erreurs dues aux biais et à la variance.
- Le surajustement peut être dû à de nombreuses raisons, notamment la présence de bruit et le manque d’instances représentatives dans les données. L’overfitting est possible avec un seul grand arbre (profond).
- L’erreur due aux biais se produit lorsque vous imposez trop de restrictions aux fonctions cibles. Par exemple, restreindre votre résultat à l’aide d’une fonction de restriction (par exemple, une équation linéaire) ou d’un simple algorithme binaire (comme les choix vrai/faux dans l’arbre ci-dessus), entraînera souvent un biais.
- L’erreur de variance fait référence à l’ampleur de la variation d’un résultat en fonction des modifications apportées au jeu de données consacré à l’apprentissage. Les arbres décisionnels ont une variance élevée, ce qui signifie que des changements minimes dans les données d’apprentissage peuvent entraîner des changements importants dans le résultat final.
Random Forest versus arbres décisionnels
Comme indiqué ci-dessus, les arbres de décision posent de nombreux problèmes. Un arbre généré à partir de 99 points de données peut être très différent d’un arbre généré à partir d’un seul point de données. S’il existait un moyen de générer un très grand nombre d’arbres, en faisant la moyenne de leurs solutions, vous obtiendriez probablement une réponse très proche de la vérité terrain. C’est là qu’intervient la forêt aléatoire, un ensemble d’arbres de décision dont le résultat est unique et agrégé. Les forêts aléatoires sont souvent considérées comme l’algorithme d’apprentissage le plus précis.
Les random forests réduisent la variance observée dans les arbres de décision :
- En utilisant différents échantillons pour l’entraînement,
- En spécifiant des sous-ensembles de caractéristiques aléatoires,
- En construisant et combinant de petits arbres (peu profonds).
Un seul arbre de décision est un prédicteur faible, mais il est relativement rapide à construire. Un plus grand nombre d’arbres permet d’obtenir un modèle plus robuste et d’éviter les surajustements. Cependant, plus vous avez d’arbres, plus le processus est lent. Chaque arbre de la forêt doit être généré, traité et analysé. En outre, plus le nombre de caractéristiques est élevé, plus le processus est lent (il peut parfois prendre des heures, voire des jours) ; la réduction du nombre de caractéristiques peut accélérer considérablement le processus.
Une autre différence distincte entre un arbre de décision et une forêt aléatoire est que, si un arbre de décision est facile à lire – il suffit de suivre le chemin et de trouver un résultat – une forêt aléatoire est un peu plus compliquée à interpréter. Il existe un grand nombre d’articles conçus pour vous aider à lire les résultats des forêts aléatoires (comme celui-ci), mais par rapport aux arbres décisionnels, la courbe d’apprentissage est raide.
Random Forest versus Gradient Boosting
Comme les forêts aléatoires, le boosting de gradient correspond à un ensemble d’arbres de décision. Les deux principales différences sont les suivantes :
- La façon dont les arbres sont construits : les algorithmes de random forest construisent chaque arbre indépendamment tandis que le boosting de gradient construit un arbre à la fois. Ce modèle additif (ensemble) fonctionne de manière progressive, en introduisant un algorithme apprenant faible pour améliorer les lacunes des apprenants faibles existants.
- La combinaison des résultats : les forêts aléatoires combinent les résultats à la fin du processus (en calculant la moyenne ou en appliquant les « règles de la majorité »), tandis qu’un modèle de gradient boosting combine les résultats en cours de route.
Si vous réglez soigneusement les paramètres, le boosting de gradient peut donner de meilleures performances que les forêts aléatoires. Cependant, le gradient boosting peut ne pas être un bon choix si vous avez beaucoup de bruit, car cette méthode peut entraîner un surajustement. Ces modèles ont également tendance à être plus difficiles à régler que les random forests.
Les forêts aléatoires et le boosting de gradient excellent chacun dans des domaines différents. Les forêts aléatoires sont performantes pour la détection d’objets multiclasse et la bio-informatique, qui a tendance à avoir beaucoup de bruit statistique. La dynamisation par gradient est efficace lorsque les données sont déséquilibrées, comme dans l’évaluation des risques en temps réel.
Cet article est originellement paru dans les colonnes de DataScienceCentral.com, propriété de Techtarget, également propriétaire du MagIT.
Stephanie Glen est une contributrice de DataScienceCentral.com. Après avoir travaillé pendant plusieurs années à l’enseignement des mathématiques et des statistiques au niveau universitaire, elle a créé et développé le site Web StatisticsHowTo.com.