Exemple de numero de lof

La méthode sketch_summary nous allons faire cela et trouver un seuil à partir d`un quantile approximatif. Notez qu`il ne s`agit pas d`une distance dans la définition mathématique, car elle n`est pas symétrique. Cependant, nous nous sommes mis à trouver et tailler le Top 2 valeurs aberrantes de out Set, qui s`est avéré être b et d. Let k-distance (A) {displaystyle {mbox{k-distance}} (A)} être la distance de l`objet A {displaystyle A} au k-ème voisin le plus proche. Avez-vous un jeu de données serré, propre et uniforme? Chaque ligne de ce jeu de données décrit l`un des 213 451 utilisateurs AirBnB; Il existe un mélange de fonctionnalités de base, telles que le sexe, l`âge et la langue préférée, ainsi que le «profil technologique» de l`utilisateur, y compris le type de navigateur, le type d`appareil et la méthode d`inscription. Pour cette illustration, nous utiliserons uniquement les fonctionnalités de base: le sexe, l`âge et la langue. Donc, si un voisin devait atteindre la distance de valeur LRD dans n`importe quelle direction, il serait probable/plus optimal de trouver ce point individuel. Selon la méthode, la densité estimée d`un point est le nombre de voisins divisé par la somme des distances aux voisins du point. La méthode du facteur de sortie local (LOF) marque des points dans un DataSet multivarié dont les lignes sont supposées être générées indépendamment de la même distribution de probabilité. Nous connaissons reachDistance, nous pouvons compléter le calcul LRD. Il considère comme des valeurs aberrantes les échantillons qui ont une densité sensiblement plus faible que leurs voisins.

En termes, la distance d`accessibilité d`un objet {displaystyle A} de B {displaystyle B} est la distance réelle des deux objets, mais au moins la distance k {displaystyle {mbox{k-distance}}} de B {displaystyle B}. Alors qu`une valeur de LOF de 1 ou moins est un bon indicateur d`un inlier, nous sommes ici pour calculer et probablement supprimer les valeurs aberrantes ou les anomalies. Bien que l`intuition géométrique de LOF ne s`applique qu`aux espaces vectoriels de faible dimension, l`algorithme peut être appliqué dans n`importe quel contexte une fonction de dissimilarité peut être définie. Il a été démontré expérimentalement qu`il fonctionne très bien dans de nombreuses configurations, surperformant souvent les concurrents, par exemple dans la détection d`intrusion réseau [4] et sur les données de référence de classification traitées. Ces différences peuvent également se produire dans un DataSet en raison de la localité de la méthode. Avec des points dupliqués, cette valeur peut devenir infinie.

Det här inlägget postades i Okategoriserade. Bokmärk permalänken.