Sunday 5 November 2017

Medio Valori Anomali Moving


dire che ho una tabella di PostgreSQL con il seguente values. If che uso PostgreSQL per il calcolo della media, mi dà una media di 24 a 8 per l'alto valore di 100 ha un grande impatto sul calcolo Mentre infatti mi piacerebbe trovare una media da qualche parte intorno 6 ed eliminare l'estrema sI sto cercando un modo per eliminare gli estremi e vuole fare questo statisticamente corretto gli s estreme non possono essere fissati non posso dire se un valore è superiore a X, deve essere eliminated. I sono stati piegano il mio testa sulle funzioni di aggregazione di PostgreSQL, ma non può mettere il dito su ciò che è giusto per me di utilizzare qualsiasi suggestions. asked 29 maggio 10 alla 8 41.Postgresql può anche calcolare lo standard deviation. You potrebbe prendere esclusivamente i punti di dati che sono nella media - 2 stdDev che corrispondono approssimativamente alle 90 datapoints più vicini al corso average. Of 2 può anche essere 3 o 6 95 99 995, ma non ottengono appeso sui numeri, perché in presenza di un outlier di raccolta non si è più che fare sei con un distribution. Be normale molto attenta e convalidare che funziona come expected. Mind utilizzando la funzione di finestra NTILE permette di isolare facilmente i valori estremi dal risultato set. Let s dire che si desidera tagliare 10 da entrambi i lati del set di risultati poi passando il valore del 10 per NTILE e alla ricerca di valori compresi tra 2 e 9 darebbe il risultato desiderato anche tenere presente che se si hanno meno di 10 record, si potrebbe accidentalmente tagliare più di 20, in modo da essere sicuri di controllare il totale quantità di record come well. answered 29 Giugno 16 ad 14 28.Your Answer.2017 Stack Exchange, Inc. We hanno un demone che legge i dati di alcuni sensori, e tra le cose che calcola oltre semplicemente la segnalazione dello stato è la media tempo necessario per i sensori di cambiare da un valore all'altro mantiene una media mobile di 64 datapoints, e si presuppone che il runtime è abbastanza constant. Unfortunately, come dimostra il grafico sottostante, il isn t dati di input le più incontaminate. Ogni linea rappresenta un diverso insieme di dati l'asse x doesn t significa veramente nulla oltre una ovvia soluzione tempo axis. My storico vaga per affrontare questo sarebbe quello di creare un istogramma dei dati e quindi scegliere la modalità Tuttavia, mi chiedevo se ci fossero altri metodi che producono una migliore performance o sarebbe più adatto per il funzionamento con una media di esecuzione di alcune ricerche rapide Wikipedia suggeriscono algoritmi per il rilevamento valori anomali può essere adatto anche semplicità è un plus, dal momento che il demone è scritto in C. Edit I scoped out Wikipedia e si avvicinò con criterio questi vari techniques. Chauvenet s utilizzando la media e la deviazione standard, calcolare la probabilità di un particolare punto dati sarebbe successo, e quindi escludere che se la probabilità è in realtà così male è inferiore al 50 anche se questo sembra essere ben adatto per la correzione di un media in esecuzione al volo, io non sono del tutto convinti della sua efficacia sembra con grandi insiemi di dati che non vorrebbe scartare datapoints. Grubbs testare un altro metodo che utilizza la differenza dalla media di deviazione standard, e ha alcune espressione per cui l'ipotesi di non valori anomali è rejected. Cook s distanza Misura l'influenza di un datapoint ha su un minimi quadrati di regressione nostra applicazione probabilmente respingerla se ha superato 1.Truncated significa Eliminare la fascia bassa e la fascia alta, e poi prendere la media come normal. Anyone ha alcuna esperienza specifica e può commentare su queste techniques. Also statistica, alcuni commenti sulla situazione fisica ci stiamo misurando il tempo medio fino al completamento di una lavatrice meccanica, quindi il suo tempo di esecuzione dovrebbe essere abbastanza costante io non sono sicuro se ha in realtà una normale distribution. Edit 2 Un'altra domanda interessante quando il demone sta avviando, come in, doesn t hanno tutti i dati precedenti da analizzare, come dovrebbe fare con i dati in arrivo semplicemente non fare alcun pruning. Edit outlier 3 un altro cosa se l'hardware non cambia in modo che i tempi di esecuzione fanno diventare diversi, ne vale la pena per rendere l'algoritmo sufficientemente robusto così che ha vinto t smaltire questi nuovi tempi di esecuzione, io devo solo ricordare di svuotare la cache quando che happens. asked 12 apr 09 a 7 24. TAWANI - non sono tutti manca il punto Quello che dici deve essere definito utilizzando termini generici non si può andare con un solo esempio senza definizioni generali, se 400 è il 30 è ancora un valore erratico e se è 14 E 9 Dove si fa a fermare È necessario stdDev s, intervalli, quartili, per fare che Daniel Daranas 2 febbraio 09 a 17 05.In taglio don t rimuovere valori anomali che hai appena don t li includono nel calcolo Rimuovi potrebbe suggerire che i punti non sono più nel set di dati e don t rimuovere o ignorare perché sono valori anomali il criterio è di solito solo che sono in alcune frazioni di estrema dei dati un valore non incluso in un rifilato significa spesso è solo leggermente più o meno il più alto valore più basso incluso Nick Cox 3 dicembre 14 al 16 48.I Non so se ha un nome, ma si potrebbe facilmente venire con una serie di algoritmi per respingere outliers. Find tutti i numeri tra il 10 ° e il 90 ° percentile farlo di classificare poi respingendo i primi N 10 e N ultimi 10 numeri e prendere il valore medio dei valori values. Sort rimanenti, rifiutano valori alti e bassi purché così facendo, la variazione deviazione standard medio di più di valori X. Sort, respingono alta e bassa valori fintanto che, così facendo, i valori in questione sono più di K deviazioni standard dalla mean. The modo più comune di avere una robusta la solita parola che significa resistente al cattivo media dei dati è quello di utilizzare la mediana Questo è solo il valore centrale nella lista ordinata di metà strada tra i due valori centrali, così per il tuo esempio sarebbe 90 5 a metà strada tra il 90 e il 91.If si vuole ottenere davvero nelle statistiche robuste come le stime robuste di deviazione standard, ecc mi sento di raccomandare un perso del codice a il gruppo agorà, ma questo potrebbe essere troppo avanzati per il suo purposes. answered 13 febbraio 09 alle 9 22.If hai a disposizione solo una variabile come implicate credo che alcuni degli intervistati di cui sopra sono di essere più critici del vostro approccio certamente altri metodi che guardano le cose come leva sono più statisticamente valida, tuttavia, che implica che si sta facendo la modellazione di qualche tipo Se vi è solo per esempio punteggi di un test o di età dei cittadini anziani casi plausibili del tuo esempio penso che sia pratico e ragionevole ad essere sospettosi del valore anomalo si mettono si potrebbe guardare la media generale e la media troncata e vedere quanto cambia, ma che sarà una funzione della vostra dimensione del campione e la deviazione dalla media per le outliers. With egregio valori anomali così, si sarebbe certamente desidera guardare in te processo di generazione dei dati per capire perché questo è il caso si tratta di una immissione di dati o amministrativa colpo di fortuna Se è così ed è probabile estraneo a reale valore vero che è inosservato mi sembra perfettamente bene per tagliare Se è un valore vero, per quanto si può dire si può non essere in grado di rimuovere se non si è esplicito nella sua analisi su it. answered 3 dicembre 14 a 13 statistiche 58.My libro di testo si riferisce a questo come una media del campione come al contrario di un campione di popolazione medio implica c'era una restrizione applicata al completo set di dati, anche se non la rimozione modifica al set di dati è stato made. answered 26 marzo 16 alle 3 del 13,0 Benvenuti nel sito 1 Quale libro si prega di fornire un campione di riferimento 2 significa che non lo fa in genere riferimento a una media ottenuta dopo aver rimosso i valori anomali Juho Kokkala mar 26 16 a 8 06.It può essere la mediana non sempre, ma a volte non ho idea di quello che viene chiamato in altre occasioni Spero che questo ha aiutato almeno un po '.

No comments:

Post a Comment