Как да намеря процента на стойностите на „NAN“ в набор от данни?

Jul 21, 2025

Остави съобщение

Лили Джао
Лили Джао
Аз съм маркетинг специалист в Good Mind Electronics, където разработвам стратегии за популяризиране на нашите продукти в световен мащаб. Моята роля включва разбиране на нуждите на клиентите и изработване на завладяващи маркетингови кампании.

Намирането на процента на стойностите на „NAN“ (не число) в набор от данни е решаваща стъпка в предварителната обработка и анализ на данните. Като доставчик на висококачествени продукти, свързани с мрежовите устройства, включителноXPON 1GE 1GE 1GE VOIP CAVT WIFI44,Xpon onu 1ge 3fe voip wifi4иXpon onu 4ge wifi5 AC1200, Разбирам значението на точната обработка на данни в различни области. В този блог ще споделя някои практически методи за изчисляване на процента на стойностите на „NAN“ в набор от данни.

Разбиране на значението на стойностите на „NAN“

Преди да се потопите в методите за изчисляване, е от съществено значение да разберете защо стойностите на „NAN“ имат значение. При анализа на данните стойностите на „NAN“ могат да представляват липсващи данни, грешки при събирането на данни или стойности, които не са приложими. Игнорирането на тези стойности може да доведе до неточни статистически резултати, пристрастни модели и ненадеждни прогнози. Например, в набор от данни за продажбите стойностите на „NAN“ могат да показват липсващи данни за продажбите за определени продукти или времеви периоди. Ако тези стойности не се отчитат правилно, общият анализ на продажбите може да бъде подвеждащ.

Предпоставки

За да изчислите процента на стойностите „NAN“, ще ви е необходим набор от данни и език за програмиране с възможности за манипулиране на данни. Python е популярен избор поради обширните си библиотеки като Pandas и Numpy. Ето една стъпка - от - Ръководство за стъпка за това как да извършите това изчисление с помощта на Python.

Стъпка 1: Импортирайте необходимите библиотеки

Първо, трябва да импортирате пандите и библиотеките на Numpy. Pandas се използва за манипулиране и анализ на данни, докато Numpy осигурява поддръжка за големи, многоразмерни масиви и матрици.

Импортирайте панди като PD импортиране numpy като NP

Стъпка 2: Заредете набора от данни

Да приемем, че имате набор от данни в CSV файл. Можете да го заредите с помощта наread_csvфункция в панди.

data = pd.read_csv ('your_dataset.csv')

Стъпка 3: Изчислете общия брой стойности в набора от данни

За да изчислите процента на стойностите „NAN“, първо трябва да знаете общия брой стойности в набора от данни. Можете да използватеразмератрибут на рамката Data.

GPU-11GN-V-RGPU-13GN-V

total_values = data.size

Стъпка 4: Изчислете броя на стойностите „NAN“

Pandas предоставя удобен начин за преброяване на броя на стойностите на „NAN“ в рамката на данни. Можете да използватетой ()Метод за създаване на булева маска и след това обобщение на всичкиВярностойности.

nan_values = data.isna () sum () sum ().

Стъпка 5: Изчислете процента на стойностите „NAN“

Сега, когато имате общия брой стойности и броя на стойностите „NAN“, можете да изчислите процента.

Процент_нан = (nan_values / total_values) * 100 печат (f "Процентът на стойностите" nan "в набора от данни е {proctege_nan}%")

Работа с различни структури от данни

Горният метод работи добре за таблични данни в рамката на Pandas Data. Ако обаче работите с Numpy масив, процесът е малко по -различен.

импортирайте numpy като np # Създайте примерна numpy array array = np.array ([1, np.nan, 3, np.nan, 5]) # Изчислете общия брой елементи total_elements = array.size # Изчислете броя на 'nan' елементи nan_elements = np.isnan (array) .sum () # calculat =)

Визуализиране на стойностите на „NAN“

Визуализацията може да осигури по -добро разбиране на разпределението на стойностите на „NAN“ в набора от данни. Можете да използвате библиотеки като Matplotlib или Seaborn, за да създадете топлинни карти или бар диаграми.

Импортирайте Seaborn As SNS Импортиране на matplotlib.pyplot като plt # Създайте топлинна карта на стойностите на 'nan' sns.heatmap (data.isna (), cbar = false) plt.title ('разпределение на стойностите на nan') plt.show ()

Справяне с високи проценти на стойностите на „NAN“

Ако процентът на стойностите на „NAN“ е висок, трябва да решите как да се справите с тях. Някои общи стратегии включват:

  • Премахване на редове или колони: Ако ред или колона има голям брой стойности на „NAN“, можете да помислите да го премахнете. Този подход обаче може да доведе до загуба на ценна информация.
  • Импутация: Можете да попълните стойностите на „NAN“ с подходящи стойности като средната, средната или режима на стойностите, които не са „NAN“ в същата колона.
# Impute 'nan' стойности със средните данни.fillna (data.mean (), inplace = true)

Заключение

Изчисляването на процента на стойностите на „NAN“ в набор от данни е важна стъпка в анализа на данните. Помага ви да разберете качеството на вашите данни и да решите как да се справите с липсващите стойности. Като доставчик на мрежови устройства катоXPON 1GE 1GE 1GE VOIP CAVT WIFI44,Xpon onu 1ge 3fe voip wifi4иXpon onu 4ge wifi5 AC1200, ние разбираме значението на точните данни за оптимизиране на ефективността на мрежата и вземане на информирани бизнес решения.

Ако се интересувате от нашите продукти или имате някакви въпроси относно анализа на данните в контекста на управлението на мрежата, не се колебайте да се свържете с нас за поръчки и по -нататъшни дискусии. Ние сме тук, за да ви предоставим най -добрите решения за вашите нужди.

ЛИТЕРАТУРА

  • McKinney, W. (2017). Python за анализ на данни: Данни, които се разпадат с панди, Numpy и Ipython. O'Reilly Media.
  • Vanderplas, J. (2016). Наръчник за наука за данни на Python: Основни инструменти за работа с данни. O'Reilly Media.
Изпрати запитване
Свържете се с насАко имате някакъв въпрос

Можете или да се свържете с нас чрез телефон, имейл или онлайн формуляр по -долу. Нашият специалист ще се свърже с вас скоро.

Свържете се сега!