В сферата на науката за данните и машинното обучение, обработката на липсващи стойности, често представена като „NAN“ (а не число), е критичен аспект на инженеринга на функциите за данни. Като доставчик, специализиран в продукти, свързани със „NAN“ ценности, бях свидетел от първа ръка разнообразните перспективи и практики, свързани с тяхното използване в тази област. Тази публикация в блога има за цел да проучи дали стойностите на „NAN“ могат да бъдат ефективно използвани в инженеринга на функциите за данни, като се задълбочават в потенциалните ползи, предизвикателства и практически приложения.
Разбиране на стойностите на „Нан“
Преди да обсъдим използването им в Feature Engineering, е от съществено значение да разберете какви са стойностите на „NAN“. В езици за програмиране като Python, „Nan“ е специална стойност с плаваща запетая, използвана за представяне на неопределени или непредставими числени резултати. Например, разделянето на нула на нула или приемането на квадратния корен на отрицателно число в контекст, в който сложните числа не се поддържат, може да доведе до стойност на „NAN“.
В набор от данни стойностите „NAN“ обикновено показват липсващи данни. Това може да се дължи на различни причини, като грешки в въвеждане на данни, неизправности в сензора или непълни проучвания. Традиционно стойностите на „NAN“ се разглеждат като неудобство, което трябва да бъде отстранено или присвоено преди допълнителен анализ. Има обаче ситуации, в които тези стойности могат да носят ценна информация.
Потенциални предимства от използването на стойности на „NAN“ в функциите за инженерство
1. Идентифициране на модели на липса
Наличието или отсъствието на стойности на „NAN“ в набор от данни може да разкрие основните модели. Например, ако определена функция има висок дял от стойностите на „NAN“ в определен подмножество от данните, тя може да показва проблем с процеса на събиране на данни за този подмножество. Създавайки нови функции въз основа на моделите на липса, можем потенциално да подобрим работата на моделите за машинно обучение.


Помислете за набор от данни на клиентските транзакции, при които някои клиенти имат липсващи стойности за своите кредитни резултати. Вместо просто да впускаме тези стойности, можем да създадем бинарна функция, показваща дали кредитният рейтинг на клиента липсва или не. Тази нова функция може да обхване важна информация за рисковия профил на клиента, тъй като клиентите с липсващи кредитни резултати могат да бъдат по -склонни да бъдат неизпълнени при плащанията си.
2. Включване на несигурност
В някои случаи стойностите на „NAN“ могат да представляват истинска несигурност в данните. Например, в набор от данни от времеви серии, стойността на „NAN“ в определен етап от време може да показва, че измерването не е налично или е ненадеждно. Като запазим тези стойности на „NAN“ в набора от данни и използвайки подходящи алгоритми, които могат да обработват липсващи данни, можем да включим тази несигурност в нашите модели.
Един от подходите е да се използват вероятностни модели, които могат да оценят разпределението на вероятността на липсващите стойности. След това тези модели могат да генерират множество възможни импутации, което ни позволява да отчитаме несигурността в данните. Това може да доведе до по -стабилни и точни прогнози, особено в ситуации, при които липсващите данни не липсват напълно на случаен принцип.
3. Избор на характеристики и намаляване на размерите
Наличието на стойности на „NAN“ може да се използва и като критерий за избор на функции. Характеристиките с голям брой „NAN“ стойности могат да бъдат по -малко информативни или по -трудни за работа. Чрез премахването на тези функции или им присвоихме по -ниски тегла, можем да намалим размерите на набора от данни и потенциално да подобрим производителността на нашите модели.
Например, при високомерния набор от данни със стотици функции, някои функции могат да имат значителна част от стойностите на „NAN“. Чрез идентифициране на тези функции и премахването им от набора от данни, можем да се съсредоточим върху по -информативните характеристики и да намалим изчислителната сложност на нашите модели.
Предизвикателства за използване на стойности на „NAN“ в функциите за инженерство
1. Съвместимост с алгоритмите за машинно обучение
Не всички алгоритми за машинно обучение могат да се справят директно с „NAN“. Много алгоритми, като линейна регресия, дървета на решения и невронни мрежи, изискват да бъдат завършени входните данни. Следователно, ако искаме да използваме тези алгоритми, трябва да предварително обработим данните, за да премахнем или приписваме стойностите на „NAN“.
Въпреки това, някои алгоритми, като случайни гори и машини за засилване на градиента, могат да се справят до известна степен липсващи данни. Тези алгоритми могат да разделят данните въз основа на наличието или отсъствието на стойности на „NAN“, което им позволява да улавят информацията, съдържаща се в моделите на липса.
2. Пристрастие на импутацията
Когато влагат стойности на „NAN“, съществува риск от въвеждане на отклонение в набора от данни. Изборът на метод на импутация може да окаже значително влияние върху работата на моделите за машинно обучение. Например, ако използваме средна импутация, за да попълним липсващите стойности, приемаме, че липсващите стойности са подобни на средната стойност на наблюдаваните стойности. Това може да не е вярно във всички случаи, особено ако липсващите данни не липсват напълно на случаен принцип.
За да смекчим този риск, можем да използваме по-сложни методи за импутация, като множество импутации или базирана на модела импутация. Тези методи могат да генерират множество възможни импутации въз основа на наблюдаваните данни и основното разпределение на липсващите стойности, намалявайки отклоненията, въведени от процеса на импутация.
3. Изтичане на данни
Когато използвате стойностите на „NAN“ в функциите, съществува риск от изтичане на данни. Изтичането на данни възниква, когато информацията от тестовия набор по невнимание се използва в процеса на обучение, което води до свръхптимистични оценки на ефективността. Например, ако приписваме стойностите на „NAN“ в тренировъчния набор, използвайки информация от тестовия набор, моделът може да се научи да разчита на тази информация и да изпълнява лошо на нови данни.
За да избегнем изтичането на данни, трябва да гарантираме, че процесът на импутация се извършва отделно в тренировъчните и тестовите набори. Можем да използваме тренировъчния набор, за да оценим параметрите на метода на импутацията и след това да приложим същия метод към тестовия набор, без да използваме информация от тестовия набор.
Практически приложения за използване на стойности на „NAN“ в функцията Engineering
1. Здравеопазване
В здравеопазването стойностите на „NAN“ могат да се използват за представяне на липсващи медицински записи или резултати от тестове. Създавайки нови функции въз основа на моделите на липса, можем потенциално да идентифицираме пациентите с висок риск от развитие на определени заболявания. Например, ако пациентът има липсваща стойност за определен биомаркер, това може да показва, че пациентът не е претърпял необходимия тест. Тази информация може да се използва за приоритет на по -нататъшното тестване и лечение.
2. Финанси
Във финанси стойностите на „NAN“ могат да се използват за представяне на липсващи финансови данни, като цени на акции или кредитни рейтинги. Чрез включване на информацията за липсата в нашите модели, ние потенциално можем да подобрим точността на нашите оценки на риска и инвестиционните решения. Например, ако една компания има липсваща стойност за печалбата си на акция, това може да показва, че компанията е изправена пред финансови затруднения. Тази информация може да се използва за съответно коригиране на нашата инвестиционна стратегия.
3. Интернет на нещата (IoT)
В IoT приложения стойностите на „NAN“ могат да се използват за представяне на липсващи показания на сензора. Използвайки подходящи алгоритми, които могат да обработват липсващи данни, можем да гарантираме надеждността и точността на нашите IoT системи. Например, в интелигентна домашна система, ако сензорът има липсваща стойност за температурата, това може да показва, че сензорът е неизправност. Тази информация може да се използва за задействане на предупреждение и поддръжка на графика.
Заключение
В заключение, стойностите на „NAN“ могат да се използват ефективно в инженеринга на данните, но това изисква внимателно разглеждане на потенциалните ползи и предизвикателства. Чрез идентифициране на модели на липса, включване на несигурност и използване на подходящи алгоритми и методи на импутация, можем да използваме информацията, съдържаща се в „NAN“ стойности, за да подобрим работата на нашите модели за машинно обучение.
Като доставчик на продукти, свързани със стойностите на „NAN“, ние предлагаме редица решения, които да ви помогнат да обработвате липсващи данни във вашите набори от данни. Нашите продукти включват инструменти за предварителна обработка на данни, алгоритми за импутация и модели на машинно обучение, които могат да обработват липсващи данни. Ако се интересувате да научите повече за това как нашите продукти могат да ви помогнат с вашите нужди от инженеринг на вашите данни, моля, свържете се с нас, за да обсъдите вашите изисквания.
Що се отнася до свързани продукти, може да се интересувате и от следното:
ЛИТЕРАТУРА
- Little, RJA, & Rubin, DB (2019). Статистически анализ с липсващи данни. Уайли.
- Van Buuren, S. (2018). Гъвкаво импутация на липсващи данни. Чапман и Хол/CRC.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). Елементите на статистическото обучение: извличане на данни, извод и прогнозиране. Спрингър.
