Извличане на закономерности от данни чрез използване на логистична регресия - същност, предимства и недостатъци, приложения


Категория на документа: Математика




Извличане на закономерности от данни чрез използване на логистична регресия - същност, предимства и недостатъци, приложения.

КУРСОВА РАБОТА
ПО ДИСЦИПЛИНАТА
Data Mining

Съдържание

1.Регресионен анализ ...............................................................................................3
2.Линейна регресия (LR)..........................................................................................4
3.Логистична регресия..............................................................................................7
3.1.Същност................................................................................................................7
3.2.Общ вид.................................................................................................................8
3.3.Логистичен модел ................................................................................................8
3.4.Maximum likelihood estimation..........................................................................11
3.5.Iteratively Re-weighted Least Squares (IRLS).....................................................12
3.6.Логистична регресия за класифицикация.........................................................14
3.6.1.Предимства и недостатъци на ЛР..................................................................14
3.7.Видове логистични модели ..............................................................................16
3.8.Нашият подход...................................................................................................17
3.9.Datasets (Набор от данни)..................................................................................17
3.9.1.Life sciences .....................................................................................................18
3.9.2.Link detection....................................................................................................18
3.9.3.Синтетични набори от данни .........................................................................19
Приложение ..............................................................................................................22
Източници ...........................................................................................................................26

1.Регресионен анализ
Това е направление в математическата статистика, в което се изучават и оценяват възможните функционални зависимости между две или повече случайни величини. Основни въпроси са дали съществува функционална зависимост между две зависими случайни величини и ако да - да се намери функция, която да я описва достатъчно точно. Класически пример е търсенето на зависимост между ръста и теглото на човек.
Регресионният анализ не дава отговор на въпроса какви са причините.Той показва взаимните отношения между променливите, които в контекста на разглежданата задача могат да бъдат интерпретирани като причинно-следствени.Предназначен е за решаване на общи задачи - относно вида на зависимостта, определяне функцията на тази зависимост, количествено определяне параметрите на избраната функция.Променливите, чиито вариации искаме да обясним или предскажем, се наричат зависими - това е следствието.Целите на регресионния анализ са да определи как и в каква степен зависимата променлива варира или се променя като функция от изменения на независимата променлива. Независимата променлива се явява причината.
Регресионният анализ показва причинно-следствени връзки между повече от две променливи. Може да приемаме повече променливи като независими и да търсим тяхното влияние върху една зависима. Изследователят определя кои променливи ще бъдат зависими и кои независими. Коефициент на регресия обикновено се бележи се с β.
При интерпретация, когато β>0, повишаването на значението на едната променлива води до повишаване значението на другата.Важна е силата на тази връзка.Няма обратна възможност. Когато β<0, повишаването на стойността на независимата води до понижаване на стойността на зависимата.Тъй като могат да се използват няколко зависими променливи, може да се използва като допълнителен коефициент ΔR2 - Adjusted R Square.Той показва процента на обяснената вариация.Показва какъв процент от случаите ще доведат до промени в зависимата. Може само една независима да доведе до промяна в зависимата.Тогава ΔR2 ще се отнася до нея. Ако са повече, той ще се отнася общо за тях.
Най-често използван регресионен модел е така нареченият стъпков регресионен модел. На няколко стъпки се извеждат резултатите.Не взимаме предвид резултатите от последната стъпка и интерпретираме резултатите от първата стъпка.На първа стъпка излиза една от независимите променливи, които оказват влияние върху зависимата и след това те се увеличават.Колкото е по-голяма стойността, толкова по-голяма е възможността промените в независимите променливи да водят до промени в зависимата.

2.Линейна регресия (LR)
Линейната регресия е статистически метод за построяване на (евентуално) приемлива линейна връзка между група независими променливи x1, x2, ..., xm и зависима променлива y (наричана индикатор или контролна величина). Т.е.построяване на линеен математически модел, с чиято помощ могат да се правят прогнози за състоянието на y при различни данни за x.За тази цел се провеждат n на брой (случайни) експеримента - за различни стойности на x-овете се измерват стойностите на зависимата променлива y, т.е. за i-тия експеримент имаме съпоставянето:
yi ↔ L Hxi 1, xi 2, ..., xi mL
Тогава можем да запишем резултатите от експериментите във вида:

Нашата задача е да съставим линейна зависимост между y и x1, ..., xm, която приемливо да удовлетворява данните от. Освен това, тази зависимост трябва да отчита евентуална неточност в данните при протичането на експериментите. Тогава търсим такива стойности ak (които се наричат параметри на модела или регресионни коефициенти), че да е в сила зависимост от вида:
y = L Hx1, ..., xmL+ε= a1 x1 +a2 x2 +...+am xm + ε, ε = H ε1 ε2 ∫ εm L (3) T
Тук ei съответсва на отклонението от истинската стойност от наблюдаваната в даден експеримент. Тогава имаме системата:
yi = a1 xi 1 +a2 xi 2 +...+am xi m + εi, i = 1, ..., n (4)
Или записано матрично:
y = L Hx1, ..., xmL+ε= X a+ ε, a = H a1 a2 ∫ am L (5) T
Задачата е да намерим стойности на a, такива че отклонението e да е минимално, т.е. по някакъв начин (тъй като подлежи на интерпретация) да минимизираме e, т.е. да е изпълнено
ε = min Hy−L Hx1, .., xmLL = min Hy−X aL (6)
Желанието ни е при намерени регресионни коефициенти a да е приемливо приближението:
y ≈ L Hx1, ..., xmL = y (7) ˆ



Сподели линка с приятел:





Яндекс.Метрика
Извличане на закономерности от данни чрез използване на логистична регресия - същност, предимства и недостатъци, приложения 9 out of 10 based on 2 ratings. 2 user reviews.