Многоизмерен статистически анализ Специална приложна икономика. Многоизмерен статистически анализ

Въведение

Глава 1. Множество регресионен анализ

Глава 2. Клъстер Анализ

ГЛАВА 3. АНАЛИЗ НА ФАКТОРА

Глава 4. Дискриминационен анализ

Библиография

Въведение

Изходната информация в социално-икономическите изследвания изглежда най-често под формата на набор от обекти, всеки от които се характеризира с редица функции (индикатори). Тъй като броят на тези обекти и характеристики могат да достигнат десетки и стотици, и визуалният анализ на тези данни е неефективен, след това концентрациите на редукция, концентрацията на източника, откриват структурата и връзката между тях въз основа на изграждането на обобщени характеристики на набор от функции и набори от обекти. Тези задачи могат да решат методите за многоизмерния статистически анализ.

Многоизмерният статистически анализ е част от статистиката за математическите методи, насочени към идентифициране на естеството и структурата на връзката между компонентите на изследваните и предназначени за получаване на научни и практически заключения.

Фокусът на многоизмерния статистически анализ се изплаща на математически методи за изграждане на оптимални планове за събиране, систематизиране и обработка на данни, насочени към идентифициране на естеството и структурата на връзката между компонентите на проучването на многоизмерния характер и предназначени за получаване на научни и практически Заключения.

Първоначалният масив от многоизмерни данни за многоизмерния анализ обикновено се използва от резултатите от измерването на компонента на многоизмерна функция за всеки от обектите на съвкупността в проучването, т.е. Последователност от многоизмерни наблюдения. Многоизмерната функция най-често се тълкува като и последователността на наблюденията като проба от общата популация. В този случай изборът на метода за обработка на статистически данни се прави въз основа на някои предположения за естеството на закона за разпространение на изследваното многократно.

1. Многоизмерен статистически анализ на многоизмерните разпределения и техните основни характеристики обхваща ситуации, при които преработените наблюдения имат вероятностно положение, т.е. Тълкуван като проба от съответното общо население. Основните задачи на този подраздел включват: оценка на статистически проучени многоизмерни разпределения и техните основни параметри; Проучване на свойствата на използваните статистически оценки; Изследването на вероятностите разпределения за редица статистически данни, с които се изграждат статистически критерии за проверка на различни хипотези, върху вероятностната природа на анализираните многомерни данни.

2. Многоизмерен статистически анализ на естеството и структурата на взаимоотношенията Компонентът на изследваната многоизмерна функция съчетава концепциите и резултатите, присъщи на такива методи и модели, като анализ, анализ на дисперсията, анализ на ковариания, анализ на коварианта, факторния анализ и др. Методите, принадлежащи към тази група, включват двата алгоритми въз основа на предположението за вероятностното естество на данните и методите, които не се вписват в рамките на всеки вероятностм модел (последните са по-често наричани методи).

3. Талигомският статистически анализ на геометричната структура на изследвания набор от многоизмерни наблюдения съчетава концепции и резултати, характерни за такива модели и методи като дискриминационен анализ, клъстерен анализ, многомерно скалиране. Nodal за тези модели е концепцията за разстояние или мерки на близост между анализираните елементи като точки на малко пространство. В същото време те могат да бъдат анализирани като обекти (и двете точки, определени в пространството на функцията), и функции (като точките, определени в пространството на обекта).

Приложната стойност на многоизмерния статистически анализ се състои главно в решаването на следните три задачи:

· Задачата на статистическите изследвания на зависимостите между разглежданите показатели;

· Задачата на класифициране на елементите (обекти или знаци);

· Проблемът за намаляване на измерението на характеристичното пространство под внимание и избора на най-информативните характеристики.

Многобройният регресионен анализ е предназначен за изграждане на модел, който позволява стойностите на независимите променливи да получат оценки на стойностите на зависимата променлива.

Логистична регресия за решаване на задачата за класификация. Това е вид многократно регресия, чиято цел е да се анализира връзката между няколко независими променливи и зависимата променлива.

Факторният анализ се предупреждава чрез определяне на относително малък брой скрити (латентни) фактори, чиято променливост обяснява променливостта на всички наблюдавани показатели. Факторният анализ е насочен към намаляване на измерението на разглеждания проблем.

Клъстерът и дискриминантният анализ са предназначени да отделят комплектите обекти към класове, всеки от които трябва да включва обекти в определен смисъл, хомогенни или роднини. С клъстер анализ, той не е известен предварително колко групи обекти и това, което те ще бъдат обеми. Дискриминантният анализ споделя обекти според съществуващите класове.

Глава 1. Множество регресионен анализ

Задача: Проучване на пазара на жилища в Орел (съветски и север).

Таблицата показва цената на апартаментите в Orel и за различни фактори, което го причинява:

· цялата зона;

· Кухненска зона;

· жилищно пространство;

· Тип на къщата;

· Брой стаи. (Фиг. 1)

Фиг. 1 източник

В колоната "Област" използвана нотация:

3 - Съветски (елит, се отнася до централните области);

4 - Северна.

В колоната "Тип къща":

1 - тухла;

0 - панел.

Изисква:

1. Анализирайте връзката на всички фактори с индикатора за "цената" и помежду си. Изберете факторите, които са най-подходящи за изграждане на регресионен модел;

2. Опишете фиктивна променлива, която показва апартамент в централните и периферните зони на града;

3. Изградете линеен регресионен модел за всички фактори, включително фиктивна променлива. Изчислете икономическия смисъл на параметрите на уравнението. Оценка на качеството на модела, статистическата значимост на уравнението и нейните параметри;

4. разпределят фактори (с изключение на фиктивна променлива) със степента на влияние върху цената "цена";

5. Изградете линеен регресионен модел за най-влиятелните фактори, оставяйки фиктивната променлива в уравнение. Оценява качеството и статистическата значимост на уравнението и нейните параметри;

6. достатъчно осъществимост или неуместност на включването в уравнението п. 3 и 5 от фиктивната променлива;

7. оценява интервалите оценки на параметрите на уравнението с вероятност от 95%;

8. Определете колко един апартамент ще струва с обща площ от 74,5 м² в елитна (периферна) зона.

Производителност:

1. След анализ на свързването на всички фактори с показателя за "цената" и помежду си, факторите, които са най-подходящи за изграждане на регресионен модел, са били избрани с помощта на инструкциите "напред":

А) общата площ;

В) брой стаи.

Включени / изключени променливи (а)

зависима променлива: цена

2. Променливата X4 "област" е фиктивна променлива, тъй като има 2 ценности: 3-хора в Централния район "Съветски", 4- до периферния район "Северен".

3. изграждаме линеен регресионен модел за всички фактори (включително фиктивна променлива x4).

Полученият модел:

Оценка на качеството на модела.

Стандартна грешка \u003d 126,477

Коефициент на Дарбина - Watson \u003d 2,136

Проверете значението на регресионното уравнение

Стойността на критерия F-Fisher \u003d 41,687

4. изграждаме линеен модел регресия с всички фактори (с изключение на фиктивна променлива x4)

Според степента на влияние върху показателя "цена":

Най-важният фактор е общата площ (F \u003d 40.806)

Вторият най-голям фактор е броят на помещенията (F \u003d 29,313)

5. Включени / изключени променливи

зависима променлива: цена

6. Ние изграждаме линеен регресионен модел за най-влиятелните фактори с фиктивна променлива, в нашия случай това е един от влиятелните фактори.

Полученият модел:

Y \u003d 348,349 + 35,788 x1 -217,075 x4 +305,687 x7

Оценка на качеството на модела.

Коефициент на определяне R2 \u003d 0.807

Показва дела на вариацията на ефективна характеристика под влиянието на изучаването на факторите. Следователно, около 89% от изменението на зависимата променлива се вземат предвид и се дължи в образеца на влиянието на включените фактори.

Широк корелационен коефициент R \u003d 0.898

Показва стягане на връзката между зависимата променлива y с всички фактори, свързани с модела.

Стандартна грешка \u003d 126,477

Коефициент на Дарбина - Watson \u003d 2,136

Проверете значението на регресионното уравнение

Стойността на критерия F-Fisher \u003d 41,687

Регресионното уравнение следва да бъде признато като адекватно, моделът се счита за значителен.

Най-важният фактор е броят на помещенията (F \u003d 41,687)

Вторият най-голям фактор е общата площ (F \u003d 40.806)

Трети най-големият фактор (F \u003d 32,288)

7. Фиктивната променлива X4 е значителен фактор, поради което е препоръчително да се включи в уравнението.

Интервалните оценки на параметрите на уравнението показват резултатите от прогнозирането според регресионния модел.

С вероятност от 95%, изпълнението на изпълнението в прогнозирания месец ще бъде от 540.765 до 1080.147 милиона рубли.

8. Определяне на цената на апартамент в елитна област

За 1 стая Y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 1

За 2 стаи y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 2

За 3 стаи y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 3 + 305,687 * 3

в перифер

За 1 стая Y \u003d 348,349 + 35.788 * 74, 5 - 217,075 * 4 + 305,687 * 1

За 2 стаи y \u003d 348,349 + 35.788 * 74, 5 - 217,075 * 4 + 305,687 * 2

За 3 стаи Y \u003d 348,349 + 35,788 * 74, 5 - 217,075 * 4 + 305,687 * 3

Глава 2. Клъстерен анализ

Задача: Проучване на структурата на паричния поток и спестяванията на населението.

Таблицата представя структурата на паричния поток и спестяванията на населението по региони на Централен федерален район Руска федерация През 2003 г. за следните показатели:

· Прах - закупуване на стоки и плащане на услуги;

· OPIV - задължителни плащания и вноски;

· MON - придобиване на недвижими имоти;

· PPA - увеличаване на финансовите активи;

· Д-р - увеличаване (намалява) пари в ръцете на населението.

Фиг. 8 източници

Изисква:

1) определя оптималния брой клъстери, за да разделят регионите в хомогенни групи във всички групи за групиране едновременно;

2) да класифицират зони по йерархичния метод с алгоритъма на междугруповите облигации и показване на резултатите като дендрограма;

3) да анализира основните приоритети на паричния поток и спестяванията в клъстерите;

Производителност:

За да определите оптималния брой клъстери, трябва да използвате йерархичен клъстер анализ и да се обърнете към таблицата с стъпки за саговорене към колоната "Фактори".

Тези коефициенти включват разстоянието между два клъстера, определени въз основа на избраната дистанционна мярка (евклидово разстояние). На този етап, когато мярката за разстоянието между два клъстера увеличава скокове, процесът на комбиниране в нови клъстери трябва да бъде спрян.

В резултат на това броят на клъстерите се счита за оптимален, равен на разликата в броя на наблюденията (17) и номера на етапа (14), след което коефициентът увеличава скок. По този начин оптималният брой клъстери е 3. (фиг.9)

статистически математически анализ клъстер

Фиг. 9 Таблица "Стъпки за саговора"

Сега, използвайки оптималния брой клъстери, ние провеждаме класификацията от регионите по йерархичния метод. И в изхода, ние се обръщаме към таблицата "принадлежност към клъстери". (Фиг.10)

Фиг. 10 таблица "принадлежаща към клъстери"

На фиг. 10 Ясно видяно, че в 3 клъстера 2 области (Калуга, Москва) и Москва, 2 клъстер две (Брянская, Воронеж, Иваново, Липецк, Орловска, Раязан, Смоленская, Тамбов, Тверская), в 1 клъстер - Белгород, Владимирская, Кострома , Курская, Тула, Ярославская.

Фиг. 11 Doddrogram.

3) да анализира основните приоритети на паричния поток и спестяванията, в получените клъстери;

За да анализираме получените клъстери, трябва да имаме "средно сравнение". В изходния прозорец се показва следната таблица (фиг. 12)

Фиг. 12 средни променливи

В таблицата "средни стойности" можем да проследим как структурите получават най-голям приоритет при разпределението на паричния поток и спестяванията на населението.

На първо място, заслужава да се отбележи, че се дава най-висок приоритет във всички области на закупуване на стоки и плащане на услуги. По-голяма стойност на параметъра отнема 3 клъстер.

2 място заема увеличение на финансовите активи. Най-голямата стойност в 1 клъстер.

Най-малкият коефициент от 1 и 2 клъстери в "придобиването на недвижими имоти" и в 3 клъстера се разкрива забележимо намаляване на парите в населението.

Като цяло, закупуването на стоки и плащане на услуги и лека покупка на недвижими имоти има особено значение за населението.

4) Сравнете получената класификация с резултатите от използването на алгоритъм за вътрешногрупов линк.

При анализа на междугрупа връзките ситуацията практически не се променя, с изключение на региона Тамбов, който от 2 клъстер падна в 1. (фиг.13)

Фиг. 13 Анализ на вътрешногрупи връзки

Нямаше промени в таблицата "средни стойности".

ГЛАВА 3. АНАЛИЗ НА ФАКТОРА

Задача: Анализ на леката промишленост предприятия.

Има данни за проучвания от 20 леки предприятия (фиг. 14) относно следните характеристики:

· X1 - ниво на капиталови студия;

· X2 - сложността на звеното на продуктите;

· X3 - делът на материалите за обществени поръчки в общите разходи;

· X4 - коефициент за промяна на оборудването;

· X5 - премии и възнаграждение на служител;

· X6 - делът на загубата на брак;

· X7 - средната годишна стойност на основните производствени мощности;

· X8 - средногодишен фонд за заплати;

· X9 - нивото на реализиране на продукта;

· X10 - индекс на постоянен актив (съотношението на дълготрайни активи и други нетекущи активи със собствени средства);

· X11 - оборот на оборота;

· X12 - Непроизводствени разходи.

Фиг.14 Първоначални данни

Изисква:

1. да извършва факторна анализ на следните променливи: 1,3,5-7, 9, 11.12, разкриват и интерпретират факторни знаци;

2. Посочете най-проспериращите и обещаващите предприятия.

Производителност:

1. Да се \u200b\u200bизвърши фактор анализ на следните променливи: 1,3,5-7, 9, 11.12, разкриват и интерпретират факторни знаци.

Факторният анализ е набор от методи, които въз основа на съществуващи облигации на обекти (характеристики), позволяват да се идентифицират латентни (имплицитни) обобщаващи характеристики на организационната структура.

В диалоговия прозорец Фактор Анализ изберете нашите променливи, посочете необходимите параметри.

Фиг. 15 пълна дисперсия

Според таблицата "пълно обяснение" може да се види, че 3 фактора, обясняващи 74.8% вариации на променливи - конструираният модел е доста добър.

Сега интерпретирайте факторите на "матрицата на въртените компоненти": (фиг.16).

Фиг. 16 ротационни компоненти на матрицата

Фактор 1 е най-тясно свързан с нивото на продажбите на продукти и има обратна зависимост от непроизводствените разходи.

Фактор 2 е най-тясно свързан със специфичната тежест на материалите за възлагане на обществени поръчки в общите разходи и специфичното тегло на брачната загуба и има противоположна зависимост от премиите и възнаграждението на служител.

Фактор 3 е най-тясно свързан с нивото на финансиране и оборот на оборотите на фонда и има обратна зависимост от средната годишна стойност на основните производствени мощности.

2. Посочете най-проспериращите и обещаващите предприятия.

За да идентифицираме най-проспериращите предприятия, ние ще извършим сортиране на данни от 3 факторни знака низходящи. (Фиг.17)

Най-процъфтящите предприятия трябва да се вземат предвид: 13,4,5, тъй като в общи 3 фактора техните показатели заемат най-високите и стабилни позиции.

Глава 4. Дискриминационен анализ

Оценка на кредитоспособността на юридическите лица в търговска банка

Като значителни показатели, характеризиращи финансовото състояние на заемощите организации, шест показателя се избират от Банката (Таблица 4.1.1):

QR (X1) - коефициент на спешна ликвидност;

CR (x2) - текущото съотношение на ликвидност;

Eq / ta (x3) - коефициент на финансова независимост;

TD / eq (x4) - обща задължения към собствения капитал;

Ros (X5) - рентабилност на продажбите;

Мазнини (x6) - оборот на дълготрайни активи.

Таблица 4.1.1. Първоначални данни

Изисква:

Въз основа на дискриминационния анализ, използващ пакета SPSS, определете коя от четирите категории включва трима кредитополучатели ( юридически лица) Който желае да получи заем в търговска банка:

§ Група 1 - с отлични финансови показатели;

§ Група 2 - с добри финансови показатели;

§ Група 3 - с лоши финансови показатели;

§ Група 4 - с много лоши финансови показатели.

Според резултатите от изчислението, изграждат дискриминационни функции; Оценяват тяхното значение в коефициента на WILX (λ). Изградете карта на възприятието и диаграмите на взаимното местоположение на наблюденията в пространството на три функции. Извършване на интерпретацията на резултатите от анализа.

Напредък:

За да се определи коя от четирите категории включва трима кредитополучатели, които желаят да получат заем в търговска банка, ние изграждаме дискриминационен анализ, който ви позволява да определите кои от предварително идентифицираните комплекти (обучителни проби) трябва да включват нови клиенти.

Като зависима променлива, изберете група, към която кредитополучателят може да включва в зависимост от финансовите си показатели. От данните за задачите всяка група определя съответния рейтинг 1, 2, 3 и 4.

Небрежни канонични коефициенти на дискриминационни функции, показани на фиг. 4.1.1 се използват за конструиране на уравнението на дискриминационни функции D1 (x), D2 (x) и D3 (x):

3.) D3 (x) \u003d


	1






(Постоянен)

Фиг. 4.1.1. Канонични дискриминационни коефициенти

Фиг. 4.1.2. Ламбда Вилкса

Въпреки това, тъй като значението на коефициента на WILX (фиг. 4.1.2) от втората и трети от функцията са повече от 0.001, те са неподходящи за дискриминация.

Таблица Данни "Резултати от класификацията" (Фиг. 4.1.3) показват, че за 100% наблюдения, класификацията се извършва правилно, високата точност се постига във всичките четири групи (100%).

Фиг. 4.1.3. Резултати от класификацията

Информация за действителните и прогнозираните групи за всеки кредитополучателя е показан в таблицата "статистика на потенциал" (фиг. 4.1.4).

В резултат на дискриминационния анализ, най-вероятността от нови банкови кредитополучатели към подгрупата на обучението M1 - първият, втори и третия кредитополучател (сериен номер 41, 42, 43) са класифицирани като подмножество на M1 със съответните вероятности от 100 %.

Номер на наблюдателя	Действителна група	Група държач
		Прогнозна група
		Прогнозна група


	ungrounged.
	ungrounged.
	ungrounged.

Фиг. 4.1.4. Стартиране на статистиката

Координатите на центроидите по групи са дадени в таблицата "Функции в общи групи" (фиг. 4.1.5). Те се използват за прилагане на центроиди до картата с възприятия (фиг. 4.1.6).


	1

Фиг. 4.1.5. Функции в груповите центрофиди

Фиг. 4.1.6. Карта на възприятието за две дискриминационни функции D1 (X) и D2 (x) (* - Centroid Group)

Полето на "териториалната карта" е разделено на дискриминационни функции в четири области: в лявата част има предимно наблюдения на четвъртата група кредитополучатели с много лоши финансови показатели, в правилната част - първата група с отлични финансови показатели, В средната и долната част - третата и втората група кредитополучатели, съответно с лоши и добри финансови показатели.

Фиг. 4.1.7. Диаграма на разсейване за всички групи

На фиг. 4.1.7 показва комбинирания график за разпространението на всички групи кредитополучатели заедно със своите центроиди; Може да се използва за извършване на сравнителен визуален анализ на естеството на взаимното местоположение на банковите кредитополучатели във финансови показатели. В дясната част на графика има кредитополучатели с високи показатели, вляво - с ниска, а в средната част - със средните финансови показатели. Тъй като според резултатите от изчислението, втората дискриминационна функция D2 (x) е незначителна, тогава разликите в координатите на центроидите по тази ос са незначителни.

Оценка на кредитоспособността на физическите лица в търговска банка

Кредитният отдел на търговската банка проведе извадко проучване на 30 от своите клиенти (физически лица). Въз основа на предварително анализиращи данни, кредитополучателите бяха оценени на шест показателя (таблица 4.2.1):

X1 - Кредитополучателят е взел заем в търговските банки по-рано;

X2 - Среден месечен доход на семейството на кредитополучателя, хиляди рубли;

X3 - срок (период) на погасяване на кредита, години;

X4 - размерът на издадения кредит, хиляди рубли;

X5 - съставът на семейството на кредитополучателя, хора;

X6 - възрастта на кредитополучателя, години.

В същото време три групи кредитополучатели са идентифицирани чрез вероятността за възстановяване на кредита:

§ Група 1 - Ниска вероятност за погасяване на кредита;

§ Група 2 - със средната вероятност за погасяване на кредита;

§ Група 3 - с голяма вероятност за погасяване на кредита.

Изисква:

Въз основа на дискриминационния анализ, използващ пакета SPSS, е необходимо да се класифицират три банкови клиенти (чрез вероятност за погасяване на заема), т.е. Оценете принадлежността на всяка от тях на една от трите групи. Според изчислението е важно да се изграждат значителни дискриминационни функции, тяхното значение за оценка съгласно коефициента на WILX (λ). В пространството на две дискриминационни функции за всяка група изграждат диаграми на взаимното местоположение на наблюденията и комбинираната диаграма. Оценете местоположението на всеки кредитополучател на тези диаграми. Извършване на интерпретацията на резултатите от анализа.

Таблица 4.2.1. Първоначални данни

Напредък:

За изграждане на дискриминационен анализ, като зависима променлива, ние избираме вероятността за своевременно погасяване на кредита от клиента. Като се има предвид, че тя може да бъде ниска, средна и висока, всяка категория да определи подходяща оценка от 1.2 и 3.

Небрежни канонични коефициенти на дискриминационни функции, показани на фиг. 4.2.1, използван за изграждане на уравнението на дискриминационни функции D1 (x), D2 (x):

2.) D2 (x) \u003d

Фиг. 4.2.1. Канонични дискриминационни коефициенти

Фиг. 4.2.2. Ламбда Вилкса

От коефициента на WILX (Фиг. 4.2.2) за втората функция, значението на повече от 0.001, следователно е непрактично за дискриминация.

Таблица Данни "Резултати от класификацията" (Фиг. 4.2.3) показват, че за 93.3% от наблюденията класификацията се извършва правилно, високата точност се постига в първата и втората група (100% и 91.7%), са по-малко точни резултати получени в третата група (88, 9%).

Фиг. 4.2.3. Резултати от класификацията

Информацията за действителните и прогнозираните групи за всеки клиент е показана в таблицата "статистика на партидата" (фиг. 4.2.4).

В резултат на дискриминантния анализ, принадлежността на новите клиенти на Банката към подгрупата на М3 - първият, вторият и третия клиент (сериен номер 31, 32, 33) се приписва на подгрупата на m3 със съответната вероятности от 99%, 99% и 100%.

Номер на наблюдателя	Действителна група	Група държач
		Прогнозна група
		Прогнозна група


	ungrounged.
	ungrounged.
	ungrounged.

Фиг. 4.2.4. Стартиране на статистиката

Вероятността за погасяване на кредита
Вероятността за погасяване на кредита

Фиг. 4.2.5. Функции в груповите центрофиди

Координатите на центроидите по групи са дадени в таблицата "функции в обща група" (фиг. 4.2.5). Те се използват за прилагане на центроиди до възприемащата карта (фиг. 4.2.6).

Полето на "териториалната карта" е разделено от дискриминационни функции в три области: в лявата страна са предимно наблюдение на първата група клиенти с много ниска вероятност за погасяване на кредита, в дясната част на третата група с a висока вероятност, в средната група клиенти със средната вероятност за възстановяване на кредита, съответно.

На фиг. 4.2.7 (A - с) отразява местоположението на клиентите на всяка от трите групи в равнината на две дискриминационни функции D1 (x) и D2 (x). Според тези графики е възможно да се извърши подробен анализ на вероятността за погасяване на кредита във всяка група, да се прецени естеството на разпределението на клиентите и да оцени степента на отдалеченост от съответния центроид.

Фиг. 4.2.6. Карта на възприятието за три дискриминационни функции D1 (x) и D2 (x) (* - Centroid Group)

Също на фиг. 4.2.7 г) в същата координатна система е дадено комбиниран график за разпределение на всички клиенти на клиента, заедно с неговите центроиди; Може да се използва за извършване на сравнителен визуален анализ на естеството на взаимното местоположение на клиентските групи на банката с различни вероятности за погасяване на кредити. В лявата страна на графиката има кредитополучатели с голяма вероятност за погасяване на кредита, в дясно - с нисък, а в средната част - със средна вероятност. Тъй като според резултатите от изчислението, втората дискриминационна функция D2 (x) е незначителна, тогава разликите в координатите на центроидите по тази ос са незначителни.

Фиг. 4.2.7. Местоположение на наблюденията в равнината на две дискриминационни функции за групи с ниска (а), средно (б), висока (в) вероятност за погасяване на кредита и за всички групи (g) \\ t

Списък на препратките

1. "Многоизмерен статистически анализ в икономическите задачи. Компютърна симулация в SPSS ", 2009

2. Orlov a.i. "Приложна статистика" m.: Издателство "Изпит", 2004

3. Fisher R.A. "Статистически методи за изследователи", 1954

4. Kalinina v.n., Соловиев v.i. "Въведение в многоизмерния статистически анализ" Ръководство за 2003 г.;

5. Akhim Büul, Петър Цофел, "SPSS: Информационно обработване на изкуството" Издателство DiaSoft, 2005;

6. http://ru.wikipedia.org/wiki.

От иконометрично

Многоизмерен статистически анализ

В многоизмерния статистически анализ, пробата се състои от елементи на многоизмерно пространство. Оттук и името на този раздел на иконометричните методи. От многото задачи на многоизмерния статистически анализ разглеждаме две - възстановяване на зависимостта и класификацията.

Оценка на линейна прогностична функция

Нека започнем със задачата на точката и поверителната оценка на линейната прогностична функция на една променлива.

Първоначалните данни са набор от п двойки числа (TK, XK), K \u003d 1,2, ..., N, където TK е независима променлива (например време) и XK зависи (например, индексът на инфлацията, степента на щатския долар, месечното обемно производство или ежедневните приходи на търговската точка). Предполага се, че променливите са свързани с пристрастяване

x k \u003d a (t K - t cp) + b + e k, k \u003d 1,2, ..., n,

където А и В са параметри, неизвестни статистически данни и да бъдат оценени, а Д е грешките, нарушават пристрастяването. Аритметични аритметични моменти

t cf \u003d (t 1 + t 2 + ... + t n) / n

вписан в модела, за да се улеснят допълнителните изчисления.

Обикновено оценяват параметрите A и B линейна зависимост от най-малкия квадратен метод. След това възстановената зависимост се използва за прогнозиране на точките и интервалите.

Както е известно, методът на най-малките квадрати е разработен от голямата немска математика К. Гаус през 1794 г. съгласно този метод, за изчисляване на най-добрата функция, която носи линейно зависимостта x от t, трябва да обмисли функцията на две променливи

Оценките на метода на най-малките квадрати са такива стойности на A * и B *, в които функцията F (A, B) достига до минимум във всички стойности на аргументите.

За да се намерят тези оценки, е необходимо да се изчислят частните деривати от функцията f (a, b) с аргументи А и Б, да ги приравнят 0, след това от получените уравнения за намиране на оценки: имаме:

Ние трансформираме правилните части от получените съотношения. Ще обобщя общите мултипликатори 2 и (-1). След това помислете за компонентите. Ще отворим скоби в първия израз, ние получаваме, че всеки термин е разбит от три. Във втория израз и всеки термин е сумата от три. Това означава, че всяко количество е нарушено от три количества. Ние имаме:

Приравняваме частните деривати от 0. След това в получените уравнения можете да намалите множителя (-2). Дотолкова доколкото

(1)

уравнения придобиват изглед

Следователно, оценките на метода на най-малките квадрати са

(2)

По силата на връзката (1), оценката a * може да бъде написана в по-симетрична форма: \\ t

Тази оценка е лесна за преобразуване и формуляра

Следователно възстановената функция, с която можете да предскажете и интерполат, има формата

x * (t) \u003d a * (t - t cp) + b *.

Привличаме внимание на факта, че използването на Т Кр в последната формула не ограничава своята общност. Сравнете с модела за преглед

x k \u003d c t + d + e k, k \u003d 1,2, ..., n.

Ясно е това

По същия начин съответните оценки на параметрите:

За да се получат оценки на параметрите и прогностичната формула, няма нужда да се обръщате към всеки вероятностм модел. Въпреки това, за да се изследват грешките на оценките на параметрите и възстановената функция, т.е. Изградете доверителни интервали за *, b * и x * (t), необходим е такъв модел.

Непараметричен вероятност. Нека стойностите на независимите променливи Т детерминистични и грешките E K, K \u003d 1,2, ..., N, са независими еднакво разпределени случайни променливи с нулево математическо очакване и дисперсия

Неизвестна статистика.

В бъдеще ще използваме многократно централната Ограничете теоремата (CPT) теория на вероятността за EK, K \u003d 1.2, ..., N (с признаци), следователно, за да изпълнява условията си, е необходимо да се приеме, например, че грешки EK, K \u003d 1,2, ... , N, finit или имат последния трети абсолютен момент. Въпреки това, фокусиране върху тези интраматематични "условия за редовност" няма нужда.

Асимптотични разпределения на оценките на параметрите. От формула (2) следва това

(5)

Според оценката на CPT B * има асимптотично нормално разпределение с математическо очакване b и дисперсия

Оценката на която е дадена по-долу.

От формули (2) и (5) предполагат това

Последният термин във второто съотношение на сумиране съгласно I е изготвен до 0, следователно от формули (2-4) следва това

(6)

Формула (6) показва тази оценка

е асимптотично нормално с математическо очакване и дисперсия

Имайте предвид, че многоизмерната нормалност трябва да бъде, когато всеки термин във формула (6) е относително сравним с цялото количество, т.е.

От формули (5) и (6) и първоначалните предположения за грешките, неуспеха да се оценят параметрите.

Изпълнението и асимптотичната нормалност на оценките на метода на най-малките квадрати улесняват определянето на асимптотични доверие за тях (по същия начин като границите в предишната глава) и проверявайте статистическите хипотези, например, при равенство на определени стойности, първо От всички 0. Ние предоставяме на читателя възможността да пишем формули за изчисляване на доверителните граници и да формулираме правила за проверка на споменатите хипотези.

Асимптотично разпределение на прогностичната функция. От формули (5) и (6) следва това

тези. Очакваната оценка на прогностичната функция е невероятна. Следователно

В същото време, тъй като грешките са независими в агрегата и

Т.

По този начин,

Пример

Има данни за освобождаването на продукти от група предприятия по месеци (милиони рубли):

За да се идентифицира общата тенденция на продуктовия растеж, ще увеличим интервалите. За тази цел първоначалните (месечни) данни за производството на продукти се съчетават в тримесечието и получаваме показатели за производство на продукти от група предприятия в четвъртинки: \\ t

В резултат на интегрирането на интервалите общата тенденция на растеж на производството в тази група предприятия е ясно: \\ t

64,5 < 76,9 < 78,8 < 85,9.

Откриването на обща тенденция на редица високоговорители може да бъде направено и чрез изглаждане на серия от високоговорители метод за плъзгане средно. Същността на тази техника е, че според първоначалните нива на броя (емпирични данни) се определят изчислените (теоретични) нива. В същото време чрез осредняване на емпирични данни се изплащат индивидуалните колебания, а общата тенденция на развитието на явлението се изразява като определена гладка линия (теоретични нива).

Основното условие за прилагането на този метод е да се изчислят връзките на подвижната (плъзгаща се) средна стойност на такива редица нива на ред, което съответства на продължителността на циклите, наблюдавани в число.

Недостатък на метода за изглаждане на високоговорителите на високоговорителите е, че получените средни стойности не дават теоретични модели (модели) от поредицата, въз основа на математически изразени модели и това би позволило не само анализа, но също така да се предвиди динамиката на редица бъдеще.

Много по-напреднал прием за изучаване на общата тенденция в редиците на оратора е аналитично подравняване. При изучаване на обща тенденция чрез аналитично подравняване, методите на високоговорителите на серия от динамика могат да бъдат изразени в една или друга степен на точност на сближаването, осреднява се с определени математически функции. Теоретичният анализ се открива от естеството на развитието на явлението и на тази основа, това или че се избира математически израз на вида на промените в явлението: в права линия, според параболе от втория ред, Индикативна (логаритмична) крива и други подобни.

Очевидно е, че нивата на времеви серии се формират под агрегираното влияние на набора от дълги и краткосрочни актьори, вкл. различни случайни цени. Промяната в условията на развитие на явлението води до повече или по-малко интензивна промяна на самите фактори, за промяна на силата и ефективността на тяхното въздействие и в крайна сметка да се променя в нивото на изследваното явление във времето.

Многоизмерен статистически анализ - Секцията на математическите статистически данни за математическите методи, насочени към идентифициране на естеството и структурата на връзката между компонентите на проучването на многоизмерната черта и предназначени за получаване на научни и практически заключения. Първоначалният масив от многоизмерни данни за този анализ обикновено се обслужва от измервателните резултати на компонента на многоизмерна функция за всеки от обектите на съвкупността, т.е. Последователност от многоизмерни наблюдения. Многоизмерен знак Най-често се тълкуват като многоизмерна стойност, и последователността на многоизмерните наблюдения е като проба от общата популация. В този случай изборът на метода за обработка на статистически данни се прави въз основа на някои предположения за природата право разпространение проучен многоизмерен знак.

1. Анализ на многоизмерните разпределения и техните основни характеристики Обхваща ситуации, при които преработените наблюдения имат вероятностно естество, т.е. Тълкуван като проба от съответното общо население. Основните задачи на този подраздел включват: оценка на статистически проучени многоизмерни разпределения и техните основни параметри; Проучване на свойствата на използваните статистически оценки; Изследването на вероятностите разпределения за редица статистически данни, с които се изграждат статистически критерии за проверка на различни хипотези, върху вероятностната природа на анализираните многомерни данни.
2. Анализ на естеството и структурата на връзката на компонента на изследваното мултидимен съчетава концепции и резултати, присъщи на такива методи и модели като анализ регресия, анализ на дисперсия, анализ на ковариацията, анализ фактор, анализ на латент-структурен, loglinic анализ, търсене на взаимодействия . Методите, принадлежащи към тази група, включват двата алгоритми, базирана на предположението за вероятностната характер на данните и методите, които не се вписват в рамките на всеки вероятностм модел (последният е по-често свързан с методи за анализ на данни).

3. Анализът на геометричната структура на разследвания набор от многоизмерни наблюдения съчетава концепции и резултати, характерни за такива модели и методи като анализът е дискриминантно, анализът е клъстер, мащабирането е многоизмерно. Nodal за тези модели е концепцията за разстояние или мерки на близост между анализираните елементи като точки на малко пространство. В същото време те могат да бъдат анализирани като обекти (и двете точки, определени в пространството на функцията), и функции (като точките, определени в пространството на обекта).

Приложната стойност на многоизмерния статистически анализ се състои главно в поддържането на следните три проблема:

Проблеми на статистическите изследвания на зависимостите между разглежданите показатели;

Проблеми на класифицирането на елементи (обекти или знаци);

Проблеми при намаляване на измерението на характеристичното пространство и подбора на най-информативните характеристики.

Въвеждането на PEVM в управлението на националната икономика включва прехода от традиционни методи Анализ на предприятията в по-напреднали модели за управление на икономиката, които позволяват нейните дълбочинни процеси да разкриват нейните дълбочинни процеси.

Широко разпространеното използване в икономическите изследвания на методите на математическата статистика прави възможно задълбочаване на икономическия анализ, подобряване на качеството на информацията при планирането и прогнозиране на производствените показатели и анализ на нейната ефективност.

Сложността и разнообразието на отношенията на икономическите показатели определят многократността на знаците и във връзка с това изискват използването на най-сложния математически апарат - методи за многоизмерен статистически анализ.

Понятието "многоизмерен статистически анализ" предполага редица методи, предназначени да изследват комбинацията от взаимосвързани знаци. Говорим за разчленяване (разделяне) на разглежданата комбинация, която е представена от многоизмерни знаци на относително малка сума.

В същото време преходът от голям брой признаци към по-малък е преследван от целта за намаляване на тяхното измерение и увеличаване на информационния контейнер. Такава цел се постига чрез идентифициране на информация, повтаряща се, генерирана от взаимосвързани знаци, установяване на възможността за агрегиране (асоцииране, сумиране) за някои признаци. Последното включва трансформацията на действителния модел в модел с по-малък брой факторни знаци.

Методът на многоизмерния статистически анализ ви позволява да идентифицирате обективно съществуващи, но очевидно не са изразени модели, които се проявяват в определени социално-икономически явления. Това трябва да се справи с това в решаването на редица практически задачи в областта на икономиката. По-специално, споменатата заета, ако е необходимо да се натрупва (фиксиране) в същото време стойностите на няколко количествени характеристики (характеристики) върху обекта, който се изследва, когато всяка характеристика е предразположена към неконтролиран вариант (в контекста на обектите) , въпреки хомогенността на обектите на наблюдение.

Например, проучване на хомогенни (по естествени икономически условия и вида на специализацията) на предприятието за редица показатели за изпълнение на изпълнението, ние сме убедени, че в прехода от един обект към друг, почти всяка от избраните характеристики (идентични) Неравномерно значение, то е, то намира така да говори неконтролируемо (случайно) разпръскване. Такава "случайна" характеристика на знаците, като правило, подлежи на някои (естествени) тенденции, както по отношение на достатъчно специфични размера на знаците, около коя вариация и по отношение на степента и взаимозависимостта на самия вариант се носят навън.

Горното води до определянето на многоизмерна произволна променлива като набор от количествени характеристики, стойността на всеки от които подлежи на неконтролируемо разсейване по време на повторенията на този процес, статистическо наблюдение, опит, експеримент и др.

Преди това се казва, че многоизмерният анализ съчетава редица методи; Ние ги наричаме: фактор анализ, основен метод на компонента, клъстерен анализ, разпознаване на изображения, дискриминационен анализ и и т.н. Първите три от тези методи се разглеждат в следващите параграфи.

Подобно на други математически - статистически методи, многоизмерният анализ може да бъде ефективен при неговото използване високо качество Първоначалната информация и масата на тези наблюдения се обработват чрез компютър.

Основните понятия за метода на факторния анализ, същността на задачите, решени от тях

Когато се анализират (еднакво и разследвани), социалните и икономическите явления често се срещат в случаите, когато сред разнообразието (багатопараметричност) обектите за наблюдение, е необходимо да се изключи делът на параметрите или да ги замени с по-малък брой определени функции, без да причиняват целостта на целостта (пълна) информация. Решението на такава задача има смисъл в определен модел и се дължи на неговата структура. Пример за такъв модел, който е най-подходящ за много реални ситуации, е модел за анализ на фактор, методите, които позволяват да се концентрират знамения (информация за тях) чрез "кондензация" на голям брой по-малко информация, по-целесъобразност. В този случай полученият "конденз" на информацията трябва да бъде представен от най-значимите и определящи количествени характеристики.

Понятието "фактор анализ" не трябва да се смесва с широкоразпространената концепция за анализ на причинните отношения, когато се изследва влиянието на различни фактори (техните комбинации, комбинации) на производителната основа.

Същността на метода на факторния анализ е да се изключи описанието на многобройните характеристики на изследваната и замяна с по-малък брой информация и по-големи променливи, които се наричат \u200b\u200bфактори и отразяват най-значимите свойства на явленията. Такива променливи са някои характеристики на източниците.

Анализ, според YA. Perch 9, ви позволява да имате първите приблизителни характеристики на закономерностите, които са в основата на явлението, формулират първия, общи заключения за указанията, в които трябва да водиш допълнителни изследвания. Освен това, той показва основното предположение за факторния анализ, който се свежда до факта, че явлението, въпреки неговата хетерогенност и вариабилност може да бъде описано чрез малък брой функционални единици, параметри или фактори. Тези дати се наричат \u200b\u200bпо различен начин: влияние, причини, параметри, функционални единици, способности, основни или независими показатели. Използването на един или друг срок се дължи на

Окун I. Факторски анализ: на. от. етаж. М.: Статистика, 1974.- стр.16.

контекста на фактора и познаването на същността на изследваното явление.

Етапите на факторния анализ са последователни сравнения на различни групи фактори и опции за групите с тяхното включване, изключване и оценка на надеждността на разликите между групите.

V.m. Zhukovska и I.B. Mutnik 10, като говорят за същността на задачите на факторния анализ, твърдят, че последният не изисква предварително разделение на променливите и независимо, тъй като всички променливи се разглеждат в него като равни.

Задачата на факторния анализ се свежда до определена концепция, броя и естеството на най-значимите и относително независими функционални характеристики Явления, измервателни уреди или основни параметри - фактори. Според авторите важни отличителна черта Факторният анализ е, че той ви позволява едновременно да изследвате голям брой взаимосвързани променливи без предположения за "инвариация на всички други условия", при необходимост при използване на други методи за анализ. Това е голямото предимство на факторния анализ като ценен инструмент за изследване на явлението поради сложното разнообразие и рафинерии на връзките.

Анализът разчита главно за наблюдение на естественото различно изменение.

1. Когато използвате факторния анализ, наборът от променливи, които са проучени от гледна точка на връзките между тях, не са избрани произволно: този метод ви позволява да идентифицирате основните фактори, които извършват значително въздействие в тази област.

2. Анализът не изисква предварителни хипотези, напротив, самият той може да служи като хипотези, които се простират, както и да действат като критерий за хипотези въз основа на данните, получени чрез други методи.

3. Анализът не изисква априори VANEEEEM на какви променливи са независими и зависими, той не хипертрофите не е причинно-следствената комуникация и решава въпроса за тяхната степен в процеса на по-нататъшни изследвания.

Списъкът на конкретни задачи, решен, използвайки методите за анализ на фактора, ще бъде такъв (от v.m. Zhukovskoy). Да се \u200b\u200bобадим на основните в областта на социално-икономическите изследвания:

Zhukovskaya v.m., mumnik i.b. Факторни анализи в социално-икономическите изследвания. -Station, 1976. стр.4.

1. Определяне на основните аспекти на разликите между наблюдения (описание на минимизацията).

2. формулировката на хипотезите за естеството на разликите между обектите.

3. Откриване на структурата на взаимоотношенията между знаците.

4. Проверка на хипотезите за връзката и взаимозаменяемостта на знаците.

5. Сравнение на характерните структури.

6. Остъкляване на обекти за наблюдение за типични характеристики.

Горното показва големите възможности за анализ на фактора в

изследването на социалните явления, където, като правило, е невъзможно да се контролира (експериментално) влиянието на отделните фактори.

Съвсем ефективно е да се използват резултатите от факторния анализ в множество регресионни модели.

Като предварително определен корелационен модел на регресия на изследваното явление под формата на корелирани знаци, използване на факторния анализ, можете ли такъв набор от знаци да се превърне в значително по-малък брой чрез агрегиране. В този случай трябва да се отбележи, че такава трансформация не се влошава по никакъв начин и да завърши информацията за разглеждания феномен. Създадените агрегирани знаци са несвързани и представляват линейна комбинация от първични знаци. С формална математическа страна, задачите в този случай могат да имат безкрайни множество решения. Но трябва да се помни, че при изучаването на социално-икономическите явления получените агрегирани знаци трябва да имат икономически информиран интерпретация. С други думи, във всеки случай на използване на математическия апарат, преди всичко пренебрегва познаването на икономическата същност на изследваните явления.

По този начин горното по-горе ви позволява да обобщите, че анализът на фактора е специфичен метод на изследване, който се извършва въз основа на арсенала на методите на математическата статистика.

Нос практическа употреба Факторният анализ за първи път в областта на психологията. Способност за минимизиране голям брой Психологическите тестове към малък брой фактори позволиха да се обяснят способностите на човешкия интелект.

В изследването на социално-икономическите явления, където има трудности при изолирането на влиянието на отделните променливи, може да се използва успешно факторният анализ. Използването на техниките позволява определени изчисления да "профилите" незначителни знаци и да продължат изследванията по посока на нейното задълбочаване.

Ефективността на този метод е очевидна в проучването на такива въпроси (проблеми): в икономиката - специализация и концентрация на производството, интензивността на управлението на икономиката, бюджета на семействата на работниците, изграждането на различни обобщаващи показатели. и т.н.

Има такива ситуации, при които произволната променливост е представена от една или две случайни променливи, характеристики.

Например, в проучването на статистическия агрегат на хората, ние се интересуваме от растеж и тегло. В тази ситуация, без значение колко хора в статистическия агрегат винаги можем да изградим диаграма на разсейване и да видим цялата картина като цяло. Въпреки това, ако знаците са три, например, се добавя знак - възрастта на човек, след това диаграмата на разсейването трябва да бъде изградена в триизмерно пространство. Представете точките в триизмерното пространство вече е доста трудно.

В действителност на практика всяко наблюдение е представено не с един или два-три числа, но някакъв забележим набор от числа, които описват десетки знаци. В тази ситуация многоизмерните пространства ще трябва да изградят диаграма на разсейване.

Статистическият раздел за проучванията на експериментите с многоизмерни наблюдения се наричат \u200b\u200bмногоизмерен статистически анализ.

Измерване на няколко знака (обекти на обекта) в един експеримент като цяло, по-естествено от измерението на всеки, два. Следователно потенциално многоизмерният статистически анализ има широко поле за употреба.

Следващите раздели включват многоизмерен статистически анализ:

Факторна анализ;

Дискриминационен анализ;

Анализ на клъстера;

Многоизмерно мащабиране;

Методи за контрол на качеството.

Факторна анализ

В проучването на сложни обекти и системи (например в психология, биология, социология и др.) От стойностите (фактори), определящите свойства на тези обекти, много често е невъзможно да се измери директно, а понякога и дори техния номер и значим смисъл. Но други стойности могат да бъдат на разположение за измерване, по един или друг начин, в зависимост от факторите, които представляват интерес. В същото време, когато въздействието на неизвестен фактор на лихвите се проявява в няколко измерени особености, тези характеристики могат да открият тясна връзка между себе си и общият брой фактори може да бъде много по-малък от броя на измерените променливи.

За откриване на фактори, засягащи измерените променливи, се използват методи за анализ на фактор.

Пример за прилагане на факторния анализ може да бъде проучването на личността на базата на психологически тестове. Свойствата на личността не са податливи на директно измерване, те могат да бъдат оценявани само върху човешкото поведение или естеството на отговорите на определени въпроси. За да се обяснят резултатите от експериментите, те са подложени на факторния анализ, който ви позволява да идентифицирате личните свойства, които влияят върху поведението на темите на индивидите.

В основата на различни модели на факторния анализ се крие следната хипотеза: наблюдаваните или измерените параметри са само косвени характеристики на изучаването на обекта или явлението, в действителност има вътрешни (скрити, \\ t латентне са наблюдавани директно) параметри и свойства, чийто брой е малък и който определя стойностите на наблюдаваните параметри. Тези вътрешни параметри се наричат \u200b\u200bфактори.

Задача на факторния анализтова е представянето на наблюдаваните параметри под формата на линейни комбинации от фактори и, може би някои допълнителни, неподходящи смущения.

Първият етап от факторния анализ, като правило, е изборът на нови признаци, които са линейни комбинации на първия и "поглъщат" по-голямата част от общата променливост на наблюдаваните данни и следователно предават по-голямата част от информацията, сключена в първоначалните наблюдения . Това обикновено се прави с помощта на метод на основните компоненти,въпреки че понякога се използват други техники (максимален метод на истината).

Методът на основния компонент се свежда до избора на нова ортогонална координатна система в пространството на наблюденията. Като първи основен компонент, посоката се избира, по която масивът за наблюдение има най-голямо разпръскване, изборът на всеки следващ основен компонент се случва така, че разпръскването на наблюденията е максимално и че този основен компонент е ортогонал към други основни компоненти, избрани по-рано . Въпреки това, факторите, получени по основния метод на компонента, обикновено не са достатъчно визуални интерпретация. Следователно следващата стъпка от факторния анализ е трансформацията, въртенето на факторите за улесняване на тълкуването.

Дискриминационен анализ

Нека има комбинация от предмети, разбити на няколко групи и за всеки обект може да бъде определен за коя група се отнася. За всеки обект има измервания на няколко количествени характеристики. Необходимо е да се намери начин, както въз основа на тези характеристики, можете да откриете групата, към която принадлежи обектът. Това ще позволи да се уточнят групите, към които новите обекти са същите агрегат. За решаване на приложената задача методи за дискриминационен анализ.

Дискриминационен анализ- този раздел на статистиката, чието съдържание е да разработи методи за решаване на проблеми на разграничението (дискриминация) на обекти за наблюдение за определени характеристики.

Разгледайте някои примери.

Дискриминантният анализ е удобен при обработката на резултатите от тестването на индивидите, когато става въпрос за приемане на една или друга позиция. В този случай всички кандидати са длъжни да се разделят на две групи: "Подходящи" и "не са подходящи".

Използването на дискриминационен анализ е възможно от банковата администрация да оцени финансовото състояние на клиентите при издаване на заем. Банката за редица признаци ги класифицира на надеждни и ненадеждни.

Дискриминантният анализ може да бъде привлечен като метод за разделяне на набор от предприятия в няколко хомогенни групи за стойностите на всички показатели за производствени и икономически дейности.

Методите за анализ на дискриминацията позволяват да се изграждат функциите на измерените характеристики, стойностите на които и обясняват отделянето на обектите в групи. Желателно е тези функции (дискриминационни знаци)беше малко. В този случай резултатите от анализа са по-лесни за тълкуване.

Поради своята простота, линеен дискриминационен анализ се играе от специална роля, в която класифициращите функции са избрани като линейни функции от първични знаци.

Анализ на клъстера

Методите за анализ на клъстерите ви позволяват да прекъснете изследвания набор от обекти в групи от "подобни" обекти, наречени клъстери.

Дума клъстеранглийски произход - клъстер се превежда като четка, пакет, група, рояк, клъстер.

Клъстерният анализ решава следните задачи:

Провежда класификация на обекти с всички тези знаци, които характеризират обекта. Много възможността за класификация ни насърчава до по-задълбочено разбиране на разглеждания агрегат и обекти, включени в него;

Тя поставя задачата да проверява наличието на предварително определена по предложение на структурата или класификацията в съществуващата съвкупност. Такава проверка дава възможност да се възползват от стандартна хипотетична и дедуктивна схема на научните изследвания.

Повечето методи за групиране (йерархична група) са агломеритивен(Comriginal) - те започват със създаването на елементарни клъстери, всяка от които се състои от точно едно наблюдение (една точка), и на всяка следваща стъпка, двете най-близки клъстери са обединени в едно.

Моментът на спиране на този процес може да бъде дефиниран от изследователя (например, като се посочи желаният брой клъстери или максималното разстояние, в което се достига сливането).

Графичното изображение на процеса на комбиниране на клъстера може да бъде получено чрез дендрограми- дърво, съчетаващо клъстери.

Помислете за следния пример. Ще класифицираме пет предприятия, всеки от които се характеризира с три променливи:

x 1.- средната годишна стойност на основните производствени мощности, млрд. Рубли;

x 2.- материални разходи за 1 разтриване. Произведени продукти, полицай;

x 3.- обем на произведените продукти, млрд. Рубли.

Популярен

Системни изисквания на общата война: Warhammer II Общо varchammer 2 изисквания

« Студио творческо събрание обяви системните изисквания на общата война стратегия: Warhammer II, и също така изясни каква производителност ще осигури нещо или ... »

Какво ново ще бъде актуализирано 9

« Нов пластир за света на резервоарите беше освободен на превъзходното на номер 0.9.19.1. И можете да се запознаете с пистата, за да актуализирате. Промени във версия 9.19.1 ◾ ... »

Преглед на светите картофи! Ние сме в космоса?! Най-добър зеленчук - котлет. Където започнаха всички

« Но това не е първата игра, която извира на ум, при играта. Да, това е друга изометрична междинна стратегия - Управление игра от дневна светлина ... »