avangard-pressa.ru

Задача математической статистики. Выборочный метод. Статистические оценки параметров распределения. - Математика

Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений. В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Основной задачей математической статистики является разработка методов получения научно обоснованных выводов о массовых явлениях и процессах из данных наблюдений и экспериментов. Эти выводы и заключения представляют собой утверждения об общих вероятностных характеристиках данного процесса, то есть о вероятностях, законах распределения, математических ожиданиях, дисперсиях и т. д. Пусть мы располагаем сведениями (обычно довольно ограниченными), например, о числе дефектных изделий в изготовленной в определенных условиях продукции или о результатах испытаний материалов на разрушение и т. п. Собранные нами данные могут представлять непосредственный интерес в смысле информации о качестве той или иной партии продукции. Статистические же проблемы возникают тогда, когда мы на основе той же информации начинаем делать выводы относительно более широкого круга явлений. Например, нас может интересовать качество технологического процесса, для чего мы оцениваем вероятность получения в нем дефектного изделия или среднюю долговечность изделия. В этом случае мы рассматриваем собранный материал не ради его самого, а лишь как некую пробную группу или выборку, представляющую только серии из возможных результатов, которые мы могли бы встретить при продолжении наблюдений массового процесса в данной обстановке. Выводы и оценки, основанные на материале наблюдений, отражают случайный состав пробной группы и поэтому считаются приблизительными оценками вероятностного характера. Во многих случаях теория указывает, как наилучшим способом использовать имеющуюся информацию для получения по возможности более точных и надежных характеристик, указывая при этом степень надежности выводов, объясняющуюся ограниченностью запаса сведений. Множество случайным образом отобранных объектов называется выборочной совокупностью или выборкой. Всемножество объектов, из которого производится выборка, называется генеральной совокупностью. Число объектов- объемом выборки. Обычно будем считать, что объем генеральной совокупности бесконечен. Выборки разделяются на повторные (с возвращением) и бесповторные (без возвращения).Благодаря большому (бесконечному) объему генеральной совокупности ведутся расчеты и делаются выводы, справедливые лишь для повторных выборок. Выборка должна достаточно полно отражать особенности всех объектов генеральной совокупности, иначе говоря, выборка должна бытьрепрезентативной (представительной).Выборки различаются по способу отбора: 1)случайный отбор. Все элементы генеральной совокупности нумеруются и из таблицы случайных чисел берут последовательность любых n идущих подряд чисел. Элементы с выпавшими номерами и входят в выборку. 2)типический отбор. Такой отбор производится если генеральную совокупность можно представить в виде объединения подмножеств, объекты которых однородны по какому–то признаку. Тогда по каждому подмножеству проводят простой случайный отбор, и в выборку объединяются все полученные объекты. 3)механический отбор. Отбирают каждый двадцатый (сотый) экземпляр.4)серийный отбор. В выборку подбираются экземпляры, произведенные на каком–то производстве в определенный промежуток времени. В дальнейшем под генеральной совокупностью мы будем подразумевать множество значений случайной величины, принимающей числовое значение на каждом из объектов. Итак, будем рассматривать генеральную совокупность как случайную величину x, закон распределения и параметры которой определяются с помощью выборочного метода. Рассмотрим выборку объема n, представляющую данную генеральную совокупность. Пусть первое выборочное значение x1- реализация, как одно из возможных значений случайной величины x1, имеющей тот же закон распределения с теми же параметрами, что и случайная величина x. Второе выборочное значение x2 – одно из возможных значений случайной величины x2 с тем же законом распределения, что и случайна величина x. Таким образом выборка- совокупность независимых случайных величин x1, x2, ..., xn, распределенных так же, как и случайная величина x, представляющая генеральную совокупность.Выборочные значения x1,x2,..., xn– это значения, которые приняли эти случайные величины в результате 1-го, 2-го, ..., n-го эксперимента. Статистические оценки, функции от результатов наблюдений, употребляемые для статистического оценивания неизвестных параметров распределения вероятностей изучаемых случайных величин. Например, если X1,..., Xn - независимые случайные величины, имеющие однои то же нормальное распределение с неизвестным средним значением а, то функции - среднее арифметическое результатов наблюдений и выборочная медиана m = m(X1,..., Xn) являются возможными точечными Статистические оценки неизвестного параметра а. В качестве Статистические оценки какого-либо параметра q естественно выбрать функцию q*(X1,..., Xn) от результатов наблюдений X1,..., Xn, в некотором смысле близкую к истинному значению параметра. Принимая какую-либо меру «близости» Статистические оценки к значению оцениваемого параметра, можно сравнивать различные оценки по качеству. Обычно мерой близости оценки к истинному значению параметра служит величина среднего значения квадрата ошибки (выражающаяся через математическое ожидание оценки E0q* и её дисперсию D0q*). В классе всех несмещённых оценок (для которых E0q* = 0) наилучшими с этой точки зрения будут оценки, имеющие при заданном n минимальную возможную дисперсию при всех q. Указанная выше оценка Х для параметра а нормального распределения является наилучшей несмещенной оценкой, поскольку дисперсия любой другой несмещенной оценки а* параметра а удовлетворяет неравенству где s2 - дисперсия нормального распределения. Если существует несмещенная оценка с минимальной дисперсией, то можно найти и несмещенную наилучшую оценку в классе функций, зависящих только от достаточной статистики. Имея в виду построение Статистические оценки для больших значений n, естественно предполагать, что вероятность отклонений q* от истинного значения параметра q, превосходящих какое-либо заданное число, будет близка к нулю при n ®¥. Статистические оценки с таким свойством называются состоятельными оценками. Несмещенные оценки, дисперсия которых стремится к нулю при n ®¥, являются состоятельными. Поскольку скорость стремления к пределу играет при этом важную роль, то асимптотическое сравнение Статистические оценки производят по отношению их асимптотической дисперсии. Так, среднее арифметическое Х в приведённом выше примере - наилучшая и, следовательно, асимптотически наилучщая оценка для параметра а, тогда как выборочная медиана m, представляющая собой также несмещенную оценку, не является асимптотически наилучшей, т.к. (тем не менее использование m имеет также положительные стороны: например, если истинное распределение не является в точности нормальным, а несколько отличается от него, дисперсия Х может резко возрасти, а дисперсия m остаётся почти той же, т. е. m обладает свойством, называется «прочностью»). Одним из распространённых общих методов получения Статистические оценки является метод моментов, который заключается в приравнивании определённого числа выборочных моментов к соответствующим моментам теоретического распределения, которые суть функции от неизвестных параметров, и решении полученных уравнений относительно этих параметров. Хотя метод моментов удобен в практическом отношении, однако Статистические оценки, найденные при его использовании, вообще говоря, не являются асимптотически наилучшими, Более важным с теоретической точки зрения представляется максимального правдоподобия метод, который приводит к оценкам, при некоторых общих условиях асимптотически наилучшим. Частным случаем последнего является наименьших квадратов метод. Метод Статистические оценки существенно дополняется оцениванием с помощью доверительных границ.