Чтобы найти показатель дисперсии для средних значений, достаточно использовать несложную статистическую теорию. Однако для других описаний и сводок данных это будет куда сложнее, особенно если наши вычисления выходят далеко за рамки простого определения среднего. Но и здесь синтетические темные данные могут снова прийти нам на помощь.
Если бы мы могли сформировать много выборок (например, как в случае с десятикратным подбрасыванием монеты), проблемы бы не возникло: мы бы просто сделали это, привели нашу модель в соответствие с каждой выборкой и посмотрели бы, насколько различаются результаты. Но, к сожалению, у нас есть только одна выборка.
Идея Брэда Эфрона заключалась в том, чтобы принять единственную имеющуюся у нас выборку за всю совокупность. Затем, продолжая идею извлечения выборки из совокупности, мы могли бы извлечь подвыборку из нашей выборки (каждая подвыборка должна иметь тот же размер, что и исходная выборка, благодаря многократному включению в нее каждого значения). Фактически точно так же, как мы могли бы извлечь много выборок из генеральной совокупности, мы можем извлечь много подвыборок из одной имеющейся у нас выборки. Принципиальная разница состоит в том, что мы действительно можем сформировать такие подвыборки. К каждой из них можно применить соответствующую модель, например оценить среднее значение, а затем посмотреть, насколько сильно различаются эти значения. Базовая идея состоит в том, чтобы смоделировать взаимосвязь между всей совокупностью и фактической имеющейся выборкой с помощью вычисления отношений между выборкой и подвыборкой. Это как если бы мы создавали искусственные копии выборки, раскрывая большое количество данных, которые до сих пор было скрыто. Понятие «бутстреппинг» означает переход от выборки к подвыборке точно так же, как мы перемещаемся от генеральной совокупности к выборке.