Что показывает связь оценки результатов измеряемого конструктора с внешним критериям

Обновлено: 27.04.2024

Показатель релевантности определяет качество и эффективность работы поисковой системы. Существует специальный поисковый алгоритм, определяющий, насколько информация релевантна запросу пользователя. Выражаясь проще, соотношение количества ключевых слов, имеющихся в поисковом запросе и употребленных в тексте, к общему объему текстового контента, определяет релевантность страницы. Оптимальный процент вхождений ключевых словосочетаний, указывающий на высокую релевантность сайта, задан у каждой поисковой системы индивидуально. Если поисковых фраз меньше, чем нужно, то поисковик их просто не заметит. Увеличенное вхождение ключевых слов грозит попаданием в спам-фильтр, что ведет к неприятным последствиям и ограничениям. Средний процент вхождений ключевых слов рассчитан на уровне 2-5 %.

Определение релевантности

Поисковые системы имеют важнейшее значение в виртуальном пространстве, с их помощью пользователю быстро и просто предоставляется любая интересующая информация. Но регулярное увеличение количества сайтов в геометрической прогрессии привело к тому, что на один запрос посетителя выдавалось десятки тысяч различных сайтов. Представленные ресурсы могли быть как с добросовестным, уникальным контентом, так и некачественными, бесполезными и не уникальными. Сложившаяся ситуация вынудила поисковые системы разработать методику отбора сайтов по принципу релевантности, эта мера позволила подбирать для пользователей ресурсы, наиболее соответствующие их запросам.

Сначала поисковые системы определяли релевантность страницы по характеристикам и качеству содержания. Имели значение следующие критерии:

плотность поискового словосочетания на странице;
наличие в заголовках и мета-тегах ключевых слов;
присутствие ключевых слов в элементах оформления и разметке текста и т.д.

Узнав о подобном отборе, оптимизаторы начали создавать дорвеи - специальные сайты, оптимизированные под параметры отбора поисковиков. Тогда появилась необходимость в создании алгоритма, который позволит производить отбор ресурсов и по внешним критериям, то есть будет определять соответствие выданного сайта запросу, введенному пользователем. Чтобы представить себе данный процесс, нужно обратить внимание на примерную формулу, рассчитывающую релевантность:

R=PR*(T+L)

где R – показатель релевантности;

PR (авторитетность сайта) – значение внешних характеристик ресурса, не зависящих от ключевых слов;

T (текстовая релевантность) – показатель того, насколько содержание сайта согласовывается с запросом пользователя;

L (ссылочная релевантность) – показатель того, насколько входящие ссылки на документ соответствуют поисковому запросу.

Представленная формула лишь примерно отражает суть использования поисковиками алгоритма ранжирования и дает представление об отборе ресурсов по принципу релевантности. Однако, имея общее представление, заниматься оптимизацией намного удобнее.

Внутренние критерии релевантности

Основным качественным показателем внутренней релевантности являются ключевые фразы и слова, а точнее частота их использования на странице. Частое применение какого-либо словосочетания определяется системами как ключевое слово. Если при поиске пользователь введет запрос с найденными фразами, которые являются в тексте ключевыми и соответствуют форме запроса, то ресурс будет признан релевантным.

Расположение ключевых фраз или слов также имеет существенное значение. Например, если запрос совпадает с заголовком документа, то поисковик будет рассматривать данный ресурс, как наиболее релевантный.

Также при определении релевантности значение имеют следующие факторы:

близость к началу страницы повышает значимость ключевого словосочетания;
улучшает позиции документа близкое расположение ключевых слов в тексте, особенно, когда речь идет о расхожих, устойчивых выражениях;
синонимы ключевых слов также привлекают внимание поисковиков. Ведь наличие словоформ ключевого запроса подтверждает, что текст соответствует заданной тематике;
наличие ключевых фраз или слов в определенных местах документа. Например, в подзаголовках, мета-тегах, тегах, структурирующих текст.

Внешние критерии релевантности

Внешние параметры релевантности зависят от цитируемости ресурса и определяются ссылочной популярностью. То есть в данном случае релевантность сайта определяется ее востребованностью и популярностью среди пользователей Интернета. Когда остальные ресурсы ссылаются на конкретный сайт, у него увеличивается авторитетность. Этот фактор характеризует сайт как качественный и полезный ресурс с уникальной информацией.

Поисковые службы по-разному определяют уровень и степень цитируемости, но при этом используют алгоритмы со схожими механизмами действия. На основе этих алгоритмов была создана первая система оценки и ранжирования интернет-ресурсов PageRank. Авторами алгоритма стали основатели крупнейшего поисковика Google – американские студенты Ларри Пейдж и Сергей Брин.

Яндекс тоже не отстает от конкурентов и аналоговой системой оценки в нем является ВИЦ, созданный в 2001 году. Аббревиатура расшифровывается как взвешенный индекс цитирования. По словам авторов проекта, при расчете индекса используется алгоритм, аналогичный PageRank. Такой показатель цитируемости присваивается для каждой конкретной страницы отдельно. В течение года после создания сервиса с показателем индекса можно было ознакомиться в «Яндекс-Баре». Но оптимизаторы стали искать способ фиктивного повышения данного показателя, и значения стали скрытыми. В распоряжении мастеров по оптимизации остались лишь значения тематического индекса цитируемости (ТИЦ), которые можно найти в каталоге Яндекса.

С 2002 года поисковая системы Рамблер также стала применять коэффициент популярности. Для расчёта коэффициента поисковик использует информацию о количестве ссылок на ресурс и данные о посещаемости, основание на показателях счетчика Top100.

Но все же самым первым испытателем данного алгоритма была поисковая система «Апорт», которая начала использовать для расчета авторитетный вес ресурса с 1999 года.

Стандартизация- этоединообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: 1) как выработка единых требований к процедуре тестирования
и 2) как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры тестирования подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

К числу требований, которые необходимо соблюдать при проведении эксперимента, можно, например, отнести такие:

1) инструкции следует сообщать испытуемым одинаковым образом, как правило письменно ( в случае устных указаний они даются в разных группах одними и теми же словами, понятными для всех, в одинаковой манере );

2) ни одному испытуемому не следует давать никаких преимуществ перед другими;

3) в процессе эксперимента не следует давать отдельным испытуемым дополнительные объяснения;

4) эксперимент с разными группами следует проводить по возможности в одинаковое время дня, в сходных условиях;

5) временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и т.д.

Обычно авторы методики в руководстве приводят точные и подробные указания по процедуре её проведения. Формулирование таких указаний составляет основную часть стандартизации новой методики, так как только строгое их соблюдение даёт возможность сравнивать между собой показатели, полученные разными испытуемыми.

Другим наиболее важным этапом в стандартизации методик является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определённых стандартов успешности или неудачи в их выполнении. Так, например, ребёнок 6 лет, выполняя тест умственного развития, получил 117 балов. Как это понимать? Хорошо это или плохо? Часто ли такой показатель встречается у детей данного возраста? Количественный результат как таковой ничего не означает. Полученный балл нельзя интерпретировать как показатель относительно высокого, среднего или низкого развития, так как это развитие выражено в мерах, присущих данной методике, и, таким образом, абсолютного значения полученные результаты иметь не могут. Очевидно, необходима такая точка отсчёта, с помощью которой можно оценивать полученные при диагностировании индивидуальные и групповые данные. В традиционном тестировании такая точка добывается статистическим путём - это так называемая статистическая норма.

В общих чертах стандартизация диагностической методики, ориентированной на норму, осуществляется путём её проведения на большой репрезентативной выборке того типа, для которого данная методика предназначена. Относительно этой группы испытуемых, называемой выборкой стандартизации, вырабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше или ниже среднего уровня. В результате можно оценить разные степени успешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно нормативной выборки или выборки стандартизации.

Вернёмся к ребёнку, набравшему 117 баллов. В результате стандартизации данного теста было установлено, что границы нормы для шестилетних детей находятся в пределах от 84 до 116 баллов. Следовательно, результат малыша чуть выше нормы.

Есть и другой подход к оценке результатов диагностических испытаний (его последователи К.М. Гуревич и др.). В качестве точки отсчёта выступает не статистическая норма, а независимый от результатов испытаний, объективно заданный социально-психологический норматив. Этот норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном объеме и является таким нормативом. Все сопоставления индивидуальных и групповых результатов тестирования проводятся с тем максимумом, который представлен в тесте (а это полный набор заданий). В качестве критерия оценки выступает степень близости результатов к нормативу.

Надежность означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его проведении на одних и тех же испытуемых.

Степень надежности зависит от многих причин, поэтому важно выявить факторы, снижающие точность измерений. Такими факторами могут быть:

1) нестабильность диагностируемого свойства;

2) несовершенство диагностирующих методик (небрежно составлена инструкция, задания по своему характеру разнородны, нечетко сформулированы указания и т.д.);

3) меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.);

4) различия в манере поведения экспериментатора (от опыта к опыту инструкции предъявляются по-разному, различное стимулирование выполнения заданий и т.п.);

5) колебания в функциональном состоянии испытуемого (в одном эксперименте хорошее самочувствие, в другом - утомление);

6) элементы субъективности в способах оценки и интерпретации результатов.

Если устранить эти факторы, то уровень надежности тестов повысится.

Важнейшим средством повышения надежности психодиагностических методик является единообразие процедуры обследования, его строгая регламентация: одинаковые обстановка и условия для испытуемых какой-либо выборки; однотипный характер инструкций; одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми, порядок предъявления заданий и т.д.

Для надежности большое значение имеет исследуемая выборка, ибо она может как снижать, так и завышать этот показатель. Например, показатель надежности может быть искусственно завышен, если в выборке небольшой разброс результатов и т.д. В настоящее время надежность чаще всего определяется на наиболее однородных выборках (выборках, сходных по полу, возрасту, уровню образования, профессиональной подготовке).

Надежность отражает, таким образом, степень согласованности двух независимо полученных рядов показателей. Это математико-статистический прием, с помощью которого устанавливается надежность методики, - корреляция.

Чем больше коэффициент корреляции приближается к единице, тем выше надежность методики, и наоборот.

Виды надежности можно толковать в трех смыслах (по К.М. Гуревичу):

1) надежность самого измерительного инструмента;

2) стабильность изучаемого признака;

3) константность, то есть относительная независимость результатов от личности экспериментатора.

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надежности, показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности, а показатель влияния личности экспериментатора - коэффициентом константности.

Именно в таком порядке следует проверять методики: сначала - элемент измерения, потом - меру стабильности и в конце - критерий константности.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности), используется так называемый “метод расщепления”. Обычно задания делятся на четные и нечетные, отдельно обрабатываются, а затем результаты двух полученных рядов коррелируются между собой. Для применения этого метода испытуемых нужно поставить в такие условия, чтобы они смогли успеть решить (или попытаться решить) все задания. Если методика однородна, то большой разницы в успешности решения по таким половинкам не будет, и, следовательно, коэффициент корреляции будет достаточно высоким.

Методика признается надежной, когда полученный коэффициент не ниже +0,75 - +0,85. Лучшие по надежности тесты дают коэффициенты порядка +0,90 и более.

Определить надежность методики - не значит решить все вопросы, связанные с ее применением. Нужно установить, насколько устойчив (стабилен) признак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических признаков.

То, что измеряемый признак со временем меняется, не опасно для показателя надежности, важно, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого и т.д., то есть колебания признака не должны носить непредсказуемый характер. Если такое происходит, то признак необходимо исключать в диагностических целях.

Для проверки стабильности диагностируемого признака или свойства используется прием, известный под названием тест-ретест. Смысл приема - повторное обследование испытуемых с помощью той же методики. О стабильности признака судят по коэффициенту корреляции между результатами первого и повторного обследований. Он будет свидетельствовать о сохранении или несохранении каждым испытуемым своего порядкового места в выборке.

Факторы, влияющие на степень стабильности:

1) качество единообразия процедуры проведения экспериментов;

4) промежуток времени между первым и вторым обследованиями

Коэффициентом стабильности можно измерять не только абсолютные свойства, но и те свойства, которые находятся в процессе интенсивного развития (например умение проводить обобщения). В таком случае он, скорее всего, будет невысоким. Но это не является его недостатком, это еще одна его функция: быть показателем определенных изменений, развития исследуемого свойства. Такое динамичное свойство необходимо брать по частям, по этапам, стадиям его трансформации.

Таким образом, вопрос о стабильности измеряемого свойства не решается всегда однозначно. Решение зависит от сущности самого диагностируемого свойства.

Критерием константности пользуются не часто, но пренебрегать им нельзя. Несмотря на то, что любая методика всегда снабжена программами, инструкциями (по поводу проведения теста), остается много моментов, зависящих от личности исследователя (скорость речи, тон голоса, паузы и т.д.). Особенно существенную роль играет личность экспериментатора при применении проективных методик.

Коэффициент константности определяется путем корреляции результатов двух опытов, проведенных в относительно одинаковых условиях на одной и той же выборке испытуемых, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже +0,80.

Итак, важно отметить, что только методика, располагающая полной характеристикой надежности, наиболее пригодна для диагностического применения на практике.

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности решается после того, как установлена точная надежность методики (ненадежная методика не может быть валидной). Но самая надежная методика без знания ее валидности является практически бесполезной.

Валидность теста - понятие, указывающее нам, ч т о тест измеряет и насколько хорошо он это делает. Валидность - это комплексная характеристика, включающая, с одной стороны, сведения о пригодности методики для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность. Поэтому нет универсального подхода к определению валидности (какую сторону валидности исследователь рассматривает, такие же он использует для этого способы доказательства).

Проверка валидности методики называется валидизацией. Валидизация имеет две стороны: теоретическую (валидность измерительного инструмента, методики) и прагматическую (валидность цели использования методики). При прагматической валидизации суть предмета измерения (психологические свойства) оказывается вне поля зрения, так как важно доказать, что “нечто”, измеряемое методикой, имеет связь с определенными областями практики.

Как мы можем узнать, что тест измеряет то, для чего он предназначен? Рассмотрим существующие способы доказательства валидности тестов, каждый из которых соответствует определенному аспекту этого значения.

Очевидная (внешняя валидность):

1. Методика признается валидной в силу очевидности того, что она измеряет именно то, что подразумевается.

2. Доказательство валидности основывается на чувстве уверенности исследователя в том, что его метод позволяет понять испытуемого.

3. Методика рассматривается как валидная (то есть принимается утверждение, что такой-то тест измеряет такое-то качество только потому, что ее создатель имеет “очень высокий авторитет”, или потому, что та теория, на основании которой строилась методика, “очень хорошая”).

Очевидная валидность важна постольку, поскольку взрослые испытуемые обычно не включаются в работу с тестами, которым не достает внешней валидности.

Для теоретической валидизации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Поэтому для измерения валидности не столь сложно осуществить сопоставления новой методики, если для измерения валидности уже имеется методика, валидная по сути. Если корреляция методик подтверждает единую их эталонность, если новая методика более компактна и экономична в проведении и обработке результатов, то она более надежна и валидна, чем старая.

Но теоретическая валидность доказывается не только путем сопоставления с родственными показателями, а также с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность) и, с другой стороны, отсутствие этой связи с методиками, имеющими иное теоретическое основание (дискриминантная валидность).

Прагматическая валидизация подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности. Ей придают большое значение особенно там, где встает вопрос отбора. Разработка и использование диагностических методик имеет смысл только тогда, когда есть обоснованное предложение, что измеряемое качество проявляется в определенных жизненных ситуациях и видах деятельности. Не случайно в 20-30-е гг. XX в. эмпирический критерий оценки диагностической методики доминировал (было важно, чтобы тест работал, помогал быстро и дешево подбирать людей). Теоретическая слабость тестов в конце концов вызвала шквал критики в адрес диагностических методик. Поэтому эмпирический критерий при определении валидности теста стали называть внешним критерием (то есть показатель проявления изучаемого свойства в повседневной жизни). Американские исследователи Тиффин и Маккормик выделяют четыре типа таких внешних критериев:

1. Критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т.п.).

3. Физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряются частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.).

4. Критерии случайности (применяются когда цель исследования касается, например, проблемы отбора для работы таких лиц, которые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем требованиям (основным): он должен быть релевантным, свободным от помех (контаминации), надежным.

Под релевантностью надо понимать смысловое соответствие между диагностическим инструментом и независимым жизненно важным критерием. Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполезным.

Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависят от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут привнести помехи, “загрязнить” применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях или пытаются корректировать влияние помех. Например, производительность следует брать не по абсолютным показателям, а в отношении средней производительности рабочих, работающих в аналогичных условиях.

Оценка валидности методики может носить количественный и качественный характер.

А. Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, у тех же лиц.

Используются разные виды линейной корреляции (по Спирмену, по Пирсону). Количество испытуемых, необходимых для расчета валидности, как показала практика, должно быть не менее 50, но лучше, когда более 200 человек. Низким признается коэффициент валидности порядка 0,20 - 0,30, средним 0,30 -0,50 и высоким - свыше 0,60.

Б. Для оценки качественного показателя существует несколько видов валидности, обусловленных особенностями диагностических методик, а так же временным статусом внешнего критерия. Это следующие виды:

· содержательная валидность. Этот прием применяется в основном в тестах достижения. Обычно в тесты достижения включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (три- четыре вопроса). Важно проверить, чтобы правильные ответы на эти некоторые вопросы свидетельствовали об усвоении всего материала;

· валидность “по одновременности” или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени: успеваемость в период испытания, производительность в этот же период и т.д. С ними коррелируют результаты успешности по тесту;

· “предсказывающая” валидность (“прогностическая” валидность). Определяется также по достаточно надёжному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешний критерий выражает в каких-либо оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Однако применить этот метод трудно, так как точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно;

· “ретроспективная” валидность определяется на основе критерия, отражающего событие или состояние качества в прошлом. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения по диагностической пробе и т.д. у лиц с высокими и низкими в данный момент оценками.

Не существует какого-либо единственного показателя, демонстрирующего валидность теста. Для полной ее проверки следует учитывать множество получаемых показателей.

Когда тест проверяется на валидность, важно указывать, на какой вид валидности.

В основе исследования лежало предположение, что психометрические свойства пунктов опросников (например, то, насколько высоко эти пункты будут коррелировать с внешними критериями – с тестами интеллекта и креативности) будут зависеть от их культурной релевантности. Для проверки этой гипотезы был проведен множественный регрессионный анализ (для интеллекта и креативности отдельно), в котором зависимой переменной выступала корреляция каждого из пунктов опросника с соответствующим внешним критерием (интеллектом и креативностью), а предикторами – средние по всей выборке оценки релевантности каждого из пунктов, полученные на 2-м этапе. Результаты регрессионного анализа представлены в табл. 1.10. Они говорят о том, что как для интеллекта, так и для креативности значимыми предикторами корреляции опросников с внешними критериями являются прототипичность (связь положительная) и ценность (связь отрицательная). В случае двух опросников два значимых предиктора объясняют сходный процент дисперсии – 30% для интеллекта и 34% для креативности, а также имеют одинаковую для интеллекта и креативности направленность связей с зависимой переменной. Таким образом, можно говорить об универсальности выявленной зависимости для двух конструктов.

Табл. 1.10. Результаты множественного регрессионного анализа (ЗП – корреляция пунктов с интеллектом, НП – оценки релевантности пунктов опросника)

Интеллект	Креативность
R Square	Beta	Sig.	R Square	Beta	Sig.
constant ценность прототипичность	.307	-.762 .753	.665 .000 .000	constant прототипичность ценность	.347	.583 -.400	.000 .000

Измерения релевантности и высота самооценки

Для того чтобы выяснить, как зависит высота самооценки по опроснику от ценности, частотности и прототипичности входящих в него баллов был проведен множественный регрессионный анализ, в котором зависимой переменной являлись высота самооценок испытуемых по каждому из пунктов опросника, а предикторами – оценки релевантности. Результаты анализа представлены в табл. 1.11, из которой следует, что уровень самооценки интеллекта и креативности положительно предсказывается такими измерениями релевантности как ценность и частотность. Как и в случае с корреляцией пунктов опросника с внешними критериями, данная зависимость является универсальной для двух конструктов.

Табл. 1.11. Результаты множественного регрессионного анализа (ЗП – средний балл по пункту, НП – оценки релевантности пунктов опросника)

Интеллект	Креативность
R Square	Beta	Sig.	R Square	Beta	Sig.
constant ценность частотность	.686	.628 .381	.000 .000 .000	constant ценность частотность	.769	.562 .500	.934 .000 .000

II. Межкультурное сравнение: сходства и различия

Этап: сравнение оценок частотности, ценности и прототипичности в двух выборках.

В табл. 1.12 приведены корреляции между показателями релевантности в двух культурах. Достаточно высокие значения (от 0.79 до 0.83 для интеллекта и от 0.66 до 0.85 для креативности) говорят о большой степени сходства представлений о частотности, ценности и прототипичности интеллектуальных и творческих примеров поведения. Следствием таких высоких корреляций оказалось то, что не было обнаружено таких пунктов, которые в одной культуре были бы высоко оценены по какому-либо критерию релевантности, а в другой – низко. Последнее обстоятельство сделало невозможным запланированный ранее анализ, целью которого было сравнение пунктов опросника, противоположных по оценкам релевантности в двух культурах (например, высокопрототипичных в одной культуре и в то же время низкопрототипичных - в другой.

Табл. 1.12. Коэффициенты корреляции между оценками релевантности пунктов опросников, данными русской и немецкой выборками (Spearman’s rho)

интеллект	креативность
частотность	.792(**) .000	.851*** .000
ценность	.833(**) .000	.841*** .000
прототипичность	.821(**) .000	.660*** .000

Этап: Оценки релевантности как предикторы уровня корреляции пунктов опросника с внешними критериями: различия между культурами в процентах объясняемой дисперсии

В первом разделе, касающемся результатов проведенного исследования, были приведены обобщающие для всей выборки данные, свидетельствующие о том, что связь пункта опросника с внешними критериями тем выше, чем выше его прототипичность и ниже ценность.

Однако если рассматривать две культуры отдельно, то можно обнаружить определенные различия, которые состоят в том, что в регрессионных уравнениях, связывающих корреляцию опросников с внешними критериями (результатами тестовых измерений способностей), в русской выборке процент объясняемой дисперсии выше, чем немецкой. Так, например, в случае интеллекта процент объясняемой дисперсии модели с двумя предикторами (ценность, прототипичность) в русской выборке составляет 38%, а в немецкой – всего лишь 18%. В случае с креативностью наблюдается еще более впечатляющее различие: 45 % для русской выборки и 11% - для немецкой.

Вы здесь: Студенты Билеты Общая психология Надёжность и валидность психодиагностических методик

Прежде чем психодиагностические методики могут быть использованы для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффективность. К числу основных критериев оценки психодиагностических методик относятся надежность и валидность.

Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк, Е. Хаген и др.). Ими были разработаны формально-логический и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени соответствия методик отмеченным критериям.

В традиционной тестологии термин «надёжность» означает относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Надёжность методики – это критерий, который говорит о точности психологических измерений, то есть позволяет судить о том, насколько внушают доверие полученные результаты.

Это согласованность результатов тестирования испытуемых в разные моменты времени, при первичном и вторичном тестировании и с использованием разных по эквивалентности, по содержанию заданий. Надежность характеризует тесты свойств, но не состояний. Свойства:

Воспроизводимость рез-тов исследования.
Точность измерения.
Устойчивость результатов.

Степень надёжности методик зависит от многих причин. Среди негативных факторов наиболее часто называются следующие:

Одним из важнейших средств повышения надежности методики является единообразие процедуры обследования, его строгая регламентация: одинаковая обстановка, однотипный характер инструкций, одинаковые для всех временные ограничения, способы и особенности контакта с испытуемыми и так далее.

На характеристику надёжности методик большое влияние оказывает исследуемая выборка. Она может, как снижать, так и завышать этот показатель, например, надежность, может быть искусственно завышена, если в выборке небольшой разброс результатов, т.е. если результаты по своим значениям близки друг к другу. Поэтому в руководстве обычно делается описание выборки, на котором определялась надёжность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п.

Разновидностей надёжности методик так же много, как и условий, влияющих на результаты диагностических испытаний. Так как все виды надёжности отражают степень согласованности двух независимо полученных рядов показателей, то математико-статистический приём, с помощью которого устанавливается надёжность методики, - это корреляции (по Пирсону или Спирмену). Надёжность тем выше, чем больше полученный коэффициент корреляции приближается к единице, и наоборот.

К.М. Гуревич предложил толковать надёжность как:

надёжность самого измерительного инструмента (коэффициент надежности);
стабильность изучаемого признака (коэффициент стабильности);
константность, т.е. относительную независимость результатов от Личности экспериментатора (коэффициент константности).

Показатель, характеризующий измерительный инструмент, предлагается называть коэффициентом надёжности; показатель, характеризующий стабильность измеряемого свойства, - коэффициентом стабильности; а показатель оценки влияния Личности экспериментатора – коэффициентом константности. Именно в таком порядке рекомендуется осуществлять проверку методики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже после этого при необходимости заняться критерием константности. (Надёжность: ретестовая, параллельных форм, частей тела, по внутренней согласованности, факторно-дисперсионная).

Определение надежности измерительного инструмента. От того как составлена методика, насколько правильно подобраны задания, насколько она однородна зависит точность, объективность измерения.

Для проверки надежности измерительного инструмента, говорящего о его однородности (гомогенности) используют метод расщепления. Задания делят на четные и нечетные (необходимо выполнение всех заданий), а затем результаты коррелируются между собой. Если методика однородна, то большой разницы в успешности по этим половинам не будет, коэффициент будет высоким. Можно сравнивать по частям, но лучше по четным и нечетным, т.к. этот способ не зависит от тренировки, утомления и т.д.

Методика надежна, если коэффициент не ниже 0,75 – 0,85, лучше 0,90 и выше.

Определение стабильности изучаемого признака. Также необходимо установить насколько устойчив, стабилен признак, который исследователь намерен измерять. Признак со временем может меняться, но колебания его не должны иметь непредсказуемый характер.

Для проверки используется прием, который называется тест-ретест. Он заключается в повторном обследовании испытуемых с помощью этой же методики. О стабильности судят по коэффициенту корреляции между результатами первого и второго обследования. Он будет свидетельствовать о сохранении или не сохранении каждым испытуемым своего порядкового номера в выборке.

На степень устойчивости влияет разнообразие фактора. Необходимо соблюдать единообразие процедуры обследования.

При определении стабильности признака большое значение имеет промежуток времени между 1 и 2 обследованиями. Чем короче этот промежуток, тем больше шансов, что этот признак сохраняет уровень первого испытания. Целесообразно проводить повторное тестирование через короткий срок после тестирования. Экспериментатор сам устанавливает этот срок, но чаще в психологической литературе указывают на интервал от нескольких месяцев (но не более полугода). Вопрос о стабильности измеряемого свойства решается не всегда единообразно. Решение зависит от сущности диагностируемого признака.

Если измеряемое свойство уже сформировано, то коэффициент должен быть не ниже 0,80.

Определение константности, т.е. относительная независимость результатов от Личности экспериментатора. Так как методика разрабатывается для дальнейшего использования ее другими психодиагностами, необходимо определить в какой мере ее результаты поддаются влиянию личности экспериментатора. Коэффициент константности определяется путем корреляции результатов двух опытов, проводимых на одной и той же выборке, но разными экспериментаторами. Коэффициент корреляции не должен быть ниже 0,80.

Вопрос о валидности решается после того, как установлена надежность, так как ненадежная методика не может быть валидной.

Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает (А. Анастази). Валидность по своей сути – это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова её действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность – соответствие конкретного исследования принятым стандартам (безупречному эксперименту).

Валидность в первом ее понимании имеет отношение к самой методике, т.е. это валидность измерительного инструмента. Такая про-верка называется теоретической валидизацией. Валидность во втором ее понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

При теоретической валидизации исследователя интересует само свойство, измеряемое методикой.

Так как для определения теоретической валидизации тяжело найти какой-нибудь независимый критерий, лежащий вне методики, и поэтому раньше принимались на веру голословные утверждения о валидности этой методики. Так как теоретическая валидизация направлена на доказательство того, что методика измеряет именно свойство, которое она должна измерить. Для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, по средствам которой эти психологические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.

Не столь сложно осуществить теоретическую валидизацию новой методики, если для измерения данного свойства уже имеется методика с известной, доказанной валидностью. Наличие корреляции между новой и аналогичной старой методиками указывает на то, что разработанная методика измеряет то же психологическое качество, что и эталонная.

Для проверки теоретической валидности важно, с одной стороны, установить степень связи с родственной методикой (конвергентная валидность), а с другой – отсутствие этой связи с методиками, имеющими другое теоретической основание (дискриминантная валидность).

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами Деятельности. Важно чтобы методика была проработана в теоретическом плане.

Проверяется практическая эффективность, значимость, полезность методики, так как методикой можно пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных видах Деятельности.

Для проверки прагматической валидности используется независимый внешний критерий – показатель проявления изучаемого свойства в повседневной жизни. В качестве такого критерия могут выступать успеваемость (для тестов способностей к обучению, тестов достижений, тестов интеллекта), производственные достижения (для методик профессиональной направленности), эффективность реальной Деятельности – рисования, моделирования и так далее (для тестов специальных способностей), субъективные оценки (для тестов Личности).

Американские исследователи Тиффин и Маккормик выделили 4-е типа внешнего критерия:

Внешний критерий должен обладать 3 основными требованиями:

Должен быть релевантным, то есть должна быть уверенность, что в критерии задействованы именно те особенности индивидуальной психики, которые измеряет диагностическая методика. Внешний критерий и диагностическая модель должны находиться во внутреннем смысловом соответствии.
Должен быть свободным от помех (контаминации). Следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях.
Должен быть надежен. Постоянство и устойчивость исследуемой функции.

Оценка валидности методики может носить количественный и качественный характер.

Для вычисления количественного показателя (коэффициента валидности) сопоставляются результаты, полученные при применении диагностических методик, с данными тех же лиц, полученные по внешнему критерию. Используются разные виды линейной корреляции (по Спирмену, по Пирсену).

Качественное описание сущности измеряемого свойства. Здесь не используют статистическую обработку.

Существуют несколько видов валидности, обусловленных особенностями диагностической методики, а также временным статусом внешнего критерия:

1. Средняя ошибка - средняя арифметическая из абсолютных значений случайных ошибок.

2. Истинная ошибка (∆_ист.) – ошибка, полученная как разность м/у результатом измерения и истинным значением измеренной величины.

∆_ист. = L – L_ист. L – измеренный результат

L_ист. – истинное значение измеренной величины

3. Вероятная (r) – ошибка, больше или меньше которой появление ошибок равновозможно.

Из определения вероятной ошибки вытекает способ её определения. Для установления вероятной ошибки случайные ошибки располагают в ряд в порядке возрастания или убывания по абсолютной величине. Ошибка в середине ряда будет вероятной.

4. Средняя квадратическая ошибка (m) – величина, вычисляемая по формуле Гаусса.

1). На величину ср.кв.ош. в большей степени влияют крупные по абсолютной величине ошибки.

2). Ср.кв.ошибка устойчива, т.е. она надежно определяется при небольшом числе измерений.

3). Надежность ср.кв.ош. характеризуется самой ср.кв.ош.

5. Относительная ошибка – отношение абсолютной ошибки к результату измерения выраженная в виде дроби с 1 в числителе. В зависимости от того какая ошибка измерения при этом используется относительные ошибки наз.: средняя относительная ошибка, предельная отн. ош., истинная отн. ош. и т.д. Правила геодезических вычислений.Точность вычисления результатов не может быть выше точности исходных измеренных величин. Рекомендуется определять достаточную но не излишнюю точность. В процессе вычислений цифры следует писать четко и аккуратно, используя принятый вычислительный шрифт. При записи столбцов чисел в вычисляемых схемах цифры одинаковых разрядов следует располагать одну под другой, многоразрядные числа следует записывать с интервалом. Записи ведутся ручкой, ошибочные результаты аккуратно перечеркиваются, сверху пишутся правильные значения. Все вычисления необходимо делать с контролем (в две руки).

Точные числа выражают безошибочные значения каких-либо величин и обычно имеют математическое происхождение.

Отвлеченные числа отражают эталонную совокупность условных единиц, принятых как аксиома (@ в 1м 100см).

Приближенные числа выражают значение какой-либо величины, полученное с ошибками, возникающими в результате измерений, вычислений, округлений.

Результаты геодезических измерений всегда явл. приближенными. Их точность зависит от величины ошибки.

Результаты геодезических измерений обычно выражаются десятичной дробью. Все цифры от первой слева, неравной нулю, до последней записи справа за справедливость которой можно решаться – значащее. При этом нули справа не считаются значащими, если они заменяют неизвестные нам цифры, если подставляются вместо др. цифр при округлении.

Округление числа представляет собой отбрасывание цифр справа до определенного разряда, с возможным изменением цифр этого разряда. При геодезических вычислениях принимают следующие правила округления: 1) Если первая из отбрасываемых чисел (считая с лева на право) меньше пяти, то последняя сохраняемая цифра не меняется, 2) Если первая из отбрасываемых чисел (считая с лева на право) больше пяти, то последнюю сохраняемую цифру увеличивают на 1, 3)Когда отбрасываемая часть равна 5, то последнюю сохраняемую цифру увеличивают на если она НЕ ЧЕТНАЯ, и оставляют без изменений, если она четная.

3) Особо следует выделить положение, когда отбрасываемая цифра 5 образовалась в результате предварительного округления цифр последующих за ней разрядов, в этом случае необходимо действовать согласно правилам:

- если отбрасываемая цифра 5 образовалась в результате предыдущего округления цифры в большую сторону, то последняя цифра разряда до которой округляют число сохраняется. (@ 0,15 → 0,1499 то 0,1)

- если отбрасываемая цифра 5 образовалась в результате предыдущего округления цифры в меньшую сторону, то последняя цифра разряда до которой округляют число увеличивается на 1. (@ 0,2501 → 0,25)

В связи с этим округление чисел необходимо выполнить до нужного разряда. Необходимо различать записи приближенных чисел по количеству значащих чисел (@ 3,4 и 3,40).

Сложение и вычитание приближенных чисел.

При сложении и вычитании приближенных чисел в окончательном результате надо сохранять столько знаков, сколько их имеется в слагаемом или вычитаемом, содержащее наименьшее количество десятичных знаков. (@ 23,456+12,6+145,678=174,6).

При умножении и делении в окончательном результате надо сохранять столько значащих цифр, сколько их имеется в числе с наименьшим числом значащих цифр.

(@ 106, 504 * 1,3 * 0,3085 то 106,5 * 1.3 * 0,3 = 42,8)

7. Общие требования к содержанию топографических планов и карт.

Общегеографическая карта – карта, отображающая совокупность основных объектов местности.

Общегеогр. карты масштабом 1:1000000 считаются топографическими. В России топогр. карты следующих масштабов: 1:1000000, 1:500000, 1:200000 – мелкомасштабные, 1:100000, 1:50000, 1:25000 – среднемасштабные, 1:10000, 1:5000 – крупномасштабные, 1:2000, 1:1000, 1:500, 1:200 – планы.

Масштабный ряд установлен таким образом, чтобы все карты этого ряда удовлетворяли всем нуждам народного хоз-ва, чтобы масштабов было в нем минимально, имелась возможность перехода от одного масштаба к другому.

Требования к топопланам и картам: 1)Геометрическая точность (т.е. степень соответствия местоположения точек на карте их местоположению в действительности), 2)Достоверность карты – правильность сведений, даваемых картой на определенную дату, 3)Наглядность карты – предоставляемая картой возможность зрительного восприятия пространственных форм, размеров и размещения изображаемых объектов, 4)Читаемость карты – заполненность карты условными знаками и надписями, 5)Современность карты – соответствие карты современному состоянию объекта.

Читайте также: