目次
はじめに
安全アンケート調査は、組織内の安全に関する価値観や行動規範を定量的に把握し、改善策を導出するための代表的手法である。1986年のチェルノブイリ原子力事故を契機に提唱された安全文化概念を、自己記入式アンケート調査によって組織全体の「見えざる側面」を可視化するものである。特に医療分野においては、多職種協働下での安全意識の齟齬や報告文化の阻害要因を検証するツールとして広く活用されており、本稿ではその理論的背景、代表的質問紙の構造、信頼性・妥当性評価、実施手順、医療現場事例、さらには限界と今後の展望を詳細に解説する。
1. HSOPS(Hospital Survey on Patient Safety Culture)
開発・背景
2004年に米国保健医療質研究所(AHRQ: Agency for Healthcare Research and Quality)によって開発された、医療機関向けの安全文化調査ツールである。全国規模のベンチマーキングを前提としており、1,000以上の医療機関データに基づく基準値が提供されている。構成
項目数:42項目
次元数:12因子(チームワーク内、上司/部門長のサポート、組織学習と継続的改善、管理者支援、非懲罰的対応、コミュニケーションのオープン性、フィードバックとコミュニケーション、スタッフが安全のために協力、ワークロード適正化、全体的な安全評価、イベント報告頻度、交差部門間のチームワーク)
特徴
部門間・職種間比較が容易で、多職種が混在する大病院から診療所まで幅広く適用可能。
日本語版・多言語版の翻訳・妥当性検証済み(Cronbach’s α=0.70~0.85)。
Web版/紙版の両形式対応。
活用例
年次診断による経年比較と部門別スコア分析。
ベンチマークデータとのギャップ分析による重点課題抽出。
2. SAQ(Safety Attitudes Questionnaire)
開発・背景
2006年にSextonらが発表した、安全気候(Safety Climate)と職場環境の関係を測定するためのツール。米国・欧州・アジアの多国籍病院での導入実績が豊富で、特にクリニカルユニット単位の評価に強みを持つ。構成
項目数:30項目
次元数:6ドメイン
チームワーク 気候
セーフティ 気候
職場のストレス認識
管理者のサポート
業務負荷
ジョブサティスファクション
特徴
5段階リッカート尺度で回答。
心理的安全性やバーンアウト指標との相関研究が多く、メンタルヘルスとの関連分析に適する。
Cronbach’s α=0.68~0.89。多言語・多国籍版あり。
活用例
手術室、集中治療室、救急部門など特定ユニットの比較研究。
セーフティ・クライメイト向上研修の前後評価。
3. NOSACQ-50(Nordic Safety Climate Questionnaire)
開発・背景
2011年に北欧7ヵ国の産業現場共同研究としてKinesらが開発。産業安全気候を網羅的に把握し、国際比較研究の標準化を目指している。構成
項目数:50項目
次元数:7因子
上層部の優先・コミットメント
部門管理者の優先・コミットメント
共通認識・参加
安全コミュニケーション
信頼と支援
労働者の安全行動
リスク認識/風土的前提
特徴
北欧基準による産業横断ベンチマークデータを保有。
社会的支援や管理信頼度といった組織気候的要素を重視。
Cronbach’s α=0.75~0.92。英語版、日本語版の妥当性検証あり。
活用例
製造業・建設業など高リスク産業での国際比較とベンチマーキング。
組織気候研究と統合した複合調査。
4. その他のツール
| ツール名 | 開発者 | 項目数 | 次元数 | 対象領域 | 主な特徴 |
|---|---|---|---|---|---|
| Zohar安全気候尺度 | Zohar (J. Appl. Psychol., 1980) | 9–16 | 1 因子 | 工業・製造 | 安全気候研究のパイオニア。グループレベルの気候評価に特化。 |
| Quick Safety Culture Assessment | FDA ガイドライン準拠 | 5–10 | 1–3 因子 | 規制当局・現場 | モバイル対応の簡易モニタルツール。迅速な診断とフォローアップ機能。 |
| Safety Culture Maturity Questionnaire | 各コンサルティングファーム開発 | 30–60 | 5–10 因子 | 多業界 | 成熟度モデル(例:Bradley Curve 連動)を組み込み、段階診断に強み。 |
これらの質問紙は、それぞれ対象領域・次元の構成・母集団規模・ベンチマークの有無などで特色を持つ。調査目的や組織特性に応じて最適なツールを選択し、必要に応じて項目のカスタマイズや翻訳・追試を行うことで、より信頼性・妥当性の高い安全文化診断を実現できる。
信頼性・妥当性の評価手法
信頼性(Reliability)
信頼性とは、同じ質問紙を繰り返し実施した際に、一貫した結果が得られる度合いである。
内部一貫性(Internal Consistency)
指標:Cronbach’s α係数、McDonald’s ω(オメガ)などを用いる。
評価基準:一般に α≥0.70 が「良好」、α≥0.80 が「非常に良好」とされる。
事例:HSOPS や SAQ では各次元の α が 0.75~0.85 と報告されている【4】。
補足手法:
分割半信頼性(Split-Half Reliability):質問紙を2つの半分に分割し、Spearman–Brown 補正で相関を評価。
平均相関係数(Average Inter-Item Correlation):項目間の平均相関を確認し、0.15~0.50 が適切とされる。
再テスト信頼性(Test–Retest Reliability)
手法:同一対象に対し、通常2~4週間の間隔を置いて再度質問紙を実施し、前後の得点を相関分析する。
指標:Pearson r、Intraclass Correlation Coefficient(ICC)。
評価基準:相関係数 r ≥ 0.70、ICC ≥ 0.75 を目安とする。
査定者間信頼性(Inter-Rater Reliability)
適用場面:面接式調査や観察評価で複数の評価者を用いる場合。
指標:Cohen’s κ(カッパ)、加重 κ、ICC によって評価。
妥当性(Validity)
妥当性とは、測定結果が理論的構成概念をどれだけ正確に反映しているかを示す度合いである。Messick の総合的妥当性理論に則り、多面的に検証することが推奨される【5】。
内容妥当性(Content Validity)
手法:専門家パネルレビュー、Delphi 法、Content Validity Index(CVI)算出など。
検証ポイント:各設問が測定対象の構成概念を網羅的・妥当に捉えているか評価。
構成概念妥当性(Construct Validity)
探索的因子分析(EFA):因子構造の探索と項目群の妥当性チェック。
確認的因子分析(CFA):モデル適合度指標(CFI ≥ 0.90、TLI ≥ 0.90、RMSEA ≤ 0.08、SRMR ≤ 0.08)で理論モデルを検証。
測定不変性(Measurement Invariance):多群CFA を用い、職種・部門・時期間の構造同一性を確認。
基準関連妥当性(Criterion-Related Validity)
同時的妥当性(Concurrent Validity):インシデント発生率や離職率など外的基準との相関分析。
予測的妥当性(Predictive Validity):調査スコアが将来の安全パフォーマンス(事故削減、改善提案数)をどれだけ予測できるか検証。
評価基準:相関係数 r ≥ 0.30 を「中程度以上」とみなす。
収束妥当性・弁別妥当性(Convergent & Discriminant Validity)
指標:Average Variance Extracted(AVE) ≥ 0.50、Fornell-Larcker 基準による因子間比較で確認。
検証内容:
収束妥当性:同一構成概念を測定する項目が高い相関を示すか。
弁別妥当性:異なる構成概念間の相関が十分に低いか。
理論的妥当性(Theoretical Validity)
手法:構造方程式モデリング(SEM)による因果モデル検証。
検証例:リーダーシップ → 報告文化 → 安全行動 といった仮説的パスの適合度と係数の有意性を評価。
これらの信頼性・妥当性評価を組み合わせ、調査開発時および運用時に継続的かつ多角的に検証することで、質問紙の測定品質を高いレベルで維持・強化できる。
調査の実施手順
医療現場への適用事例
HSOPSを用いた事例(大学病院)
ある総合大学病院(職員約1,200名)では、AHRQ HSOPS日本語版を用いて全職員(医師:30%、看護師:50%、薬剤師:10%、技師他:10%)を対象にWeb/紙アンケートを実施した。以下の手順で進めた。
事前準備
部門長説明会を開催し、調査目的と匿名性を周知。
Web版はSSL保護の専用フォーム、紙版は封筒投函で回答を回収。
信頼性・妥当性の確認
回収率78%(有効回答 N=936)。
Cronbach’s α係数は全12次元で0.78~0.86を示し、内部一貫性が良好。
CFA(CFI=0.92、RMSEA=0.05)で因子構造を確認。
結果概要
平均スコア(100点満点):報告文化45点、学習文化48点、チームワーク内75点、上司支援68点、コミュニケーションオープン性60点。
ベンチマーク比較では「非罰則報告姿勢」が同規模大学病院平均60点を大きく下回ることを特定。
改善施策
匿名報告制度の強化:モバイルアプリを導入し、簡便に写真・音声付きで報告可能に。
Just Culture研修:全管理職・アンバサダー看護師(N=50)を対象に1日研修を3回開催。
インシデントレビュー会議の定期開催:月1回から週1回に頻度を増加、各事例に対するRCAチームのフォローアップを徹底。
フォローアップ(1年後再調査)
回収率80%、Cronbach’s α=0.79~0.88。
報告文化65点(+20pt)、学習文化62点(+14pt)に改善。
インシデント報告件数は前年比+40%、同一事象の再発率は15%低減。
SAQを用いた事例(総合病院)
別の総合病院(職員約800名)では、SextonらのSAQ日本語版を用い「チームワーク気候」と「業務負荷感」の関連をSEMで検証した。
調査実施
医師・看護師・コメディカル計600名を対象にWebアンケートを実施し、回答率75%(N=450)を確保。
Cronbach’s α=0.72~0.85、CFA(CFI=0.94、RMSEA=0.06)でモデル適合を確認。
SEMモデル
潜在変数:チームワーク気候 → 業務負荷感 → バーンアウト傾向
モデル適合:CFI=0.95、TLI=0.93、RMSEA=0.04
経路係数:チームワーク気候→業務負荷感 β=–0.48(p<0.01)、業務負荷感→バーンアウト β=0.52(p<0.01)。
介入プログラム
チーム円滑化トレーニング:全看護部門リーダー80名を対象に、TeamSTEPPSベースの2日間集中研修を実施。
週次スタンドアップミーティング:15分の朝定例会を新設し、前日発生の小インシデント共有と改善報告を義務化。
半年後の効果測定
再調査回答率78%、Cronbach’s α=0.75~0.87。
チームワーク気候スコア:平均3.8→4.2(5段階リッカート、+0.4)
業務負荷感スコア:平均3.6→3.3(–0.3)
バーンアウト傾向:Maslach Burnout Inventoryスコアが15%低減。
これらの事例は、データに基づく課題抽出→理論的介入設計→再測定による効果検証という一連のPDCAサイクルを可視化しており、医療現場での安全文化調査と改善のベストプラクティスを示している。
質問紙調査の課題と今後の研究課題
1. 質問紙調査の限界
1.1 回答バイアス
社会的望ましさバイアス:回答者が「良い組織」「優れた安全文化」を演出しようとして、実態より高いスコアを付与する傾向がある。
自己呈示バイアス:自身の安全行動を過大評価して回答することで、個人レベルの精度が低下する。
一貫性バイアス・中間選択バイアス:極端な選択肢を避け、中立的な「どちらともいえない」回答に偏る場合がある。
対策例:
完全匿名のWebフォームとランダム埋め忘れチェックで抑制
質問文に「実態に即した率直な回答をお願いします」という念押し
肯定・否定の両方向項目を組み合わせ、逆転項目を挿入
1.2 横断面データの限界
因果関係の不明確さ:単一時点での相関関係しか把握できず、「リーダーシップ向上が報告率上昇をもたらす」といった因果推論が困難。
時間的変化の欠落:組織文化は時間とともに変容するため、横断的調査では流動性や季節要因が捉えきれない。
対策例:
後述の縦断調査(パネル設計)を計画的に組み込む
クロスラグパネルモデルや時系列分析で因果方向性を検証
1.3 項目適用性の地域・文化差
言語・文化的文脈の違い:同一設問でも組織文化や国民性によって解釈が異なり、測定不変性(measurement invariance)が損なわれる危険がある。
組織特性の多様性:公立・私立、病院規模、医療分野の違いなどが質問紙の妥当性に影響を与える。
対策例:
多言語翻訳後の多群CFAによる不変性検証
各国・各部門での認知インタビューやデプスインタビューによる設問適合性チェック
1.4 その他の方法論的課題
共通方法バイアス(Common Method Bias):同一回答形式・同一時点で測定すると、項目間で見かけ上の相関が強まる。
回答率偏差(Nonresponse Bias):回答しない層と回答層で安全意識の差が生じ、真の分布を歪める。
対策例:
手法の分離:時間差アンケートや異なる媒体(紙 vs. Web)の併用
バイアス検出:Harmanの単因子テスト、Marker Variable法
2. 今後の研究課題
2.1 縦断的追跡研究の推進
Latent Growth Curve Model や Cross-Lagged Panel Model によって、各次元の成長曲線と因果パターンを明示化。
Dynamic Structural Equation Modeling (DSEM) を用い、日別・週別の安全文化変動を高頻度データで解析。
測定不変性の長期維持:測定モデルの一貫性を担保し、経年比較を正当に行う統計的技術の導入。
2.2 混合研究法(Mixed Methods)の導入
Sequential Explanatory Design:まず定量調査で因子構造を把握し、その後フォーカスグループ・インタビューで深層要因を掘り下げる。
Concurrent Triangulation:定量データと定性データを同時収集し、相補的に解釈することでバイアスを低減。
ネットワーク分析+ナラティブ分析:質問紙の定量結果を基に、組織内の安全情報ネットワークを可視化し、キー・インフルエンサーを特定。
2.3 リアルタイム評価技術との融合
Experience Sampling Method (ESM)/Ecological Momentary Assessment (EMA):スマートフォン通知で日中の安全意識・行動を随時サンプリング。
IoT・センサーデータ連携:バーコードスキャンやIoTセンサーから得られる作業状況データを、質問紙回答と同期解析。
自動テキストマイニング:自由記述回答を自然言語処理で解析し、潜在リスク要因や感情トレンドを抽出。
2.4 パーソンセンタード分析
Latent Class Growth Analysis (LCGA) や Finite Mixture Modeling により、異なる成長パターンを示すサブグループを同定。
個別最適化アプローチ:人物別・部門別の安全教育プログラムを、得られたクラスに応じて設計・評価。
2.5 AI・機械学習の活用
予測モデル構築:質問紙スコアと過去のインシデント発生履歴を統合し、事故発生確率を予測する機械学習モデルを開発。
属性クラスタリング:回答パターンをクラスタリングし、共通する組織課題をグループ単位で抽出。
これらの研究課題を体系的に進めることで、質問紙調査の 精度・妥当性・実用性 を大きく向上させ、安全文化改善の科学的基盤を強化できる。
結論
本稿では、安全文化アンケート調査を巡る以下の点を総合的に論じた。
理論的背景の整理
INSAG-4/INSAG-15をはじめ、Reason の4文化モデル、JANSI の7原則、高野教授の8軸モデルなど、多層的・多角的な安全文化理論を概観し、共通要素としてリーダーシップ、報告文化、学習文化、コミュニケーション、リスク認識を抽出した。代表的ツールの構造分析
HSOPS(42項目・12次元)、SAQ(30項目・6次元)、NOSACQ-50(50項目・7次元)など、対象領域と評価次元が異なる主要質問紙の特徴を比較し、ベンチマーキングや多職種比較の有用性を整理した。信頼性・妥当性評価手法
Cronbach’s α、McDonald’s ω、再テスト信頼性、CFA/EFA、IRT、基準関連・構成概念・理論的妥当性検証といった多層的評価手法を示し、Messick の総合的妥当性理論に基づく測定品質の担保方法を提示した。実施手順の体系化
目的設定/ツール選定→翻訳・認知インタビュー→パイロット→配布・回収→データクリーニング→統計分析(α、因子分析、SEM 等)→結果フィードバック→部門別ワークショップ→フォローアップ再調査というPDCA サイクルを詳細に解説した。医療現場への適用事例
大学病院でのHSOPS全職員調査を通じた「報告文化」「学習文化」の20ポイント改善、総合病院におけるSAQ+SEMによるチームワーク向上と業務負荷感軽減の成果を具体的数値で示した。課題と今後の展望
回答バイアスや横断面データの限界、文化適用性の地域差といった方法論的制約を挙げるとともに、縦断的 Latent Growth Curve Model、混合研究法、リアルタイム評価技術(ESM/IoT/AI解析)の融合による動的・予測的安全文化評価モデルの開発を提案した。
安全文化質問紙調査は、多職種協働下の組織的安全マネジメントを支える強力な基盤手法である。今後は、従来の定量的アプローチに加え、定性・リアルタイム・AI 技術を組み合わせた革新的評価モデルを構築することで、より迅速かつ精緻なリスク把握と改善策のPDCA を実現し、組織のレジリエンス向上に寄与すると期待される。
参考文献
Sorra J, Nieva VF. Hospital Survey on Patient Safety Culture. AHRQ Publication No. 04-0041; 2004.
Sexton JB, Helmreich RL, Neilands TB, et al. The Safety Attitudes Questionnaire: psychometric properties, benchmarking data, and emerging research. BMC Health Serv Res. 2006;6:44.
Kines P, Lappalainen J, et al. Nordic Safety Climate Questionnaire (NOSACQ-50): basic concept and methodology. Saf Sci. 2011;49(10):1452–1461.
Cronbach LJ. Coefficient alpha and the internal structure of tests. Psychometrika. 1951;16(3):297–334.
Messick S. Validity of psychological assessment: Validation of inferences from responses and performances as scientific inquiry into score meaning. Am Psychol. 1995;50(9):741–749.











