「スクレイピングは違法ではないか?」という疑問は、業務効率化やデータ活用を検討する担当者が必ず直面する問いです。結論から言えば、日本にはWebスクレイピング自体を禁止する法律は存在しません(2026年現在)。しかし「何を・どのように・何の目的で」収集するかによって、著作権法・個人情報保護法・利用規約上のリスクが生じます。本記事では法的判断の3軸と、合法的に実施するための実践基準を整理します。
免責事項: 本記事は一般的な情報提供を目的としており、弁護士監修ではありません。個別の法的アドバイスを構成するものでもありません。具体的な判断については、弁護士等の専門家にご相談ください。
スクレイピングが問われる違法性の3軸とは
直接禁止する法律は存在しない ― ではなぜ「違法」と言われるのか
「スクレイピング=違法」という誤解が広まった背景には、過去の逮捕事例や利用規約違反の報道が影響していると考えられます。しかし、日本には現時点でWebスクレイピング自体を直接禁止する法律は存在しません。
総務省が消費者物価指数(CPI)の計測にWebスクレイピングを活用していることも、公的機関による正規利用の根拠になっています。スクレイピングは「情報収集の手段」に過ぎず、それ自体に合法・違法の区別はありません。問題になるのは「どのようなスクレイピングか」という実施の内容です。
判断軸①著作権 ②利用規約・契約 ③サーバー負荷・業務妨害
法的リスクの有無は、主に3つの軸で判断されます。
| 判断軸 | 根拠となる法律・ルール | リスクレベル |
|---|---|---|
| 著作権 | 著作権法 | 高 |
| 利用規約・契約 | 契約法・不法行為法 | 中 |
| サーバー負荷・業務妨害 | 刑法233条・234条 | 中〜高(頻度次第) |
この3軸は相互に独立しています。著作権上のリスクがない収集でも、利用規約違反になることがあります。反対に、著作権リスクがあっても、特定の例外規定により合法になるケースもあります。
違法性は「目的・方法・対象」の組み合わせで決まる
同じ公開情報であっても、どのような目的で、どのような方法で、どの対象から収集するかによって、法的な評価は変わります。実務上は「収集前に3軸すべてを確認してから着手する」というプロセスが重要です。この確認プロセスを欠いたまま大量収集を始めることが、最大のリスク要因です。
著作権法との関係 ― 何を収集すると侵害になるか
Webコンテンツはほぼすべて著作物 ― 創作性の有無が分岐点
Web上に公開されているコンテンツは、創作性(オリジナリティ)がある場合、著作権によって保護されます。記事の文章・写真・イラスト・デザイン・動画はもちろん、データベース構造にも著作権が発生することがあります。
一方で、価格・在庫数・会社の所在地・電話番号のような「事実データ」には、原則として著作権は発生しません(創作性がないため)。スクレイピングの対象が「事実の羅列」か「創作性のある表現」かで、法的リスクの有無が分かれる最初の判断点です。
著作権法30条の4・47条の5が定める「情報解析目的」の例外
著作権法には、スクレイピングと深く関係する例外規定が設けられています。
著作権法30条の4(情報解析目的の利用): 情報解析(テキストマイニング・機械学習など)を目的とする場合、著作権者の許諾なく著作物を利用できます。ただし「情報解析以外の目的で使用しない」という要件があります。
著作権法47条の5(情報提供による利用): 情報の提供・検索サービスの運営において軽微な利用が認められる規定です。検索エンジンのクローリングが合法な根拠もここにあります。
これらの例外規定の存在を知らずに「スクレイピングは著作権侵害になる」と過度に自粛しているケースもあります。ただし、例外の適用範囲は限定的であり、収集した著作物をそのまま公開・販売することは保護されません。
侵害にならない収集と侵害になる収集の違い(判断チェック)
実務上の判断基準として、「元サイトを見なくても済む内容に変換されているか」という観点が有効です。
リスクが低い収集の例:
- 価格・在庫数・営業時間などの事実データの収集
- 情報解析・統計処理を目的とした収集(30条の4の適用を念頭に置く)
- 複数ページから要旨を集約し独自の分析に変換する利用
リスクが高い収集の例:
- 記事の全文をコピーして自社サービスに掲載する
- 収集したコンテンツを二次配布・販売する
- 創作性の高いコンテンツをほぼ原形のまま転載する
robots.txtと利用規約 ― 技術ルールと法的拘束力の違い
robots.txtは法律ではない ― だが無視するリスクとは
robots.txtとは、Webサイト運営者が自動プログラムによるアクセス範囲を指定するテキストファイルです。https://対象ドメイン/robots.txt でその内容を確認できます。
robots.txtに法的強制力はありません。しかし、無視して大量アクセスを行った場合、それが「サーバーへの過度な負荷」と判断されれば刑法の業務妨害罪の成立要件に近づく可能性があります。また、悪意や故意の証拠として参照される場合もあります。
実務上は、robots.txtのDisallow指定に従い、Crawl-delay指定がある場合はその間隔を守ることが業界標準として定着しています。
利用規約のスクレイピング禁止条項は法的拘束力を持つ
robots.txtとは異なり、利用規約は法的拘束力のある契約です。対象サービスの利用規約に「自動的な情報取得の禁止」「スクレイピング禁止」が明記されている場合、それに同意したうえでスクレイピングを行うことは、民法上の債務不履行や不法行為として損害賠償の対象になりえます。
SNS・検索サービス・ポータルサイトなどの大手プラットフォームの多くは、利用規約でスクレイピングを明示的に禁止しています。これらのサービスに対しては、公式APIの利用を優先するのが原則です。
確認すべき3箇所:robots.txt/利用規約/API提供の有無
収集に着手する前に、対象サイトの以下3箇所を確認することが実務的な最低基準です。
- robots.txt: Disallow指定されたパスへのアクセスを避ける
- 利用規約: スクレイピング禁止条項・非商用限定・データ再利用制限の有無を確認する
- 公式APIの有無: APIが提供されている場合はAPIを優先して利用する
公式APIが利用可能な場合、スクレイピングよりも安定したデータ取得が可能で、利用規約との整合性も取れています。APIを使えるにもかかわらずスクレイピングを選択するケースは、規約上のリスクを高める可能性があります。
個人情報の扱い ― 収集してよい情報と禁止される情報
個人情報保護法が定める「個人情報」の範囲
個人情報保護法における「個人情報」とは、生存する個人に関する情報で、氏名・生年月日・その他の記述等によって特定の個人を識別できるものを指します。具体的には、氏名・メールアドレス(個人の)・電話番号(個人の)・住所などが該当します。
Webスクレイピングで収集した情報であっても、この定義に当てはまれば個人情報保護法の規律を受けます。公開されているからといって、無断収集・利用が許容されるわけではありません。収集目的の明示・目的外利用の禁止・第三者提供の制限が原則として適用されます。
なお、法人の名称・代表電話・公式メールアドレスのような「法人情報」は、個人情報保護法の「個人情報」には該当しません(法人自体は「個人」ではないため)。ただし、担当者の氏名・個人のメールアドレスなどが含まれる場合は個人情報として扱われます。
センシティブ情報(要配慮個人情報)は事前同意が必須
病歴・信条・犯罪歴・障害の有無などの「要配慮個人情報」は、通常の個人情報よりも厳格な保護が求められます。これらは、本人の事前同意なしに取得することが原則として禁止されています。
Webスクレイピングでは、これらの情報が含まれるフォーラム・掲示板・医療サービスからの収集は特に注意が必要です。
EU在住者データを扱う場合はGDPRも適用される
グローバルに事業を展開している企業や、EUユーザーへのサービス提供がある場合、EU一般データ保護規則(GDPR)が適用されます。GDPRは日本企業であっても、EU在住者の個人データを処理する場合に適用対象となります。
違反時の制裁金は最大2,000万ユーロ、または全世界年間売上高の4%と定められており、深刻なコンプライアンスリスクを伴います。グローバルなデータ収集を計画する際は、GDPRへの対応が不可欠です。
合法的なスクレイピングを実施するための5原則
原則1 ― 公開情報のみ・認証突破は絶対禁止
パスワードや認証システムを突破してアクセス制限されたコンテンツを収集することは、不正アクセス禁止法の違反となります。3年以下の懲役または100万円以下の罰金が定められており、刑事罰の対象です。収集対象は必ず公開されているページに限定してください。
原則2 ― アクセス頻度は最低2秒以上の間隔を空ける
2010年に発生した岡崎市立図書館事件(Librahack事件)では、図書館の公式システムに対して1秒1アクセスで自動取得を行ったユーザーが逮捕(後に起訴猶予)された事例があります。この事件では、アクセス間隔が短すぎることによってサーバーに過負荷が生じ、業務妨害と判断されました。
具体的な違法アクセス回数の閾値は法律に定められていませんが、業界の推奨値として最低2秒以上の間隔が広く使われています。Crawl-delay指定がある場合はそれに従うことが原則です。
原則3 ― robots.txt・利用規約を事前確認してから着手する
着手前の確認は省略できないプロセスです。robots.txtのDisallow指定の確認と、利用規約のスクレイピング禁止条項の有無を必ず確認してください。禁止されている対象へのアクセスを続けることは、法的・レピュテーション上のリスクを積み上げる行為です。
原則4 ― 個人情報は収集しないか、収集後に匿名化する
収集目的に個人情報が必要な場合、収集後に速やかに匿名化または仮名化を行うことを基本方針にしてください。氏名・個人メールアドレス・個人電話番号などの収集は、目的と保管・利用の方針を明確にしたうえで慎重に判断する必要があります。
原則5 ― 目的を明確にし、情報解析・価値変換に留める
著作権法30条の4の例外規定は「情報解析目的」に適用されます。何のために収集するのかを文書化し、収集した情報がその目的の範囲内でのみ利用されていることを確認できる状態にしておくことが、法的確認の基盤になります。収集した著作物をそのまま二次配布することは例外規定の対象外です。
自社実施と外部代行 ― リスク管理の観点から選ぶ
自社でスクレイピングを実施する場合のリスクと工数
自社でスクレイピングを実施する場合、技術的な実装に加えて法的判断のコストが発生します。対象サイトごとに利用規約・robots.txtを確認し、著作権・個人情報保護法の要件を満たす収集設計を行うためには、一定の専門知識が必要です。
また、担当者が変わると判断基準が失われる属人化リスク、収集対象サイトの構造変更による運用停止リスク、規模拡大時の品質維持の難しさという3つの課題が共通して発生します。
合法的なデータ収集代行に求められる品質基準
代行サービスを選ぶ際に確認すべき基準として、以下の項目があります。
- 公開情報のみ対応: 認証を突破するアクセスや非公開情報の収集は行わない
- robots.txt遵守: 収集フロー内にrobots.txt確認が組み込まれている
- 利用規約確認プロセス: 収集前に対象サイトの利用規約を確認し、禁止サイトを除外している
- 個人情報保護法・GDPR対応: 方針が明示されており、担当者が内容を説明できる
- アクセス頻度の管理: 過負荷を防ぐための間隔制御が実装されている
これらが「標準フロー」として業務設計に組み込まれているかどうかが、信頼できる代行業者を見極めるポイントです。口頭で「対応しています」と言えるだけでなく、フロー・チェックリストとして文書化されていることが望ましいといえます。
代行サービスを選ぶ際の確認ポイント
コンプライアンス品質に加えて、以下の実務的な確認も重要です。
| 確認ポイント | 確認すべき内容 |
|---|---|
| 対応可否の判断透明性 | 禁止サイトを発注前に明示してくれるか |
| 料金の透明性 | 単価が開示されているか(要見積もりのみでないか) |
| サンプル確認 | 本発注前に収集サンプルで品質を検証できるか |
| 修正対応 | 誤りや不足があった場合の再収集・補完に対応できるか |
代行を活用することで、法的判断の専門性を集約し、コアビジネスに集中できる体制を作ることができます。データ収集代行の選び方の詳細はデータ収集代行の業務範囲・料金・活用例でも解説しています。また、収集後のデータ活用については営業リスト作成の手順と外注の基準もあわせて参考にしてください。
よくある質問(FAQ)
公開されているデータをスクレイピングするのは違法ですか?
公開情報のスクレイピング自体は違法ではありませんが、対象サイトの利用規約・robots.txtを確認すること、著作権法・個人情報保護法への対応が必要です。これらを満たさない場合はリスクが生じます。
robots.txtを無視してスクレイピングしたら逮捕されますか?
robots.txt自体に法的強制力はありません。ただし、その指定を無視して大量のアクセスを継続しサーバーに障害を与えた場合、刑法233条・234条の業務妨害罪が成立する可能性があります。2010年の岡崎市立図書館事件では、robots.txtに禁止指定がないケースでも逮捕・起訴猶予となった事例があります。
SNSのデータをスクレイピングしてよいですか?
主要SNSの利用規約は自動取得(スクレイピング)をほぼ全面的に禁止しています。利用規約違反となるリスクが高いため、公式APIの利用を強く推奨します。違反した場合、アカウント停止に加え、損害賠償請求のリスクもあります。
個人情報を含まなければスクレイピングは自由にできますか?
個人情報が含まれない場合でも、著作権・利用規約・サーバー負荷のリスクは独立して存在します。合法性の判断には3軸すべての確認が必要です。「個人情報がないから問題ない」という判断は、著作権侵害や業務妨害リスクを見落とす原因になります。
競合他社のサイトをスクレイピングしてデータを収集するのは問題ありますか?
利用規約の禁止条項・著作権・不正競争防止法(営業秘密や限定提供データの不正取得)の観点から、慎重に判断する必要があります。特に競合が「限定提供データ」として管理している情報の収集は、不正競争防止法上のリスクがあります。事前に法的確認を行うことを推奨します。
まとめ
Webスクレイピングの違法性は、スクレイピングそのものではなく「何を・どのように・何の目的で」実施するかで決まります。著作権・利用規約・サーバー負荷の3軸それぞれにリスクがあり、個人情報・GDPRへの対応も加わります。
合法的に実施するための5原則をまとめます。
- 公開情報のみ対象にする(認証突破は不正アクセス禁止法違反)
- アクセス間隔は最低2秒以上(過負荷による業務妨害リスクを回避)
- robots.txt・利用規約を着手前に確認する(公式APIがある場合はAPIを優先)
- 個人情報は収集しないか、収集後に匿名化する(個人情報保護法・GDPR対応)
- 目的を明確にし、情報解析・価値変換に留める(著作権法例外規定の活用)
自社で実施する場合は、これらの確認プロセスを業務フローとして文書化しておくことが、継続的なコンプライアンス維持の基盤になります。外部委託を検討する場合は、上記5つの原則が標準フローとして組み込まれている代行業者を選ぶことが重要な判断基準です。
本記事は一般的な情報提供を目的としており、弁護士監修ではありません。個別の案件に関する法的判断については、弁護士等の専門家にご相談ください。
Dr.Wallet BPOのデータ収集代行
¥40/件・最低発注¥30,000から、公開情報を対象にしたデータ収集代行を承っています。
- robots.txt遵守・利用規約確認・公開情報のみ対応を標準フローで実施
- 個人情報保護法・GDPR対応方針を明示
- 収集と同時に人力検証・リンク切れ除去を実施し、CSV/スプレッドシート形式で納品
- データクレンジング代行との一気通貫も対応可能
まずは収集対象と件数をお知らせください。サンプル収集から始められます。