データクレンジングとは?重複・表記ゆれ・欠損を整える3工程ガイド

データクレンジングとは、顧客DBの重複削除・表記ゆれ統一・欠損補完を行うプロセスです。HubSpot/SFDC移行前の必須作業から法人番号付与まで、業務範囲・料金相場・代行活用の判断基準をわかりやすく解説します。

「CRM移行の準備を進めたら、旧システムのデータが想像以上に汚れていた」――こうした状況に直面したマーケターや営業企画担当者は少なくありません。顧客データは放置するほど品質が劣化し、施策精度やAI活用の足を引っ張る原因になります。

この記事では、データクレンジングの定義から3工程の具体的な内容、ツールと代行の使い分け、料金相場、HubSpot/Salesforce移行時の実践例まで、網羅的に解説します。

データクレンジングとは:データの「不備」を整える3工程

データクレンジングとは、データベースやデータセット内に含まれる不正確・不完全・重複したデータを識別し、修正または削除するプロセスです。「データクリーニング」と呼ばれることもありますが、意味は同じです。

工程① 重複削除(名寄せ)とは

重複削除とは、同一の企業や人物が複数のレコードとして登録されている状態を検出し、1件に統合する作業です。この作業は「名寄せ」とも呼ばれます。

たとえば「株式会社ABC」「ABC株式会社」「(株)ABC」が別々のレコードとして登録されていると、同じ担当者に対して複数回アプローチしてしまったり、商談履歴が分散してしまったりします。

名刺入力・名寄せ代行のように、名刺情報をデジタル化するタイミングで重複が発生するケースも多く、初期データ整備の段階から品質管理の仕組みを整えておくことが重要です。

工程② 表記ゆれの統一とは

表記ゆれとは、同一の情報が異なる書き方で登録されている状態です。代表的なパターンには以下があります。

  • 法人格の表記:「株式会社」「㈱」「(株)」
  • 全角・半角の混在:「ABC株式会社」と「ABC株式会社」
  • ひらがな・カタカナ:「えびす商事」と「エビス商事」
  • 省略形・通称:「東日本旅客鉄道」と「JR東日本」

表記ゆれはツールによる機械的な処理だけでは対応しにくいケースが多く、特に通称・略称・英語表記の混在は人の目によるチェックが欠かせません。

工程③ 欠損補完・最新化とは

欠損補完は、空欄になっているフィールド(電話番号・メールアドレス・郵便番号・業種・法人番号など)を補完する作業です。同時に、移転・社名変更・担当者交代などで古くなった情報を最新の状態に更新します。

法人番号の付与は欠損補完の中でも特に効果が大きく、国税庁の法人番号公表サイトAPIを使えば、企業名から正式社名・本社住所・設立日などの情報を自動取得できます。

年間20〜30%
BtoBの顧客データが1年間で陳腐化する割合。退職・異動・社名変更が主な原因。
データ品質業界一般統計

なぜ今、データクレンジングが必要なのか

データクレンジングへの関心が高まっている背景には、いくつかの構造的な変化があります。

MA・CRM導入の普及と品質問題

SFA・CRM・MAの導入が進む中で、「ツールを入れたのに効果が出ない」という声をよく耳にします。その原因の多くは、ツールに格納されているデータの品質です。重複レコードがあればターゲティングが分散し、欠損が多ければセグメントが機能しません。ツール導入前に一度データを整備していないと、品質問題をそのまま新システムに引き継ぐことになります。

AI活用の前提条件としてのデータ品質

AIを使ったスコアリングやレコメンドエンジンは、入力データの品質に判断精度が直結します。重複や表記ゆれが残った状態では、同一企業の行動データが分散し、モデルが誤った推論を行うリスクが高まります。「AIを使いこなせない」という悩みは、データ品質の問題が根本にあることも少なくありません。

マーケコストの二重投下リスク

重複レコードがある状態でメールマーケティングや広告リターゲティングを実施すると、同一の見込み客に対して複数のアプローチが発生します。これはコストの無駄遣いであるだけでなく、受け取る側にとっては「同じ会社からまた連絡が来た」という印象につながり、ブランド毀損にもなります。

15〜30%
複数チャネルで収集した顧客データを統合した場合に重複レコードが占める割合(業界統計)
データ品質業界一般統計

データクレンジングの対象:よくある「汚れ」パターン6種

実際のデータクレンジング現場でよく見られる問題を6種類に整理します。

① 表記ゆれ(全角/半角・法人格・読み方)

同一企業でも入力担当者によって書き方が変わります。特に法人格の表記(株式会社/㈱/(株))は最もよく見られるパターンです。また、英数字の全角・半角混在や、ひらがな・カタカナの揺れも頻出します。

② 重複レコード(同一企業・同一人物の複数登録)

展示会リスト、Web問い合わせ、名刺データ、インポートCSVなど、複数の経路でデータが入ってくると重複が発生します。完全一致の重複はツールで検出できますが、表記ゆれを伴う「曖昧一致」の重複は人の判断が必要です。

③ 欠損値(必須項目が空欄)

メールアドレス・電話番号・郵便番号が空欄になっているレコードは、MAの配信リストから漏れたり、営業電話ができなかったりと、活用の幅を狭めます。

④ 誤入力・古い情報(旧社名・旧住所・退職者)

初期入力時のタイプミスや、その後の情報変更に追いついていないデータです。退職した担当者の名前がキーマンとして登録されたままになっているケースもよく見られます。

⑤ フォーマット不統一(電話番号・日付形式)

電話番号のハイフン有無(03-1234-5678 vs 0312345678)、日付形式の違い(2024/01/01 vs 2024-01-01 vs 20240101)など、同じ情報でも形式がバラバラになっているケースです。ソートや検索に影響が出ます。

⑥ 法人番号未付与

法人番号が付与されていないと、表記ゆれのある同一企業を確定的に識別できません。名寄せ精度の低下につながる根本的な問題です。

ツールで自動化できる範囲と、人力代行が必要な範囲

データクレンジングには複数のツールが使えますが、すべてを自動化できるわけではありません。判断基準を整理します。

ツールで対応できる範囲

主要なツールと得意領域は以下のとおりです。

HubSpot Data Hub:大文字/小文字の自動修正、空白の除去、電話番号フォーマット統一、完全一致の重複検出と手動マージ機能を備えています。

Salesforce(データ統合機能):標準の重複管理ルール設定と、Apex/フローを使ったカスタム処理に対応しています。

Excel(TRIM・SUBSTITUTE・VLOOKUP等):単純な空白除去、特定文字の置換、別テーブルとの照合程度であれば関数で対応できます。

OpenRefine / Trifacta(Alteryx Designer):ファセット機能を使った表記ゆれのクラスタリング、データ変換の自動化が得意です。

ツールで対応が困難なケース

ツール処理に限界があるのは以下の場面です。

  • 略称・英語表記・通称が混在する曖昧一致の重複
  • 数千件規模での一括マージ(HubSpotの手動マージは1件ずつの作業)
  • 初期クレンジング(過去に蓄積した汚れを一気に整備する作業)
  • 入力ルール外の不備や特殊なケースへの対応
40〜80時間
1,000件のリストをExcelで手作業クレンジングした場合の目安工数(表記ゆれ・重複含む)
Dr.Wallet BPO 業務工数実績データ

代行が有効な場面と判断の目安

以下の3軸で代行利用を検討する価値があります。

ツール自力対応の目安代行検討ライン
件数500件未満500件以上
精度要求完全一致重複のみ曖昧一致・表記ゆれ含む
社内リソース担当者が確保できる専任担当がいない

特に、CRM/MA移行前の初期クレンジングは、社内工数が読めない・品質に責任を持ちにくいという理由から、代行を選択する企業が増えています。

データクレンジング代行の料金相場と単価の考え方

データクレンジング代行の料金体系は主に4種類に分かれます。

主な料金体系

件数制(10〜50円/件):処理件数に応じて課金されるモデルです。工程が多い(重複削除のみか、法人番号付与まで含むか)ほど単価が上がります。

時間単価(1,500〜3,000円/時間):作業量が読みにくいケースや、スポット依頼のときに適用されることが多いモデルです。

月額固定(3万〜20万円):定常的に発生するデータ整備業務を月契約で委託する方式です。安定した品質と優先処理が期待できます。

プロジェクト単価(10万〜100万円以上):大量データの初期一括クレンジングや、移行プロジェクトに紐づいた契約形式です。

企業規模別の月額目安

規模月額目安
小規模(〜1,000件/月)3〜8万円
中規模(1,000〜5,000件/月)10〜30万円
大規模(5,000件〜)30万〜100万円以上

単価比較時の注意点

見積もりを複数社に取る際、工程数が異なる見積もりを単純比較しないように注意が必要です。「重複削除のみ」と「重複削除+表記ゆれ統一+欠損補完+法人番号付与」では、作業量が3〜4倍異なります。

また、競合の多くは料金を「要問い合わせ」としているため、単価を開示しているサービスかどうかも確認ポイントです。

HubSpot・Salesforce移行前のデータクレンジング実践例

CRM/MA移行のタイミングは、データクレンジングの最大のチャンスです。旧システムの品質問題をそのまま引き継がないために、移行前に一括整備することが推奨されています。

移行前によく見られる問題

  • 重複会社レコード:複数の営業担当が同じ企業を別々に登録している
  • 旧担当者名:退職・異動した担当者が現役キーマンとして残っている
  • 住所フォーマット不統一:「東京都渋谷区」と「渋谷区」が混在している
  • 電話番号の形式バラバラ:ハイフン有無・市外局番の有無が統一されていない

HubSpotの標準機能でできること・できないこと

HubSpotには「データ品質自動化」機能(Data Hub)が搭載されており、大文字/小文字の修正、空白除去、電話番号フォーマット統一、重複管理ツールを備えています。ただし、大量の曖昧一致重複(数百〜数千件規模)を一括処理する機能は持っていません。手動マージは1件ずつの操作になるため、数千件の重複を移行後にマージしようとすると、現実的ではない工数がかかります。

移行前クレンジングの推奨フロー

  1. 現状棚卸し:件数・フィールド定義・重複の概算を把握する
  2. 重複検出:完全一致→曖昧一致の順で検出し、統合方針を決める
  3. 表記統一:法人格・全角半角・ひらがなカタカナを整える
  4. 欠損補完:郵便番号・メールアドレスなどを可能な範囲で補完する
  5. 法人番号付与:国税庁APIを使い、法人番号と正式社名・住所を追加する
  6. CSV整形:HubSpot/SFDCのインポート形式にフィールドをマッピングする
  7. テストインポート:本番移行前に少量でインポートを検証する
1位
CRM移行プロジェクトの遅延原因ランキング。最大の要因はデータ品質問題(業界統計)。
CRM移行プロジェクト事例調査

法人番号付与がデータクレンジングの精度を高める理由

BtoB企業のデータクレンジングにおいて、法人番号の付与は精度向上の観点から特に重要な工程です。

法人番号とは

法人番号は、国税庁が日本国内のすべての法人(株式会社・合同会社・社団法人・学校法人など)に付与する13桁の一意の識別番号です。法人番号公表サイト(国税庁)で無償公開されており、APIで照合・取得することができます。

なぜ重要か

法人番号があると、表記ゆれがある複数のレコードが同一企業であるかどうかを、名前の一致ではなく番号で確定的に判断できます。

たとえば「㈱ABCコーポレーション」と「ABC Corporation」と「エービーシー株式会社」の3件が別々のレコードとして登録されていた場合、法人番号が共通していれば同一企業と確定でき、確実に名寄せできます。

法人番号APIで自動付与・最新化できる情報

  • 正式法人名(国税庁登録の公式名称)
  • 本社住所(都道府県・市区町村・番地)
  • 法人種別(株式会社・合同会社・医療法人など)
  • 設立日・登記日
  • 事業開始日・廃業日(廃業法人の識別も可能)

注意点

個人事業主・外国法人(日本法人格を持たない外資系企業)は対象外です。また、法人番号が付与されていても、住所変更などは登録が遅れるケースがあるため、過信は禁物です。MA/CRMでアカウントを法人番号で束ねることで、営業・マーケのセグメント精度が向上します。

代行依頼の流れとBefore/Afterレポートの活用

データクレンジング代行を外部に依頼する際の、一般的な流れと確認事項を整理します。

代行依頼の標準フロー

ステップ1:ヒアリング・要件定義

対象のデータ件数・フォーマット・クレンジングの目的(MA移行前整備・定常メンテナンス・法人番号付与など)を確認します。この段階で、作業範囲と納品形式を明確にしておくことが後工程のトラブル防止につながります。

ステップ2:サンプル処理

100〜500件程度のサンプルデータを使って試処理を行います。精度・処理方針・納品フォーマットを実物で確認するためのステップです。

ステップ3:本処理

合意した仕様に基づき、全件のクレンジングを実施します。処理期間の目安は、1万件規模で1〜2週間が一般的です。

ステップ4:Before/Afterレポート納品

処理前後の差分を可視化したレポートとともに、クレンジング済みのデータを納品します。

ステップ5:フィードバックと修正

レポートを確認し、方針の調整・追加修正が必要な場合は対応してもらいます。

Before/Afterレポートで確認すべき3項目

Before/Afterレポートは、クレンジング品質を検証するための監査用資料です。以下の3点を必ず確認しましょう。

  1. 重複削除件数:何件が削除・統合されたか(削除ルールも併せて確認)
  2. 表記ゆれ統合パターン:どの表記ゆれがどのように統一されたか
  3. 欠損補完率:補完前後の充足率(例:法人番号付与率 72% → 94%)

納品形式の確認ポイント

HubSpot・Salesforceへのインポートを予定している場合、以下を事前に確認しておきましょう。

  • CSVのフィールド名がインポート先のプロパティ名と一致しているか
  • 文字コードがUTF-8か(文字化けの原因になる)
  • 日付・電話番号のフォーマットがインポート要件に合っているか

データ収集代行から始まり、クレンジングまでをワンストップで依頼できると、収集段階からフォーマットを統一できるため、後工程の整備コストを大幅に削減できます。


Dr.Wallet BPOのデータクレンジング代行は、重複削除・表記ゆれ統一・法人番号付与の3工程を1件¥15〜で代行します。Before/Afterの差分レポート付きで品質を可視化。HubSpot・Salesforce対応のCSV形式で納品します。まずはサンプルデータ500件からのトライアルも受け付けています。

無料相談・見積もりはこちら


よくある質問(FAQ)

データクレンジングと名寄せはどう違いますか?

名寄せはデータクレンジングの工程の一部で、同一企業・同一人物の重複レコードを1件に統合する作業です。データクレンジングはそれに加えて表記ゆれ統一・欠損補完・フォーマット統一など、より広い範囲のデータ品質向上を指します。

Excelだけでデータクレンジングはできますか?

単純な表記ゆれや欠損の補完はExcelの関数(TRIM・SUBSTITUTE・VLOOKUPなど)で対応できます。ただし数千件規模の重複検出・曖昧一致・法人番号照合は、専用ツールや代行サービスの利用が現実的です。

何件からデータクレンジング代行に出す価値がありますか?

目安として500件以上・複数の表記ゆれパターンが混在している場合は代行が費用対効果に優れます。件数が多いほど単価が下がり、人的ミスも減るため品質も安定します。

HubSpotに移行する前にクレンジングは必要ですか?

強く推奨されます。移行後にクレンジングしようとすると、HubSpot内で重複管理ツールを使った手動マージが大量に発生し、工数が数倍になるケースがあります。移行前に一括クレンジングするほうが効率的です。

法人番号が付いていないデータでも名寄せできますか?

可能ですが精度が下がります。表記ゆれが多い場合、法人番号を付与して同一法人を確定的に識別することで、漏れなく高精度な名寄せが実現します。国税庁の法人番号公表サイトAPIで自動付与できます。

よくある質問

データクレンジングと名寄せはどう違いますか?
名寄せはデータクレンジングの工程の一部で、同一企業・同一人物の重複レコードを1件に統合する作業です。データクレンジングはそれに加えて表記ゆれ統一・欠損補完・フォーマット統一など、より広い範囲のデータ品質向上を指します。
Excelだけでデータクレンジングはできますか?
単純な表記ゆれや欠損の補完はExcelの関数(TRIM・SUBSTITUTE・VLOOKUPなど)で対応できます。ただし数千件規模の重複検出・曖昧一致・法人番号照合は、専用ツールや代行サービスの利用が現実的です。
何件からデータクレンジング代行に出す価値がありますか?
目安として500件以上・複数の表記ゆれパターンが混在している場合は代行が費用対効果に優れます。件数が多いほど単価が下がり、人的ミスも減るため品質も安定します。
HubSpotに移行する前にクレンジングは必要ですか?
強く推奨されます。移行後にクレンジングしようとすると、HubSpot内で重複管理ツールを使った手動マージが大量に発生し、工数が数倍になるケースがあります。移行前に一括クレンジングするほうが効率的です。
法人番号が付いていないデータでも名寄せできますか?
可能ですが精度が下がります。表記ゆれが多い場合、法人番号を付与して同一法人を確定的に識別することで、漏れなく高精度な名寄せが実現します。国税庁の法人番号公表サイトAPIで自動付与できます。
#データクレンジング とは #名寄せ 意味 #表記ゆれ 統一 方法 #顧客DB 整理 手順 #HubSpot データクレンジング

データクレンジング代行のご依頼はお気軽にご相談ください

経験豊富な専門チームが、貴社の業務を丁寧にサポートいたします。

品質保証
セキュリティ万全
実績豊富
24時間以内に返信
無料相談 まずは料金・サービスを確認
無料相談