「HubSpotを導入して1年が経つのに、レポートの数字が信用できない」「ワークフローの発火条件がズレている気がする」——こうした症状の多くは、CRMに蓄積したデータの汚染が根本原因です。
本記事では、HubSpot固有のデータ品質問題のパターンから、標準機能でできることとできないことの境界線、法人番号付与を使った名寄せの実践手順、代行サービスの料金相場と選定基準まで、実務で使える情報を体系的に整理します。
HubSpot内で起きやすいデータ汚染の7パターン
HubSpotは「データが溜まりやすい」ツールです。フォーム送信・API連携・手動入力・外部インポートと、複数の経路でレコードが生成されるため、整備の仕組みがなければ汚染が進むのは構造的な必然です。
パターン1:重複レコード
最も頻度が高い問題です。「株式会社ABC」「ABC株式会社」「(株)ABC」が別々の会社レコードとして登録されたまま放置されるケースは珍しくありません。展示会名刺の一括インポート、Webフォームからの問い合わせ、営業担当者の手動入力という3ルートが重なると、同一企業のレコードが5件以上存在することも起こります。
HubSpotの標準機能では、メールアドレスが完全一致するコンタクトとドメイン名が一致する会社レコードを自動的にマージ候補として検出します。しかし表記ゆれを含む「あいまい一致」の重複は検出されません。
パターン2:表記ゆれ
入力担当者が変わるたびに発生します。法人格の表記(株式会社・㈱・(株))、全角と半角の混在(「ABC」と「ABC」)、ひらがなとカタカナの揺れ(「えびす商事」と「エビス商事」)、省略形と正式名称(「JR東日本」と「東日本旅客鉄道」)。
フォームの会社名欄が自由記述になっている限り、表記ゆれは止まりません。
パターン3:陳腐化したデータ
BtoBのデータは1年間で20〜30%が劣化します。担当者の異動・退職、企業の移転・社名変更・合併が主な原因です。入力時点では正確だったデータが、半年後には架空の担当者への連絡先になっている——これが積み重なると、ワークフローのターゲットが実態と大きくズレます。
パターン4:プロパティの乱立
CRM担当者が交代するたびに目的不明なカスタムプロパティが追加され、100件を超えることがあります。「業界」「業種」「セクター」のように似た項目が並立し、それぞれの入力率が低いまま放置されると、セグメントもレポートも使い物になりません。
パターン5:外部インポート由来の汚染
名刺データ、展示会リスト、購入した営業リストを無検証でインポートすると、既存レコードとの照合なしに大量の重複が発生します。フリーメールドメイン(Gmail、Yahoo)と企業ドメインが混在した状態でMA配信を設定すると、パーソナライズが機能しません。
パターン6:活動履歴の断片化
SFAやMAとの連携設定にズレがあると、商談履歴やメール開封履歴が会社・コンタクト・ディールの間で分散します。担当者変更のタイミングで引き継ぎが漏れると、長期未接触のアカウントに気づかないまま休眠化が進みます。
パターン7:ライフサイクルステージの未設定
「リード」「MQL」「SQL」などのステージが設定されていないレコードが増えると、ファネル分析の精度が落ちます。マーケとセールスの連携指標であるライフサイクルステージは、空欄が多い状態では管理指標として機能しません。
データクレンジングの基礎知識については「データクレンジングとは?重複・表記ゆれ・欠損を整える3工程ガイド」で体系的に解説しています。
HubSpot標準機能でできること・できないこと
自力対応の範囲を正確に把握することが、外注の判断基準になります。HubSpotの標準機能は充実している部分もありますが、見落としやすい制限があります。
標準機能でできること(プラン別)
| 機能 | 無料・Starter | Professional | Enterprise |
|---|---|---|---|
| メール完全一致によるコンタクト自動重複削除 | ○ | ○ | ○ |
| ドメイン名による会社レコード自動重複削除 | ○ | ○ | ○ |
| 手動重複管理ツール(ペア上限) | — | 5,000ペア | 10,000ペア |
| カスタム固有値プロパティ | 10個まで | ○ | ○ |
| カスタム重複ルール(ベータ) | — | — | 最大2ルール |
| データ品質コマンドセンター | — | Operations Hub | Operations Hub |
重要な注意点が2つあります。
1つ目は、インポート時の重複チェックです。HubSpotはインポート時に既存レコードと照合しますが、照合キーは「レコードIDプロパティ」「メールアドレス」「ドメイン名」のいずれかを指定します。表記ゆれのある社名では照合が機能しません。
2つ目は、API経由で作成した会社レコードの扱いです。ドメイン名による自動重複削除は、APIで追加したレコードには効かないという仕様があります。CRM連携ツールを複数使っている環境では、このルートからの重複蓄積が盲点になります。
標準機能の5つの限界
- あいまい一致の名寄せ非対応:表記ゆれがある同一企業は、自動では検出されない
- 大量マージの操作性:手動マージUIは1件ずつの操作になるため、数千件のマージは現実的でない
- 法人番号との紐付けなし:標準機能に法人番号照合は存在しない
- プロパティ一括再マッピングが貧弱:CSVエクスポート→編集→インポートを繰り返す必要がある
- 外部DBとのリアルタイム照合不可:国税庁DBや住所正規化サービスとのリアルタイム連携は標準では不可
データクレンジングを外注すると何が解決するか
代行で対応できる範囲を具体的に把握すると、自力対応との比較が明確になります。
外注で解決できる4つの課題
1. 表記ゆれ名寄せ
編集距離アルゴリズム(レーベンシュタイン距離など)で候補を機械的に絞り込み、最終的に人手でレビューするハイブリッドフローを使います。「ABC株式会社」と「ABCカンパニー」のような略称・英語表記の混在も、業種別の照合ルールと人の判断を組み合わせることで対応できます。
2. 大量データの一括CSVクレンジング
数万件規模のレコードを一括で整備し、整備済みCSVをHubSpotに再インポートします。プログラマティックな処理とHubSpot APIを組み合わせることで、手動マージの限界(5,000〜10,000ペア)を回避できます。
3. プロパティ設計の再整備
乱立したカスタムプロパティを棚卸しし、入力率・最終更新日を集計して削除・統合候補を特定します。ドロップダウン選択肢の標準化と、既存の自由記述値を新選択肢にマッピングするワークフロー設計まで含めて対応するサービスがあります。
4. API連携フローの構築
インポートのたびに重複が発生しない仕組みをAPI側に組み込みます。新規レコード追加時に法人番号で照合し、既存レコードがあれば自動マージ候補に回す設計にしておくと、以後の汚染を防げます。
自社対応と外注の工数比較
1万件の会社レコードを担当者1名が手作業でクレンジングしようとすると、重複検出・表記ゆれ確認・欠損補完を含めて40〜80時間の工数が必要です。専門サービスに委託した場合、担当者の実働は初期ヒアリング2〜3時間で、納品まで1〜2週間が目安です。
データ入力・収集業務の外注判断軸については「データ収集代行とは?業務範囲・料金・活用例を解説」も参考にしてください。
法人番号付与でHubSpotのマスタを一意化する方法
BtoBのHubSpot活用において、法人番号の付与は名寄せ精度を根本から高める施策です。他社サービスとの最大の差別化になる工程でもあります。
なぜ法人番号が有効か
法人番号は、国税庁が日本国内のすべての法人に付与する13桁の一意識別子です。「ABC株式会社」「㈱ABC」「旧社名のABC工業」が同一法人番号で紐付くため、表記ゆれを介した名寄せが確定的な判断に変わります。
合併・社名変更の履歴も法人番号で追跡できるため、「3年前に取引があった旧社名の会社が今の社名で別レコードとして登録されている」という状況も検出できます。法人番号公表サイト(国税庁)はAPIで無償公開されており、企業名・住所・設立日・業種コードなどの企業属性情報も取得できます。
HubSpotへの法人番号付与フロー
- 会社レコードを一括エクスポート:HubSpot管理画面からCSV形式でダウンロード
- 国税庁DBと突合:法人名・住所・電話番号をキーに法人番号APIで照合
- カスタムプロパティとしてマッピング:HubSpotの会社レコードに「法人番号」フィールドを追加
- 法人番号をキーに重複レコードをマージ:同一法人番号が付与されたレコードを統合
- 整備済みデータをHubSpotに再インポート:法人番号付きの状態でレコードを戻す
法人番号が付与された会社レコードは、以後の新規インポート時にも照合キーとして機能します。「新しい名刺データをインポートするたびに重複が増える」という問題が、法人番号照合を導入することで大幅に減ります。
法人番号付与の効果
完全一致だけで重複を検出していた場合と比べて、表記ゆれを含む重複の発見数が2〜3倍に増えることが一般的です。それだけ「見えていなかった重複」が存在していたということです。同時に、業種・従業員数・売上規模などの企業属性情報との紐付けも容易になるため、セグメント精度が上がります。
プロパティ最適化でレポート精度を高める手順
重複削除・表記ゆれ統一と並行して、プロパティの整理を進めることでレポートの精度が大きく改善します。
プロパティ棚卸しの進め方
まず全カスタムプロパティをCSVでエクスポートし、最終更新日と入力率を集計します。HubSpotの管理画面では「データ管理 → プロパティ」から一覧が確認でき、入力率が表示されます。
入力率10%未満のプロパティは削除候補として分類します。削除前に「このプロパティを参照しているワークフロー・レポート・リスト」をHubSpotのプロパティ詳細ページで確認し、依存関係を解消してから削除してください。
類似するプロパティ(「業界」「業種」「セクター」など)は統合候補です。最も入力率が高いプロパティを正とし、他のプロパティの値をワークフローで移し替えてから不要な方を削除します。
ドロップダウン選択肢の標準化
自由記述テキストのフィールドをドロップダウンに変換することで、以後の表記ゆれ発生を防ぎます。ただし変換前に、現在の自由記述値の種類と頻度を集計することが重要です。
手順は以下の通りです。
- 該当プロパティの値の一覧をエクスポート
- 表記ゆれを集約して標準選択肢リストを作成
- プロパティタイプをドロップダウンに変更し、標準選択肢を登録
- 既存の自由記述値をワークフローで標準選択肢にマッピング
ライフサイクルステージ・オーナーの整備
ライフサイクルステージが空欄のレコードが多い場合、一括設定にはHubSpotのリスト機能とワークフローを組み合わせます。ただし数百件以上を一度に処理する場合は、スクリプトで一括更新するか代行を利用する方が現実的です。
レコードオーナーも同様で、退職した担当者がオーナーのまま残っているレコードは、ワークフロー条件として機能するため放置するとセグメントが崩れます。
代行サービスの料金感と選び方
市場相場
データクレンジング代行の料金は、件数・汚染度・対応範囲によって大きく変動します。おおよその相場感は以下の通りです。
| 対応範囲 | 料金目安(1万件規模) |
|---|---|
| 重複削除のみ | 10万〜30万円 |
| 重複削除+表記ゆれ統一 | 20万〜50万円 |
| 上記+法人番号付与+欠損補完 | 30万〜80万円 |
| 上記+プロパティ再設計 | 40万〜100万円 |
| 月次メンテナンス(差分) | 5万〜20万円 |
見積もりを複数社に取る際は、対応工程が異なるままで単価を比較しないように注意が必要です。「重複削除のみ」と「法人番号付与込み」では作業量が3〜4倍変わります。
Dr.Wallet BPO データクレンジング代行の特長
BearTail XのBPOサービス「Dr.Wallet BPO」では、HubSpotのデータクレンジング代行を以下の内容で提供しています。
- 初回診断:無料。現状のデータ汚染スコアをレポート形式でお届けします
- 法人番号付与:国税庁DBとの突合で全レコードに一意識別子を付与
- Deduplication:編集距離アルゴリズム+人手レビューのハイブリッドで重複を徹底検出
- プロパティ再マッピング:乱立したカスタムプロパティの棚卸しから選択肢標準化まで
- API連携設計:以後の重複発生を防ぐインポートフローの構築
- 経理・購買データとのクロスチェック:実取引実績に基づく架空・休眠法人の自動検出
対応CRMはHubSpotを主力とし、Salesforceなどにも対応しています。
代行業者を選ぶ際の5つのチェックポイント
- HubSpot APIへのアクセス実績があるか:CSV手動作業のみの業者は、大量インポート後のワークフロー影響を見落とすリスクがある
- 法人番号活用に対応しているか:名寄せ精度に直結するため、対応の有無を確認する
- マージ後のデータ確認フローがあるか:機械的な判断だけでなく人手レビューが入るか
- プロパティ設計まで込みか:クレンジングしたデータを投入する「箱の設計」まで含めないと、すぐに汚染が再発する
- 継続的な品質維持プログラムがあるか:初回クレンジングだけで終わらず、月次差分対応があるかを確認する
発注から納品までの流れ(最短2週間)
初めて代行を依頼する場合、どのような流れになるかを把握しておくと発注の障壁が下がります。
全体の流れ
Step 1: 無料診断申込(Webフォーム・5分)
↓
Step 2: 現状ヒアリング・データサンプル確認(オンライン 30分)
↓
Step 3: クレンジング範囲の確定・見積提出(2〜3営業日)
↓
Step 4: 作業開始 — CSV抽出 → 法人番号照合 → 重複統合 → 表記ゆれ統一
↓
Step 5: レビュー用差分レポート提出(担当者が内容を確認・承認)
↓
Step 6: HubSpotへの反映・完了報告(最短 5営業日〜)
↓
Step 7: 月次メンテナンスへの移行(任意)
Step 5の「差分レポート」は、マージ・削除・変更されたレコードの一覧です。変更内容に疑問がある場合はここで差し戻しができるため、意図しないマージが本番環境に反映されるリスクを避けられます。
事前に準備しておくと良いもの
- HubSpotの会社・コンタクトレコード数の概算
- 過去にクレンジングを実施した場合は、その時期と対応範囲
- 特に整備を優先したいオブジェクト(会社レコードかコンタクトレコードか)
- 連携しているMAやSFAがあればツール名
これらを初回ヒアリング前に整理しておくと、見積もりの精度が上がります。
よくある質問
HubSpotのデータクレンジングはどこから始めればいいですか?
まず現状を定量的に把握することから始めます。HubSpotの管理画面で「全社レコード数 / メールアドレス空欄率 / 重複管理ツールが表示している候補件数」を確認してください。重複候補が100件を超えていたり、メールアドレス空欄率が20%を超えていたりする場合は、本格的なクレンジングが必要なサインです。
クレンジング作業中にHubSpotは通常通り使えますか?
CSVベースの作業であれば、HubSpotの通常業務と並行して進められます。ただし大量のレコードを一括インポートする前後は、ワークフローの一時停止を推奨します。
クレンジング後に汚染が再発しないようにするには?
入力ルールの文書化と、インポート前の検証フロー設定が有効です。具体的には、①会社名フィールドのドロップダウン化、②インポートCSVの法人番号照合チェック、③月次の差分クレンジング、の3点を組み合わせることで、再汚染のスピードを大幅に落とせます。
まとめ:HubSpotのデータ品質改善は「診断」から始める
HubSpotのデータ汚染が収益指標に影響を与えていても、問題の所在が「ツールの使い方」なのか「データの品質」なのかを切り分けられていないケースが多くあります。
重複レコード、表記ゆれ、法人番号未付与——これらは標準機能の改善では解決できない領域です。一方で、代行サービスを活用すれば担当者の実工数を最小化しながら、数週間で整備済みの状態に戻すことができます。
まず無料診断でデータ汚染スコアを確認し、対応の優先順位を把握するところから始めることをお勧めします。