データトラッキング：アプリ内でユーザーが何をしているかを記録する

この章で解決する課題

ユーザーがアプリ内で何をしているか、どうやって知ることができるか？

あなたが実店舗のタピオカティーショップを経営していると想像してください。カウンターの後ろに立って、一人一人の客を直接観察できます。メニューをどれくらい見ていたか？どのドリンクを注文したか？迷って結局何も買わずに去ったか？

しかし、あなたの「店舗」がモバイルアプリやWebサイトである場合、ユーザーの操作を直接見ることはできません。ここで必要なのが、アプリの重要な箇所に記録ポイントを「埋め込み」、ユーザーのすべての操作を自動的に記録する技術的ソリューションです。これがデータトラッキング（Event Tracking）です。

「トラッキング」という言葉は専門的に聞こえますが、その核心的な考え方はシンプルです。ユーザーが操作しそうな場所に「記録装置」を置き、ユーザーが何をしたかを記録するということです。

この章では、以下の4つのステップでプロセスを説明します：

収集方法の選択 — どこに記録装置を置くか、どう置くかを決める
データフォーマットの設計 — 各レコードにどのような情報を含めるべきかを決める
送信とキャッシュ — ユーザーのスマホからサーバーへデータを安全に届ける
クレンジングと格納 — データを整理し、重複やエラーを除去してデータベースに保存する

ステップ1：収集方法の選択 — どこに記録装置を置くか？

目標：ユーザーの操作をどのように記録するかを決める。

例えば、プロダクトマネージャーが「何人のユーザーが購入ボタンをクリックしたか」を知りたいとします。この問いに答えるため、開発者は「購入ボタン」のコードにロギングロジックを追加します。ユーザーがこのボタンをクリックするたびに、自動的にレコードが作成されます。

しかし、ここには選択肢があります。重要な場所にだけ記録装置を置く（例えば「購入」と「登録」だけを記録する）か、すべての場所に記録装置を置く（ユーザーのすべてのクリック、スワイプ、滞在を記録する）かです。

異なる選択は、異なるトラッキングアプローチに対応します。

场景：用户在电商 App 点击了「加入购物车」按钮

捕获到的信息	代码埋点	可视化埋点	全埋点
点击了哪个按钮	✔	✔	✔
点击发生的时间	✔	✔	✔
用户停留了多久	✘	✘	✔
商品名称 / 价格	✔	✘	✘
用了哪张优惠券	✔	✘	✘
账户余额	✔	✘	✘
页面滑动轨迹	✘	✘	✔

3つの主流なトラッキング手法

業界で一般的に使用されるトラッキングアプローチは3つあり、それぞれに長所と短所があります：

手法1：コードトラッキング（Code Tracking）— 手動で正確な記録

開発者がコード内で手動で指定します。ユーザーが特定の操作を行ったとき、データレコードを作成します。

例えるなら、タピオカティーショップのレジに専任のスタッフを配置し、「誰が何をいくらで買ったか」だけを記録するようなものです。記録される情報は非常に詳細で正確です。

メリット：どのクーポンを使用したか、アカウントの残高はいくらかなど、非常に詳細なビジネス情報を記録可能
コスト：新しいトラッキングポイントを追加するたびに、開発者がコードを書き、テストし、新バージョンをリリースする必要があり、プロセスが長い

手法2：ビジュアルトラッキング（Visual Tracking）— クリックで選択して記録

コードを書く必要はありません。システムがビジュアルツールを提供し、運用担当者がアプリ画面上で監視したいボタンやエリアを直接「選択」すると、システムが自動的に記録を開始します。

例えるなら、タピオカティーショップの監視カメラ映像上でマウスを使って「レジエリア」を枠選択すると、システムが自動的にそのエリアの通行量のカウントを開始するようなものです。

メリット：開発者の関与が不要、運用担当者自身で設定でき、非常に効率的
コスト：「ユーザーが何をクリックしたか」といった画面上の操作しか記録できず、「注文金額」などの深いビジネスデータは取得不可

手法3：オートトラッキング（Auto Tracking）— すべてを自動記録

アプリにSDK（「ツールキット」と理解してください）を統合すると、ユーザーのすべての操作を自動的に記録します。すべてのクリック、すべてのスワイプ、各ページでの滞在時間などです。

例えるなら、タピオカティーショップのあらゆる隅にカメラを設置し、客の一挙手一投足を記録するようなものです。

メリット：操作を見落とすことがなく、最も包括的なカバレッジ
コスト：データ量が非常に大きく、その多くが無用な情報（無意識のスワイプなど）。後でフィルタリングとクレンジングに多大な労力が必要

ステップのまとめ：トラッキング手法を選択した後、アプリは「ユーザーの操作を記録する」能力を備えました。

しかし、新たな問題があります：記録装置はユーザーの操作をキャプチャできますが、各記録装置が記録するフォーマットが異なる場合（例えば、あるものは「ユーザーID」と書き、別のものは「userID」と書き、また別のものは全く記録しない場合）、統一的分析が不可能になります。そのため、次のステップでは統一された記録フォーマットを定義する必要があります。

ステップ2：データフォーマットの設計 — 各レコードに何を含めるべきか？

前提条件：トラッキング手法（例：コードトラッキング）を選択し、アプリがユーザーの操作をキャプチャできるようになっている。

目標：統一された「記録テンプレート」を定義し、すべてのトラッキングレコードのフォーマットを統一する。

なぜ統一フォーマットが必要か？ 想像してみてください。タピオカティーショップに3人のスタッフが同時に売上を記録しているとします。1人は「小明さんがタピオカミルクティーを15元で購入」と書き、もう1人は「15、ミルクティー、タピオカ」と書き、3人目は「タピオカミルクティー1杯」と書きます。月末の集計時に、これら全く異なる記録フォーマットを整理するのは非常に苦痛です。そのため、各レコードにどのフィールドを記入しなければならないかを規定する統一された「記録フォーム」が必要です。

What"event": "add_to_cart"

Who"user_id": "u_98765"

When"time": "2025-08-12T10:33:09Z"

Where"device": "iPhone 15", "network": "5G"

What"product": "新款手机", "price": 2999

点击上方按钮，观察一条埋点记录是如何被组装出来的

核心原理：4W1H記録テンプレート

どのような操作を記録する場合でも、各データレコードは以下の5つの問いに答える必要があります（略して4W1H）：

Who — 誰がやったのか？

このレコードがどのユーザーによって生成されたかを知る必要があります。

ユーザーがログインしている場合、アカウントIDを使用（例：user_id: "zhangsan123"）
ユーザーがログインしていない場合、デバイスの一意識別子（スマホのデバイス番号など）を使用。これにより、少なくとも「同じスマホからの操作」を区別できる

When — いつやったのか？

操作が発生した正確な時間をミリ秒単位で記録します。

ここで一つ注意点：あなたのアプリに海外ユーザーがいる場合、東京時間の午後3時とニューヨーク時間の午後3時は実際には13時間異なります。混乱を避けるため、すべての時間はUTC標準時（「世界統一時間」と理解してください）に統一して変換されます。

Where & How — どのような環境でやったのか？

この部分はユーザーが操作したときのデバイスとネットワーク環境を記録し、共通属性と呼ばれます。「共通」と呼ばれるのは、ユーザーがどのような操作をしたかに関わらず、この情報が自動的に付加されるからです。例えば：

デバイスモデル：iPhone 15 / Xiaomi 14
ネットワークタイプ：WiFi / 5G / 4G
アプリバージョン：v1.2.3
オペレーティングシステム：iOS 18 / Android 15

この情報の価値：特定のデバイスモデルでのみ発生するバグが見つかった場合、共通属性が問題の迅速な特定に役立ちます。

What — 具体的に何をしたのか？

この部分は操作の具体的なビジネス詳細を記録し、カスタム属性と呼ばれます。異なる操作には異なる情報を記録する必要があります。例えば：

ユーザーが「カートに追加」をクリック：商品名、商品価格、数量を記録
ユーザーが決済を完了：注文金額、決済方法、クーポンコードを記録

ステップのまとめ：4W1Hテンプレートを通じて、ユーザーのすべての操作を統一フォーマットのデータレコードに変換しました。技術的な実装では、このレコードは通常JSONフォーマットで保存されます（JSONは汎用的なデータフォーマットで、上記のインタラクティブコンポーネントでその形式を確認できます）。

しかし、さらに別の問題があります：データフォーマットは統一されましたが、アプリのユーザー数が多い場合（例えばプロモーションイベント中、毎秒数万件のレコードが生成される可能性がある）、ユーザーのスマホでレコードが生成されるたびに即座に送信することはできません。バッテリーも通信量も消費し、サーバーも耐えられません。そのため、次のステップではより賢い送信方法を設計する必要があります。

ステップ3：送信とキャッシュ — データを安全にサーバーに届けるには？

前提条件：ユーザーのすべての操作が統一フォーマットのJSONデータとして記録されている。

目標：このデータをユーザーのスマホ（またはブラウザ）からサーバーに確実に送信し、ネットワークが不安定な場合でもデータを失わないようにする。

なぜ直接送信できないのか？ レコードが生成されるたびにネットワークリクエストを送信するのは、手紙を書くたびに郵便局に走るようなものです。極めて非効率です。より合理的なアプローチは、手紙をまとめて一度に送ることです。

📱

手机

📦

打包

🌐

发送

🚦

排队

🗄️

入库

产生数据攒一批网络传输消息队列数据仓库

核心原理：データ送信の3つの保障層

データはユーザーのスマホからサーバーに至るまで、3つの保障メカニズムを経て、効率性とデータの完全性の両方を確保します：

第1層：まとめてから送信（バッチ集約）

SDK（トラッキングツールキット）は、レコードが生成されるたびに送信するのではなく、まずスマホのメモリに一時保存します。一定数（例：30件）が溜まるか、一定時間（例：5秒）が経過すると、このバッチをパッケージ化して一括送信します。

宅配便のようなものです。買い物をするたびに配送ステーションに走るのではなく、いくつかまとめてから一緒に送ることで、時間と労力を節約します。スマホにとっては、ネットワークリクエストの回数を減らし、バッテリーと通信量を節約できます。

第2層：オフラインでもデータを失わない（ローカルストレージ）

エレベーターや地下鉄のトンネルの中など、スマホは頻繁にネットワーク信号を失います。データがメモリにしか保存されていない場合、アプリを閉じるとデータが消えてしまいます。

そのため、SDKは未送信のデータをスマホのローカルストレージに保存します（手紙を引き出しにしまうようなものです）。ネットワークが回復すると、自動的にこのデータを再送します。これにより、ユーザーが一時的にオフラインになってもデータは失われません。

第3層：サーバーを圧迫しない（メッセージキュー）

データがサーバーに到達した後、直接データベースに書き込まれるわけではありません。なぜか？プロモーションイベントなどのピーク時には、毎秒数万件のデータが一度に殺到する可能性があり、データベースがこの量を直接処理するとクラッシュする可能性があるからです。

解決策は、間に「バッファー」を追加することです。技術的にはメッセージキューと呼ばれ（一般的なツールはKafkaです）。これはレストランの順番待ちシステムのような役割を果たします。ピーク時には客（データ）が行列で待ち、厨房（データベース）は自分のペースで一つずつ処理し、一度に殺到する注文に圧倒されることはありません。

ステップのまとめ：「バッチ送信 → オフライン時のローカル保存 → メッセージキューによるバッファリング」の3つの保障により、データは安全にサーバーに到達しました。

しかし、もう一つ問題があります：再接続後にデータが自動再送されるため、同じレコードが2回送信される可能性があります。処理せずにデータベースに直接保存すると、データが重複します（例：100元の注文が2回記録され、売上高が水増しされる）。そのため、次のステップでデータを「クレンジング」する必要があります。

ステップ4：クレンジングと格納 — データを整理し、「ダーティーデータ」を除去する

前提条件：データが送信パイプラインを通じて安全にサーバーに到達している。

目標：データが正式にデータベースに保存される前に、「健康診断」を行う。重複を除去し、フォーマットの問題を修正し、最終的に保存されるデータがクリーンで正確であることを確保する。

なぜクレンジングが必要か？ 荷物を受け取った後、確認するのと同じです。重複発送はないか？誤配はないか？梱包の破損はないか？データも同様に、データベースに直接保存する前にチェックと整理が必要です。

このプロセスは技術的にETLと呼ばれ、3つの英単語の頭文字です：

Extract（抽出）：メッセージキューからデータを取り出す
Transform（変換）：データフォーマットをチェック・修正する
Load（ロード）：クレンジングされたデータをデータベースに書き込む

原始数据（服务器收到的）

id-001 userId: "zhang" add_to_cart ¥2999

id-001 userId: "zhang" add_to_cart ¥2999重复

id-002 user_id: "li" click_buy ¥0

id-003 userId: "wang" pay 1970-01-01时间异常

id-004 user_id: "zhao" click_buy ¥599

ETL 清洗

→

清洗后（写入数据仓库的）

id-001 user_id: "zhang" add_to_cart ¥2999

id-002 user_id: "li" click_buy ¥0

id-004 user_id: "zhao" click_buy ¥599

核心原理：データクレンジングの2つの主要なアクション

アクション1：重複排除 — 重複レコードを除去

前述の通り、再接続後SDKが自動的にデータを再送するため、同じレコードが複数回送信される可能性があります。どれが重複かをどうやって特定するか？

方法はシンプルです。クライアントがデータをパッケージ化する際、各レコードにグローバルに一意のID（dedup_idと呼ばれ、追跡番号のようなもの）を割り当てます。サーバーはデータを保存する前に、このIDが既に存在するかどうかをチェックします。既に存在する場合は重複データとして破棄されます。

アクション2：検証とフォーマット統一 — 非標準レコードの修正

アプリは継続的にバージョンアップされ、異なるバージョンのトラッキングコードには微妙な違いがある可能性があります。例えば：

古いバージョンはユーザーIDフィールドをuserIdと命名し、新しいバージョンではuser_idに変更
一部のレコードのタイムスタンプが明らかに異常（例：1970年と表示）
一部のフィールド値が識別不能

このステップでは、変換ルールを作成してこれらの問題を統一的に処理します。フィールド名の不一致は標準化し、タイムスタンプが異常なレコードは破棄し、識別不能な値はunknownとマークします。

ステップのまとめ：重複排除とフォーマット検証の後、データはクリーンで統一された形式でデータウェアハウスに書き込まれます（データウェアハウスは大量データの保存と分析に特化したデータベースで、ClickHouse、Hiveなどが一般的です）。データアナリストはSQL文を使用してこのデータを直接クエリし、信頼性の高い分析結果を得ることができます。

全プロセスの振り返り

収集から格納までの4ステッププロセスのまとめは以下の通りです：

ステップ	何をしたか	何が得られたか	残っている問題
1. 収集方法の選択	どのトラッキング手法を使用するかを決定	アプリが記録能力を持った	各記録装置のデータフォーマットが統一されていない
2. データフォーマットの設計	4W1Hテンプレートで記録フォーマットを統一	各レコードが標準JSON	大規模時に1件ずつ送信すると耐えられない
3. 送信とキャッシュ	バッチ送信、オフライン保存、キューバッファリング	データが安全にサーバーに到達	再試行によるデータ重複の可能性
4. クレンジングと格納	重複排除、検証、フォーマット統一	クリーンなデータがデータウェアハウスに保存	—

結論

ユーザーがアプリ内のボタンをタップするとき、表面上は一瞬の動作に過ぎません。しかし、その裏側では完全なデータパイプラインがすでに動き始めています：

トラッキングコードがこのクリックをキャプチャし、4W1Hテンプレートに従って標準レコードを生成
レコードはスマホのローカルに一時保存され、一定量が溜まるとバッチでサーバーに送信
サーバーはメッセージキューを通じて安定してデータを受信し、その後重複排除とフォーマット検証を実行
最終的に、クリーンで正確なデータレコードがデータウェアハウスに書き込まれる

これがデータトラッキングの全プロセスです。ユーザーの散在し、目に見えない操作行動を、クエリ可能で分析可能な構造化データに変換します。プロダクトマネージャーはこれを基にユーザーがどの機能を好むか、どこで離脱するかを理解できます。運用チームはキャンペーンの効果を評価でき、開発者はどのバージョンで問題が発生しているかを特定できます。

この「収集 → モデリング → 送信 → クレンジング」のシステムは、データ駆動の意思決定のための基盤インフラです。

データトラッキング：アプリ内でユーザーが何をしているかを記録する ​

ステップ1：収集方法の選択 — どこに記録装置を置くか？ ​

ステップ2：データフォーマットの設計 — 各レコードに何を含めるべきか？ ​

ステップ3：送信とキャッシュ — データを安全にサーバーに届けるには？ ​

ステップ4：クレンジングと格納 — データを整理し、「ダーティーデータ」を除去する ​

全プロセスの振り返り ​

結論 ​