« 個人データ保護とは何? ① | トップページ | 個人データ保護とは何? ③ »

2020年1月30日 (木)

個人データ保護とは何? ②

続き:

 

閲覧履歴からのプロファイリング

 内定辞退の予測はどのようにして行われたのか。リクナビの発表等によれば。就活生がウエブサイトを閲覧したときにサーバーに記録される閲覧履歴を用いて予測したという。

 例えば、高木(筆者)の思いつきで言えば、複数の企業の募集情報を閲覧している就活生は本命は他にあるかもしれないとの仮説や、閲覧の多い企業が偏っている就活生の本命はその業種にあるとの仮説等が成り立ち得るように思える。

 リクナビは、そうした思いつきの仮説を用いるのではなく、前年度の実績を基にした機械学習によって自動的に予測モデルを構築したようだ。これを実現するために、予測データ購入する契約をした求人企業から前年度の内定辞退者のリストの提供を受けたという。これを前年度の就活生の閲覧履歴と掛け合わせて機械学習させて予測モデルを構築すれば、そこに今年度の就活生の閲覧履歴を入力することによって、それぞれの就活生ごとに、当該求人企業が内定を出した場合の辞退可能性の高低が数値で出力されるというわけである。

 就活生の閲覧履歴はどのようにして集められていたのか。リクルートキャリア社の会見での回答によれば、グループ会社であるリクルートコミュニケーションズ社のDMP(Data Management Platform) サービスに集積させていたという。

 「DMP」とは、元々は、ウェブ広告において行動ターゲティング広告(閲覧者の関心に合わせて配信される広告)を実現するための広告技術(アドテク)の一部で、閲覧者の関心を推定するために、閲覧者のウェブ閲覧履歴を集積するデータベースを指す用語。一般に、人々が、ウェブサイトを閲覧すると、DMP事業者のデータベースに当該ウェブサイトを閲覧したとの履歴が記録されることがある。これは、当該ウェブサイトに当該DMP事業者の「計測タグ」が設置されている場合に起きる。計測タグの設置は、DMP事業者がウェブサイト運営者に依頼して(報酬を支払うなどして)行わせるか、ウェブサイト運営者が自ら進んで(報酬を目当てに)行っている。すべてのウェブサイトがカバーされているわけではないが、1つのDMPに何千、何万のウェブサイトが「繋がった」形でネットワークを構成している。リクルートコミュニケーションズ社のDMPもその1つであったようである。

 同社のDMPにいくつのウェブサイトが繋がっていたかは明らかにされていないが、その全部を用いれば、閲覧者の関心事を事細かく推定できそうである。しかし、リクナビの発表では、「『リクナビ』上での閲覧・行動履歴から、当該契約企業に対する応募行動についての予測モデルを作成」とされており、全部を用いていたわけではないようである。リクナビの「プライバシーポリシー」のページ上には、「本サービスまたは当社と提携するサイトから取得した行動履歴等」を用いると説明されており、「提携するサイト」には、リクナビ以外のリクルートキャリア社が運営するサイト「ATND」(イベント情報の告知・参加登録のサービス)と「CodeIQ MAGAZINE」(IT技術者向けのメディア)が列挙されているほか、他社が運営するサイト「外資就活ドットコム」が示されている。そこには「予告なく追加または削除する可能性があります」と書かれており、提携サイトを随時増やすことを予定していたようである。

 こうした履歴が誰の閲覧であるかは、通常、ウェブの「Cookie」――仕組みを用いて管理される。初回閲覧時に乱数で生成した識別番号(ID)をCookieに記憶させ閲覧者のブラウザを識別することによって、ブラウザごとの閲覧履歴が蓄積されるようになっている。「ブラウザごと」と言っても、実際には、そのブラウザを使用するのは通常は一人であるから、結果的に、ブラウザの使用者である閲覧者を間接的に識別していることになる。

 一般に、DMP事業者自身は、通常、閲覧者の氏名を保有しない。そのため、日本の個人情報保護法の下では、個人データ(個人情報)に該当せず、同法の規制が及ばないと考えられている。

 本件で問題となるのは、氏名がないのにどうやってこの閲覧履歴を就活生本人に紐付けて使用するかである。会見での回答と日経新聞が一部を掲載した内部資料によれば、求人企業が自社への応募者である就活生に対してダミーのアンケートを取るよう、リクナビが促しており、アンケートのウェブサイトにも前記と同じ「計測ナビ」を埋め込んでおき、かつ、アンケートのウェブサイトに誘導するURLの末尾に、求人企業が管理している就活生の識別番号(uid)を密かに埋め込むよう、求人企業に指示していたようである。就活生がこのアンケートの罠に引っかかり回答すると、DMPに蓄積された閲覧履歴がどのuidと同一人ものかを突合することができるようになる。uidごとに辞退予測のスコアを算出し販売すれば、求人企業側でどの就活生のスコアか識別できるというわけである。

 アンケートから、改めて利用規約を示して形式的な同意を得るように工夫されていたようであるが、アンケートの真の目的がこのような識別番号と閲覧履歴の突合にあることが明示されていたかは明らかになっていない。

« 個人データ保護とは何? ① | トップページ | 個人データ保護とは何? ③ »

日記・コラム・つぶやき」カテゴリの記事