1 | 都合の上で、詳しいレポートの公開は伏せさせていただきます。 |
1. 目的
とある海外の日本ゲーム海賊版ダウンロードサイトの新規ユーザーの登録数推移を判明したい。
そして、全部ユーザーのアカウントレベルや活躍のユーザー数などの情報も判明したい。
2. 方式
2.1. データ収集
データ収集はpython
で並列収集を行います。スレッドの数は10に設定しました。
自分が所有しているVps
で、三台同時にデータ収集を行いました。
具体な手順はユーザーページを取得し、DOM解析ライブライBeautiful Soup
でページを解析し、必要のデータを抽出します。
2.2. データ保存
ユーザー数はそこまで多くありませんので(20万以下)、今回はredis
を使わずに、収集したデータをそのままmysql
に保存します。
2.3. データ可視化
PowerBI
で行います
3. 結果
- プロジェクトが実行された時点(2017年10月)で、そのサイトのユーザー数は計15万ぐらいです。
成果の一つとして、そのサイトが建てられた時(2004年)から、2017年までのユーザー登録数推移を判明しました。下の図はその登録数の推移です。
この図から分かるように、眼立つくらいに、2016年8月21日と2017年7月28日に各千人以上の新規ユーザーがそのサイトに登録しました。
詳しく調査した結果は、- 2016年8月21日はPS Vitaがハッキングされた日です。そして、PS Vitaをハッキングしたハッカーはツールをそのサイトに公開しました。
- 2017年7月28日はとある名作の発売日です。
また、ユーザーのランク分布や発言数の統計などもしました。こちらは都合の上で、詳しいレポートの公開は伏せさせていただきます。もしレポートに興味がありましたら、個人情報ページのメールで私に連絡してください。