読者です 読者をやめる 読者になる 読者になる

歩いたら休め

If the implementation is easy to explain, it may be a good idea.

【オープンデータ】Wikipediaのアクセス統計データが公開されているらしい

自分用のメモ。ほぼ引用。

自由に使える巨大なWebログデータはないの? - 株式会社ネクスト エンジニアBlog

 

「巨大なWebログデータを実際に触ってみたい」という人は多いものの、既にゴリゴリ解析している会社の人以外はあまり試せないのが現状です。大学や研究機関でもけっこう困っている人が多く、企業と秘密保持契約をした上での研究が多いそうです。

しかし、「どういうものか触ってみたい」人にとって契約する敷居は高いと思われます。そこで、「手軽に利用できる巨大なWebログデータ」として、上記のブログでWikipediaアクセスログデータが提案されています。

Wikipediaのアクセス統計データは、そのような条件をある程度満たすかもしれません。前述のAWS Public Data Setsにも同じデータが含まれています。ただ、S3ではなくEBSスナップショットでの公開なので、Elastic MapReduceではちょっと使いにくそうです。また、できれば最新のデータで試したいところですが、あいにく2010年現在のデータであり、更新されていないようです。

現在、AWS S3での公開の準備が進められている&解析結果を公開準備されているそうです。AWSがよくわからないのですが、ネクスト社以外の人も簡単にアクセスできる形で公開されるのでしょうか?

現在、Wikipediaのアクセス統計データのS3上での公開の準備を進めています。次回以降の記事で、データの利用方法や、実際に解析してみた結果などを紹介していきたいと思います。ご期待ください!

実際に現在公開されている形のWikipediaのアクセスログデータを見てみましたが、どういうフォーマットなのか私はいまいち理解できていません。AWS S3でどのような形で公開されるのか注目しています。