歩いたら休め

If the implementation is easy to explain, it may be a good idea.

【オープンデータ】様々なテストに使えそうなオープンデータまとめサイトを教えてもらいました

画像認識、自然言語処理、ネットワークなどの様々な解析のテストに使えそうなオープンデータについてのまとめサイトを教えてもらいました。

>>DataSet - 機械学習の「朱鷺の杜Wiki」

 

この中から、Stanford Large Network Dataset Collectionの中から、Facebookユーザー約4千ノード(人)のデータを使ってネットワークを書いてみました。

ココで公開されているSNAPというパッケージも試してみたかったのですが、なぜかインストールできなかったので断念。python+networkxで読み込んで、Gephiで描画してみました。facebook_combined.txt.gzが枝リストの形式で扱いやすいです。

 

ただ、ネットワーク構造のデータのみなので、他の属性(性別、年齢など)を絡めた分析はできなさそうです。

ただし、ソーシャルだけでなく道路やAmazonのデータもあるようなので、ネットワークどうしの比較などを試してみたら面白そうです。

 

f:id:takeshi0406:20140426181814p:plain

 

他にもこういうまとめもあります。

>>大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記

>>日本の全エンジニアに捧ぐ!現在公開されているAPI一覧【2013年版】 | Find Job ! Startup