歩いたら休め

If the implementation is easy to explain, it may be a good idea.

自然言語処理

【情報検索】文章スコアのTF-IDFとBM25についてポインタを残しておく

OSSの検索エンジンであるSolr/Luceneの勉強会に行っていました。 solr.doorkeeper.jp この中の発表『Solrで多様なランキングモデルを活用するためのプラグイン開発』で、 SimilarityにはTF-IDFとBM25の二種類あり、Solr6からはBM25がデフォルトになっている …

【自動要約】海外のニュースを自動で要約して翻訳して、自動でまとめてくれるプログラムを書ければいいなあ

海外のニュースを簡単に通知できないか試そう(試したい)という記事です。 国内の業界ニュースは当然追っているにせよ、海外に面白い動きがあるのに、全然把握できていないことは多々あります。 とはいえ、私は英語が得意ではないため、自分の興味のあるニ…

【R】weblioの住宅用語辞典をスクレイピングして住宅関連の単語のcsvを作る

自然言語処理をやっている人はよく辞書の整備が大変だと言います。 そんな話をしていたところ、「自分が詳しくない分野の言葉を知るときはweblio辞書が便利だよ」という知見を教えてもらいました。 www.weblio.jp しかし、私は怠惰なプログラマーなので、ス…

【Python】はてなキーワードAPIを使って特徴語を抽出する

最近、スクレイピングで記事を集めることにハマっているのですが、その記事の中に含まれるトピックなり特徴語なりを簡単にチェックする方法はないかと悩んでました。 例えば、音楽ナタリーから好きなバンドの記事を集めてくる際には、関連リンクのタグを取っ…

【Python】R言語を勉強するために「言語処理100本ノック」をPythonで解いてみる

会社の先輩から「これ使ったらいい感じにデータ取ってこれるよ」と渡されたものが、 dplyrとかstringrとかよくわからないパッケージをガンガン導入した自由奔放なRのコードで困っています。 R言語自体にも慣れていないため、 「コードを使って何を表現したい…

【考え中】自動で物語(二次創作SS)を生成するプログラムを考え中

自動で物語を作るプログラムを作る妄想をしています。 世界中の民話や神話に類型が見られるという話はよく聞きます。例えばギリシャ神話のオルフェウスと日本神話のイザナギの話に類似点が多く、その他にも世界中に黄泉の国に下るストーリーの神話があるそう…

【データサイエンス】Facebookのユーザー約70万人のニュースフィードを操作したエグい社会実験

Experimental evidence of massive-scale emotional contagion through social networks この論文の話です。 読書日記: 読了: Kramer, Guillory, Hancock (2014) Facebook上での感情感染 Facebook、ユーザー約70万人のニュースフィードを操作した実験結果論…

【Python】nltkでロシア語の自然言語処理ができないか調査中、とりあえず歌詞の頻出単語ランキング

主に参考にしたのはこの記事 映画「The Social Network」の脚本をNLTKで解析して遊んでみた - ぬいぐるみライフ(仮) ロシア語でも基本的に同じことができると思います。Pythonでやるならこの本が非常に参考になるでしょう(英語&日本語でやってます)。 入…

【Python】魔法少女まどか☆マギカ考察Wikiの各話別台詞集をpandasのデータフレームに変換する

@Med_KUさんがラブライブ各話のキャラに向けたセリフのネットワークを描いてらしたので、同じことをPythonでもできないかと画策中。 (余裕があったらやりたいですが)さすがにアニメ全話見返してセリフを写経する時間は無いので、魔法少女まどか☆マギカ考察…