歩いたら休め

なんでこんな模様をしているのですか?

2016-01-01から1年間の記事一覧

【R】絶対に身につけて欲しいR術

友人が、後輩にこちらの記事を紹介していました。 www.shiningmaru.com Excelの基本的な機能や、分析の心構えが過不足なく紹介されている素晴らしい記事だと思います!しかし、私は統計用環境のR言語が大好きで、分析のほとんどの場面で、RはExcelより簡単に…

【本】1年前の自分におすすめしたい4冊の本

エンジニアリングの技術も乏しいまま、新卒で入社して1年ちょっとくらい経ち、後輩も入ってきたので、「この本を読んどいて仕事に役立ったな/もっと早く読んでおけばよかったな」という本をまとめておくコーナーです。 うちの会社では自主性を重んじられるの…

【R】Rのライブラリ作成時に困ったこと×2

R

できるだけ簡単にRの定型作業が終わるよう、自作のライブラリを作って、簡単に引き継ぎ作業ができる状態を作りました。 (職場の優秀な先輩が、Rのコード資産を自分だけにしか使えず、定型作業をほかの人に引き継げずに闇を抱えてしまった姿を見てしまってい…

【Python】GoogleCloudVisionAPIを使って、ホットペッパーの画像で肉々しいお店を判定できないか試してみた

上司から「飲み会のセッティングよろしく!奮発したところで!」という仕事が振られたのですが、そのセッティングや予約を後回しにしてしまい、 直前になってバタバタしてしまっています。 そして、今回の反省を踏まえ、効率よくお店候補を集める方法がない…

【本】不動産について学びたいなら、不動産投資について学ぶと良いってえらい人が言ってた

最近仕事で不動産について話を聞くことが多いのですが、彼らの言ってることが分からなくてムカつくので勉強しています。 「勉強しろ」って言うのはもちろんですが、「こうすれば継続的に情報が得られるよ」「とりあえずこの辺から掘っていくといいよ」ってこ…

【Python】不動産ニュースを自動投稿するTwitterアカウント( @fds_info )を作りました

ここ最近スクレイピングで遊んで手に入れたスキルを活かして、不動産業界のニュースを通知するTwitterアカウント不動産情報共有( @fdj_info )を作りました。 当アカウントは以下のロジックで不動産ニュースを自動通知します。1. FDJ社のニュースブログ( http…

【Python】不動産業界のニュースを知るために、 http://fdj2today.exblog.jp/ で紹介されているニュースを転載するbotを作った

こちらの記事の続きです。 kiito.hatenablog.com 不動産について学ぼうとするとき、インターネット上で信頼できる情報源があまり無く、単にニュースをチェックするだけでも一苦労します。 それは、大きなお金が動く業界であり、アフィリエイトまがいの記事が…

【Python】日本の有名Pythonistaを特定するために、Twitterをネットワーク分析してオピニオンリーダーを見つけるライブラリを作った

私はプログラミング言語の中ではPythonが好きなのですが、日本人の有名なPythonistaはほとんど知りません。 そのため、Pythonの最新情報は、R言語やデータ分析に詳しい方から(主にPyData関連を)又聞きするような形でしか追えていません。 例えばGoogleで「…

【R】テキストファイルからSQLを文字列として読み込む

R

Rを使っていると、DBに接続してSQLを投げる作業がよく発生します。 すると、大抵は、RPostgreSQLなどのDBを扱うライブラリを用いてDBに接続し、 SQLの文字列を用意し、ライブラリの関数の引数に指定するというコードを書くことになります。 ただ、SQLの文字…

【Python】Web上にあるpdfのタイトルを取得する(中間報告)

不動産のことよくわかんねーって言ってる友だちがいたので、簡単なスクレイピングのプログラムを書いて、不動産の情報収集を日々行っています。 「urlを集め、htmlの<title>タグの中身(つまりページのタイトル)と一緒に表示する」というロジックです。htmlのparse</title>…

【Python】はてなキーワードAPIを使って特徴語を抽出する

最近、スクレイピングで記事を集めることにハマっているのですが、その記事の中に含まれるトピックなり特徴語なりを簡単にチェックする方法はないかと悩んでました。 例えば、音楽ナタリーから好きなバンドの記事を集めてくる際には、関連リンクのタグを取っ…

【Python】たった12行のコードで音楽ナタリーの好きなアーティストの記事をTwitterBotに通知するライブラリを作りました

github.com こんな感じのコードを24時間ごとに動かせば、人間椅子やTHE BACK HORNの記事が更新されるたび、Twitterに通知することができます。 import natalie_to_twitter as nt tw_conf = { 'token': 'your twitter access token', 'token_secret': 'your t…

【Python】簡単に音楽ナタリーの好きなアーティストの記事を集めるためのライブラリ「nataliechecker」を作りました

音楽ナタリーは素晴らしいサイトなのですが、RSSを登録していると自分の興味のないアーティストまで流れてきてしまい、ちょっと不便に感じることがあります。 そこで、ナタリーのRSSをいい感じに整形してくれるためのライブラリを作りました。 github.com cr…

【Python】最近Twitterを見る暇がないので、Twitterのリストから最新ニュースのurlを簡単に取ってくるライブラリ(らしきもの)を作った

就職して1年も経つと多少は忙しくなってしまいます。つまり、しっかりと意識して自分自身の勉強や趣味の時間を確保する必要があります。 そのため、Twitterについても今までのようにだらだらとタイムラインを眺めるような使い方はできなくなり、 Twitter業務…

【Ruby】injectでリストに値を加えていくコードで、代わりにEnumerator::Lazyを使ってPythonのジェネレーター風の遅延評価を行う

会社のRubyistが「一つの言語を極めておくと、他の言語もゴリゴリ書けるようになるって最近Go言語書いてるPerl Mongerのオッサンが言ってた」って言ってました。 私も、Pythonをある程度書けるようになってたおかげで、RubyやR言語でも迷わずにプログラミン…

【Ruby】DBからの戻り値をdplyr風に操作するleft_outer_join関数を定義したら便利だった

最近、BigQueryに解析・レポート用にデータの紐付け&クレンジングしたテーブルを入れるプログラムを実装しています。 例えば、ある学園の生徒名簿のテーブルを考えると、こんな感じになるはずです。 生徒id 名前 年齢 1 hoshimiya 17 2 ozora 13 3 kiriya 1…

【R】データベースのマスターテーブルから、重複&データの不整合のあるidを取り出すための書き捨てコード

明らかにバッドノウハウですが、関数型プログラミングのライブラリであるpurrrのサンプルコードにある data %>% split(.$カラム名) %>% purrr::map(データフレーム操作) のコンボを上手く決められたので、せっかくなのでブログに貼り付けておきます。 github…

【雑記】deepart.ioを見てると、機械学習を使ったGlitch Artみたいなのが生まれるんじゃないかと思う

要するに今日はプログラミングをサボってWEBサービスで遊んでました。 先日、「人工知能(ディープラーニング)が画像の絵柄を真似して、別の画像に適用する」というサービスが話題になってました。 ima.goo.ne.jp 人工知能が写真を元に「特定の絵柄っぽく真…

【R】Rでchatworkにメッセージを投稿するライブラリ『rChatwork』を作りました

R

時間のかかる計算が終わったときに、Chatworkに通知させたいという需要があったので、Rからchatworkに投稿するライブラリを作りました。 github.com 英語が糞なのは気にしないでください。 Pythonistaなのでクラスベースのオブジェクト指向が理解しやすいた…

【本】『文化進化論 - ダーウィン進化論は文化を説明できるか』は理系で社会科学を研究したい人に読んでほしい

『文化進化論 - ダーウィン進化論は文化を説明できるか』という本がすごく刺激的でした。 人間に関する研究と同様、生物に関する研究も多数の関連分野があります。 ところ生物の研究では異文化間の交流ができて研究が積み重なっているのに対し、 人に関する…

【R】(☞ ´。ω゜)☞ 全てのRプログラマーはLispを学ぶべきである!

R

Lispを使って、関数型言語の機能を過不足なく勉強できそうな本が発売されていました。 はじめてのLisp関数型プログラミング――ラムダ計算からリファクタリングまで一気にわかる (Software Design plus)作者: 五味弘,272出版社/メーカー: 技術評論社発売日: 20…

【Python】chatworkのAPIを叩くライブラリpychatworkを作りました

Python3.5でchatworkAPIを叩くためのライブラリを作りました。 とりあえず動くやつ作ったので色々と適当です。 github.com こちらの本が参考になりました。 Pythonプロフェッショナルプログラミング第2版作者: ビープラウド出版社/メーカー: 秀和システム発…

【Python】chatworkAPIを叩くとき、requestsライブラリを使うと楽だった

以前、こちらの記事を参考にchatworkのAPIを叩くプログラムを書いてましたが、自分のOSXのpyenvでpycurlがうまく動作せず、pyenv上のPython3系に移行させる際に不便そうでした。 qiita.com しかし、Pythonのrequestsライブラリを使うことで、更に簡単にPOST…

【R】RでPythonの"str".isdigit()みたいな操作

R

ルールに従っているidがあって、「idの冒頭2文字が数字かどうか」をチェックしたい案件がありました。 example_ids <- c("01_orange_0001001", "09_red_0001001", "aa_purple_0002002") Pythonであれば文字列のスライスとis_digitメソッドで簡単にチェックす…

【本】ハッカーニュースでよく紹介されるという『影響力の正体』など、最近読んだ本の紹介

プログラマーは休日には手を動かしてプロダクトを作るべきだと思うのですが、日本語歴のほうが長くて慣れてるので本ばかり読んでいます。 もっと自由にプログラミングできるようになりたいと思いつつ、いろいろと後回しにしてるので良くないですね。 影響力…

【Python】不動産のドメイン知識を得るために、業界の方々が紹介しているリンク集を自動投稿するブログを作った

データ分析にはドメイン知識が必須です。 せっかく一生懸命分析しても、「あ、その結果ってそうなんだよ!でもありがたいけど、当たり前すぎて役にたたないなあ…」と言われ、がんばった成果が無駄になってしまうことも度々だとか。 売上がアップしても、その…

【R】社内勉強会でRの紹介をするときの原案

R

私のいる会社はWEBサービスで成長してきた会社なので、 社内ではエンジニア≒WEBアプリケーションエンジニアという認識の人が多いです。 前任者の先輩が強力なRプログラマーで、すごい統計解析やツールを作っていたにも関わらず、 その結果が正しく理解され運…

【本】社長が薦めてた『解決!空き家問題』を読みました

社長さんがお薦めしてた本を読んでみましたのコーナーです。 うちの会社の社長さんは、あれだけいろいろな場所を飛び回っているのに、おそらくその合間にものすごい量の勉強もしていて、新しいネタを引っ張ってアレもしたいコレもしたいと言っているすごいバ…

【Python】KING OF PRISMが素晴らしかったのでテキストマイニング環境を整えてみた

みなさんは現在放映中の映画KING OF PRISM by PrettyRhythmを観ましたか? kinpri.com 2014年に放送終了した女児向けアニメプリティーリズム・レインボーライブのスピンオフで、男性キャラにフォーカスしたストーリーが展開されています。監督を始めとする、…

【Ruby】RubyでRのdplyrっぽいメソッドチェーン

今日は、RubyでDBの戻り値を集計する部分を触っていました。 DBからの戻り値は例えばこんな感じです。ここから、各アイドルグループ(soleil, luminas)ごとに平均年齢を出したいとします。 # スターライト学園のアイドルの名簿 name_list = [ {'name' => 'ich…