ジョンとヨーコのイマジン日記

想像してください。「あなたはぼくをプラグマティストだと言うかもしれない」と歌う、逆イマジンです。

R

R: 散布図の点が多すぎると感じるときに試すこと

R

散布図の点の数が多すぎると次のような問題を感じることがある。 点が重なりまくる 描画が遅い library(ggplot2) #ggplot2 の diamonds データを例に使う plot(price~carat, data=diamonds) これらへの簡単な対処法として、pch="." を指定して点を小さくする…

ポアソン分布の2つの起源;島谷(2017)から

R

趣旨:島谷健一郎『ポアソン分布・ポアソン回帰・ポアソン過程』(近代科学社;以下ではポアソン3と略記する)は、最初「トピックを絞ったおもしろい読みもの」的な内容だと思っていたが、読み直すたびに評価が上がってきて、全体的に統計学入門にいいのでは…

尤度比検定:Rによる計算例

R

モチベーション:尤度比検定をベイズ版と普通のやつ(?)で比べてみたい ネイマン・ピアソンの補題 ネイマン・ピアソンの補題は数理統計の本にはよく出ている(たとえば竹村『現代数理統計学』). 新装改訂版 現代数理統計学作者:彰通, 竹村学術図書出版社A…

ポリア・ガンマ分布と負の二項分布を用いたポアソン回帰の近似的なギブスサンプラー

R

準備 多項ロジスティック回帰について ポリア・ガンマ分布を用いた多項ロジスティック回帰のギブスサンプラー - ジョンとヨーコのイマジン日記 に書いた. たぶんこちらを先に読んだほうがいい. ここではポアソン回帰, つまり次のモデルを考える. ところで, …

身長や体重の分布は正規分布か

R

はじめに:身長の分布 身長の分布が正規分布っぽくなるというのはよく言われる。 ためしに、 学校保健統計調査-令和2年度(確定値)の結果の概要:文部科学省 から高校生男子17歳の身長の分布を持ってきて図示してみる。 保険統計調査のエクセルの表は1cm刻…

ポリア・ガンマ分布を用いた多項ロジスティック回帰のギブスサンプラー

R

ポリア・ガンマ分布 まず Polson et al. (2013, [1205.0310] Bayesian inference for logistic models using Polya-Gamma latent variables) の主な結果を紹介する. ポリア・ガンマ分布の密度関数を とすると, が成り立つ. ポリア・ガンマ分布というのは, あ…

シグモイド型成長曲線のパラメータを閉じた形で最尤推定する

R

モデル 次のような確率モデルを考える.ここで は差分を意味する記号であり, を表す. また は試行回数パラメータ , 成功確率パラメータ の二項分布を表し, 記号 (実は読み方を知らない. 「チルダ」でいいのか?)は左辺の が右辺の二項分布に従う確率変数で…

変な形の尤度関数をプロットする

R

とりあえずプロット 例1: 混合正規分布 例2: 非線形回帰 例3: ガンマ分布 R のコード 参考文献 最尤推定の基礎 とりあえずプロット 例1: 混合正規分布 モデルとして次の分布を考える. (この例は『ベイズ統計の理論と方法』に出てくる.) ここで は平均0, 分…

p 値関数のアニメーション

R

前置き この文書は統計的仮説検定とかを一度は学んだことがある人向けに書いている. 小ネタです.オリジナリティのない教科書がそうであるように, 1標本の t 検定を例にとることをお許しください. プロット; 信頼区間 t 検定では, 統計モデルとして正規分布を…

SQLiteのためのメモ(Rユーザーであり、かつMacユーザーである人向け)

R

SQLiteは小規模なデータに適したデータベースとされる。 長所:始めるのが簡単 短所:大規模なデータに向かない どの程度までが小規模なデータなのかはよくわからないが、SQLiteでなにか困ることがあれば、そのとき代替(MySQL, PostgreSQL, Google BigQuery…

検定いらずのABテスト:ポアソン分布とベータ分布によるサンプルサイズ設計

R

多くのABテストではクリック数やコンバージョン数などのカウントデータを比較します。ABテストで問題になるのが、 どのくらい差があれば、十分「Bのほうが良さそう」と判断できるのか どのくらいのデータ(クリック数やコンバージョン数)がたまるまでまてば…

トピックモデル(GaP; Gamma-Poisson Model)の ELBO の導出

R

ここでは [math/0604410] Discrete Component Analysis の Gamma-Poisson モデル(GaP)の ELBO (evidence lower bound) を導出する。まず、行列の分解がトピックモデルの一種として解釈できること説明する。次に、モデルのパラメータ推定方法について述べる…

区間打ち切りデータの最尤推定のシミュレーション:JuliaとR

Julia です。 @time using Optim @time using Distributions @time using StatsFuns function make_dat_gamma0(n,a,b) t = rand(Gamma(a,b),n) E_len = rand(Exponential(),n) u = rand(n) E_R = t - E_len .* (1.0.-u) E_L = t + E_len .* u E_L, E_R end f…

変分ベイズで RFM 指標から顧客生涯価値を計算してみる

R

モデルと尤度 RFM 指標から将来の購買回数を予測する Pareto / NBD モデルから派生したモデルに BG / NBD モデルがあります。Pareto / NBD モデルより計算がかんたんです。モデル: 顧客の購買はレート の定常ポアソン過程に従う 顧客の購買のたびに確率 で…

ggplot2でヒストグラムを箱ひげ図風に並べてプロットするパッケージggbrickを書いている

R

これです:GitHub - abikoushi/ggbrick: An R package for brick plotggtetrisって名前にしようかと思ったんだけど、もうある(GitHub - EmilHvitfeldt/ggtetris: Create Tetris Chart Visualizations in R)みたいなので、ggbrickにしました。brickはレンガ…

藤原香織、渡辺澄夫(2006)ベイズ尤度比検定による変化点検出のシミュレーション

R

これです:http://watanabe-www.math.dis.titech.ac.jp/users/fujiwara/doc/fujiwara_ibis2006.ppt.pdfこの研究成果は論文化されているようですが, オープンアクセスではないみたいです:https://search.ieice.org/bin/summary.php?id=j91-d_4_889&category=…

ggplot2 で floating bar chart を書く R のパッケージ ggfloatbar を作っている

R

GitHub - abikoushi/ggfloatbar: Floating bar chart on ggplot2です。インストールは devtools::install_github("abikoushi/ggfloatbar") でたぶんいけます。たぶんまだ不具合とかあると思うし、説明とかぜんぜん書いてないです。なにか要望とか意見、感想…