« ネパール語の比較表現 | トップページ | タグクラウドもしくはワードクラウドの練習(続) »

2018.05.16

タグクラウドもしくはワードクラウドの練習

今頃知ったのだが,キーワードの出現回数を文字の大小で表現するグラフのことを「タグクラウド」もしくは「ワードクラウド」と呼ぶのだそうだ。こういうやつ:

Wordcloud_2

多分,"R"でできるだろうと思って,調べてみると,"wordcloud"というパッケージを使えばできることがわかった。

そこで,ちょっと練習してみる。


◆   ◆   ◆


こういう例題を考えてみた:

alpha, beta, gamma, deltaという4つのキーワードがある。
ある文章中に,それぞれ40回,30回,20回,10回出現した。
これをワードクラウドで表現してみよう。

まず,R上で,alpha, beta, gamma, deltaの出現回数をまとめたデータフレームを作ってみる(参考:"R-Source 39. データフレーム事始")。

すると,こんなデータフレーム"dd"ができる。

つぎに,"wordcloud"というパッケージを呼ぶ。これはRに初めから入っているわけではないので,あらかじめどこかのサイトからパッケージをインストールする。そしてライブラリーから読み込む。

すでにデータフレーム"dd"ができているので,これを関数"wordcloud"に放り込めばいい。

すると,こんなワードクラウド(タグクラウド)が表示されるはず(並び方は実行する度にランダムに変わる):

Wordcloud000

フォントの大きさが出現回数の多さを表している。

さて,このワードクラウド,黒一色で面白くない。そこで,色の指定をしてみる。まずは,グレースケール。

出現回数が少ないほど,色が薄くなる設定の4段階のグレースケールである。先ほどの関数"wordcloud"に,色指定のパラメータを加えてみる:

実行すると,こんな感じになる:

Wordcloud00

今度はヒートカラー「黄色→オレンジ→赤→濃赤」という指定をして実行してみる:

実行すると,こんな感じ:

Wordcloud01

ということで,wordcloudの最も簡単な例題終了。

近いうちに,自然言語処理をしてワードクラウド(タグクラウド)を作ってみる。

予習用資料:
"Build a word cloud using text mining tools of R"
R言語で小説を読もう累計1位の「無職転生- 異世界行ったら本気だす - 」をタグクラウドしてみた。

|

« ネパール語の比較表現 | トップページ | タグクラウドもしくはワードクラウドの練習(続) »

R」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: タグクラウドもしくはワードクラウドの練習:

« ネパール語の比較表現 | トップページ | タグクラウドもしくはワードクラウドの練習(続) »