« タグクラウドもしくはワードクラウドの練習 | トップページ | 東方書店で『中国質屋業史』を購入 »

2018.05.17

タグクラウドもしくはワードクラウドの練習(続)

Rを使ってワードクラウド(タグクラウド)を作る練習の第2弾。

今回は文章(テキストデータ)を使って,その中のキーワードを抽出し,タグクラウドで出現回数を表示してみる。

まず,今回,対象とするテキストは今まで翻訳に取り組んできた(参照):

ウィンストン・チャーチル『マラカンド野戦軍物語』

の全文である。テキストデータはグーテンベルク・プロジェクトのページから手に入る:

"The Story of the Malakand Field Force: An Episode of Frontier War by Churchill"

テキストデータをダウンロードしたら,次は保存先に注意。

Rのワーキングディレクトリの下に"corpus"というディレクトリを作り,さらにその中に"target"を作っておき,この"target"ディレクトリの中に保存する。

そしてRを立ち上げて,以下の通り作業に移る:


<パッケージの読み込み>

まず,パッケージを読み込む。


<テキストデータの読み込み>

つぎに,分析対象とするテキストデータを読み込む。今回は"./corpus/target"の中に保存したので,そのディレクトリに到達できるようにパスを設定する。

そして,そのテキストデータをもとに「コーパス」を作る。コーパスは"docs"というオブジェクトに保存される:


<コーパスの整形>

次に,コーパス内のデータを整形する。例えば,"/"とか"@"とかいった記号を半角スペースに変換したり,大文字を小文字にしたり,"a"とか"the"とか"I"とか,頻出する単語を削ったりする。


<コーパスの構造化>

コーパスを構造化して,wordcloud関数が読めるようにする。


<ワードクラウドの作成>

単語とそれぞれの登場回数をまとめたデータフレームを作り,それをwordcloud関数に読み込ませて,ワードクラウドを作成する。

さて,こういうのができたら完成:


Malakandwordcloud

"enemy"がトップ。そして軍人の階級やら兵科やらの単語が良く登場する。やはり戦記物らしい結果。

|

« タグクラウドもしくはワードクラウドの練習 | トップページ | 東方書店で『中国質屋業史』を購入 »

R」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: タグクラウドもしくはワードクラウドの練習(続):

« タグクラウドもしくはワードクラウドの練習 | トップページ | 東方書店で『中国質屋業史』を購入 »