丸山「東京女子大では言語情報処理という授業を早くから行っている.使っているプログラミング言語はSNOBOL,LISP,朱唇,Perlと変わってきている」 #SES2011
2011-09-13 10:13:11丸山「計量言語学の初期の研究の一部を紹介.大野の法則.作品のジャンルによって品詞の比率が違う.万葉集,随筆,物語となるに従って,名詞の数は減り,動詞の数が増える」 #SES2011
2011-09-13 10:20:59丸山「安本による漢字はいつ無くなるかという研究.1900年から1955年の傾向では現象変更にあるので,そのまま直線で見ると2191年に無くなる.もちろんそんなことはない」 #SES2011
2011-09-13 10:25:15丸山「コーパス言語学に関する話.まずは特定領域研究の話.現代日本語書き言葉均衡コーパスを作った.1億語入ってるが,これでも小さい.」 #SES2011
2011-09-13 10:33:33丸山「2010年からはコーパス日本語学の創成というのをやっている.書き言葉としては,青空文庫や先ほどのコーパスを使ってる.ただ青空文庫は結構ミスがある.卒論レベルでも使うのをためらうレベル」 #SES2011
2011-09-13 10:37:20丸山「ネットのような日々変わるようなデータは使いにくい.新潮文庫100冊を使った研究.これはよく使われている.他には新聞のデータ.国会会議録も書き言葉のコーパスとして使っている.本来は話し言葉だったものだが」 #SES2011
2011-09-13 10:38:50丸山「コーパスに関しては日本は遅れている.著作権の問題で遅れている.利用許諾を求めても公開を許されない場合があった.英語ではコーパスを使った辞書はあるが,日本語ではまだまだ」 #SES2011
2011-09-13 10:41:23丸山「話し言葉に関しては,日本語話し言葉コーパス,BTSによる多言語話言葉コーパスなどがある.日本語話し言葉コーパスは独話(講演など).圧倒的に少ないのでどんどん作っていかないといけない」 #SES2011
2011-09-13 10:43:02丸山「よく使われているツール.データ抽出には,ひまわり・中納言・KH Coderなどなど.ひまわりは非常に簡単で使いやすい.使い方が難しいと使わない.ひまわりは文字列検索だが,中納言では格とかも指定して検索できる」 #SES2011
2011-09-13 10:44:42丸山「奈良先端大の茶器はとても便利だが,使うのはちょっと難しい.ちょっと難しいと誰も使わない.先ほどの領域内でもほとんど使われてくれなかった」 #SES2011
2011-09-13 10:47:02丸山「奈良先端大の茶器はとても便利だが,使うのはちょっと難しい.ちょっと難しいと誰も使わない.先ほどの領域内でもほとんど使われてなかった」 #SES2011
2011-09-13 10:47:37メモ: 国立国語研究所、書籍やブログなどから抽出した1億語の現代日本語コーパスを検索できる「中納言」を公開 http://t.co/aoYEyb9 #ses2011
2011-09-13 10:47:41丸山「データ解析系では,茶筅やJuman,MeCab.KNP,Cabochaなどを使っている」 #SES2011
2011-09-13 10:48:26