丸山直子氏@IPSJ_SES2011

丸山直子氏が、コーパスなどについて講演。
2
SES_2011 @IPSJ_SES2011

丸山直子先生による基調講演がはじまります.

2011-09-13 10:03:04
Kyohei FUSHIDA @kyoheif

基調講演「日本語学とコンピュータ」(東京女子大・丸山先生) #SES2011

2011-09-13 10:04:05
Kyohei FUSHIDA @kyoheif

丸山「東京女子大は日本語学にコンピュータを比較的早くから導入している」 #SES2011

2011-09-13 10:11:08
Kyohei FUSHIDA @kyoheif

丸山「東京女子大では言語情報処理という授業を早くから行っている.使っているプログラミング言語はSNOBOL,LISP,朱唇,Perlと変わってきている」 #SES2011

2011-09-13 10:13:11
Kyohei FUSHIDA @kyoheif

丸山「80年代は自然言語処理が企業でも盛んで,言語を学んだ人が様々な企業に就職していった」 #SES2011

2011-09-13 10:16:31
Kyohei FUSHIDA @kyoheif

丸山「計量言語学の初期の研究の一部を紹介.大野の法則.作品のジャンルによって品詞の比率が違う.万葉集,随筆,物語となるに従って,名詞の数は減り,動詞の数が増える」 #SES2011

2011-09-13 10:20:59
Kyohei FUSHIDA @kyoheif

丸山「最近の文学でも品詞の比率と文章の種類の関係はわりと似ている」 #SES2011

2011-09-13 10:23:37
Kyohei FUSHIDA @kyoheif

丸山「安本による漢字はいつ無くなるかという研究.1900年から1955年の傾向では現象変更にあるので,そのまま直線で見ると2191年に無くなる.もちろんそんなことはない」 #SES2011

2011-09-13 10:25:15
NOMURA Yoshihide @yoshimov

漢字は2191年に無くなる?ワープロが普及すると逆に増えている。 #ses2011

2011-09-13 10:26:10
Kyohei FUSHIDA @kyoheif

丸山「当用漢字・常用漢字は最近増えてきている.」 #SES2011

2011-09-13 10:26:22
Kyohei FUSHIDA @kyoheif

丸山「森岡先生による研究.近代から現代にかけてのところでかな表記和語が増えている.」 #SES2011

2011-09-13 10:27:42
Kyohei FUSHIDA @kyoheif

丸山「語彙の類似度.梅の歌と桜の歌を弁別できるようになる.」 #SES2011

2011-09-13 10:31:36
Kyohei FUSHIDA @kyoheif

丸山「コーパス言語学に関する話.まずは特定領域研究の話.現代日本語書き言葉均衡コーパスを作った.1億語入ってるが,これでも小さい.」 #SES2011

2011-09-13 10:33:33
Kyohei FUSHIDA @kyoheif

丸山「日本語は他の言語に比べて,言語を獲得したと言える語彙の量が多い」 #SES2011

2011-09-13 10:34:19
Kyohei FUSHIDA @kyoheif

丸山「コーパスの構築班とコーパスの評価班に分かれてた.」 #SES2011

2011-09-13 10:35:26
Kyohei FUSHIDA @kyoheif

丸山「2010年からはコーパス日本語学の創成というのをやっている.書き言葉としては,青空文庫や先ほどのコーパスを使ってる.ただ青空文庫は結構ミスがある.卒論レベルでも使うのをためらうレベル」 #SES2011

2011-09-13 10:37:20
Kyohei FUSHIDA @kyoheif

丸山「ネットのような日々変わるようなデータは使いにくい.新潮文庫100冊を使った研究.これはよく使われている.他には新聞のデータ.国会会議録も書き言葉のコーパスとして使っている.本来は話し言葉だったものだが」 #SES2011

2011-09-13 10:38:50
Kyohei FUSHIDA @kyoheif

丸山「国会会議録はずーっと取っているので経年変化なども見え,色々重宝している.」 #SES2011

2011-09-13 10:40:14
Kyohei FUSHIDA @kyoheif

丸山「コーパスに関しては日本は遅れている.著作権の問題で遅れている.利用許諾を求めても公開を許されない場合があった.英語ではコーパスを使った辞書はあるが,日本語ではまだまだ」 #SES2011

2011-09-13 10:41:23
Kyohei FUSHIDA @kyoheif

丸山「話し言葉に関しては,日本語話し言葉コーパス,BTSによる多言語話言葉コーパスなどがある.日本語話し言葉コーパスは独話(講演など).圧倒的に少ないのでどんどん作っていかないといけない」 #SES2011

2011-09-13 10:43:02
Kyohei FUSHIDA @kyoheif

丸山「よく使われているツール.データ抽出には,ひまわり・中納言・KH Coderなどなど.ひまわりは非常に簡単で使いやすい.使い方が難しいと使わない.ひまわりは文字列検索だが,中納言では格とかも指定して検索できる」 #SES2011

2011-09-13 10:44:42
Kyohei FUSHIDA @kyoheif

丸山「奈良先端大の茶器はとても便利だが,使うのはちょっと難しい.ちょっと難しいと誰も使わない.先ほどの領域内でもほとんど使われてくれなかった」 #SES2011

2011-09-13 10:47:02
Kyohei FUSHIDA @kyoheif

丸山「奈良先端大の茶器はとても便利だが,使うのはちょっと難しい.ちょっと難しいと誰も使わない.先ほどの領域内でもほとんど使われてなかった」 #SES2011

2011-09-13 10:47:37
kaz@33 @kaz_at_33

メモ: 国立国語研究所、書籍やブログなどから抽出した1億語の現代日本語コーパスを検索できる「中納言」を公開 http://t.co/aoYEyb9 #ses2011

2011-09-13 10:47:41
Kyohei FUSHIDA @kyoheif

丸山「データ解析系では,茶筅やJuman,MeCab.KNP,Cabochaなどを使っている」 #SES2011

2011-09-13 10:48:26