丸山直子氏@IPSJ_SES2011

SES_2011 @IPSJ_SES2011

丸山直子先生による基調講演がはじまります．

2011-09-13 10:03:04

Kyohei FUSHIDA @kyoheif

基調講演「日本語学とコンピュータ」（東京女子大・丸山先生） #SES2011

2011-09-13 10:04:05

Kyohei FUSHIDA @kyoheif

丸山「東京女子大は日本語学にコンピュータを比較的早くから導入している」 #SES2011

2011-09-13 10:11:08

Kyohei FUSHIDA @kyoheif

丸山「東京女子大では言語情報処理という授業を早くから行っている．使っているプログラミング言語はSNOBOL，LISP，朱唇，Perlと変わってきている」 #SES2011

2011-09-13 10:13:11

Kyohei FUSHIDA @kyoheif

丸山「80年代は自然言語処理が企業でも盛んで，言語を学んだ人が様々な企業に就職していった」 #SES2011

2011-09-13 10:16:31

Kyohei FUSHIDA @kyoheif

丸山「計量言語学の初期の研究の一部を紹介．大野の法則．作品のジャンルによって品詞の比率が違う．万葉集，随筆，物語となるに従って，名詞の数は減り，動詞の数が増える」 #SES2011

2011-09-13 10:20:59

Kyohei FUSHIDA @kyoheif

丸山「最近の文学でも品詞の比率と文章の種類の関係はわりと似ている」 #SES2011

2011-09-13 10:23:37

Kyohei FUSHIDA @kyoheif

丸山「安本による漢字はいつ無くなるかという研究．1900年から1955年の傾向では現象変更にあるので，そのまま直線で見ると2191年に無くなる．もちろんそんなことはない」 #SES2011

2011-09-13 10:25:15

NOMURA Yoshihide @yoshimov

漢字は2191年に無くなる？ワープロが普及すると逆に増えている。 #ses2011

2011-09-13 10:26:10

Kyohei FUSHIDA @kyoheif

丸山「当用漢字・常用漢字は最近増えてきている．」 #SES2011

2011-09-13 10:26:22

Kyohei FUSHIDA @kyoheif

丸山「森岡先生による研究．近代から現代にかけてのところでかな表記和語が増えている．」 #SES2011

2011-09-13 10:27:42

Kyohei FUSHIDA @kyoheif

丸山「語彙の類似度．梅の歌と桜の歌を弁別できるようになる．」 #SES2011

2011-09-13 10:31:36

Kyohei FUSHIDA @kyoheif

丸山「コーパス言語学に関する話．まずは特定領域研究の話．現代日本語書き言葉均衡コーパスを作った．1億語入ってるが，これでも小さい．」 #SES2011

2011-09-13 10:33:33

Kyohei FUSHIDA @kyoheif

丸山「日本語は他の言語に比べて，言語を獲得したと言える語彙の量が多い」 #SES2011

2011-09-13 10:34:19

Kyohei FUSHIDA @kyoheif

丸山「コーパスの構築班とコーパスの評価班に分かれてた．」 #SES2011

2011-09-13 10:35:26

Kyohei FUSHIDA @kyoheif

丸山「2010年からはコーパス日本語学の創成というのをやっている．書き言葉としては，青空文庫や先ほどのコーパスを使ってる．ただ青空文庫は結構ミスがある．卒論レベルでも使うのをためらうレベル」 #SES2011

2011-09-13 10:37:20

Kyohei FUSHIDA @kyoheif

丸山「ネットのような日々変わるようなデータは使いにくい．新潮文庫100冊を使った研究．これはよく使われている．他には新聞のデータ．国会会議録も書き言葉のコーパスとして使っている．本来は話し言葉だったものだが」 #SES2011

2011-09-13 10:38:50

Kyohei FUSHIDA @kyoheif

丸山「国会会議録はずーっと取っているので経年変化なども見え，色々重宝している．」 #SES2011

2011-09-13 10:40:14

Kyohei FUSHIDA @kyoheif

丸山「コーパスに関しては日本は遅れている．著作権の問題で遅れている．利用許諾を求めても公開を許されない場合があった．英語ではコーパスを使った辞書はあるが，日本語ではまだまだ」 #SES2011

2011-09-13 10:41:23

Kyohei FUSHIDA @kyoheif

丸山「話し言葉に関しては，日本語話し言葉コーパス，BTSによる多言語話言葉コーパスなどがある．日本語話し言葉コーパスは独話（講演など）．圧倒的に少ないのでどんどん作っていかないといけない」 #SES2011

2011-09-13 10:43:02

Kyohei FUSHIDA @kyoheif

丸山「よく使われているツール．データ抽出には，ひまわり・中納言・KH Coderなどなど．ひまわりは非常に簡単で使いやすい．使い方が難しいと使わない．ひまわりは文字列検索だが，中納言では格とかも指定して検索できる」 #SES2011

2011-09-13 10:44:42

Kyohei FUSHIDA @kyoheif

丸山「奈良先端大の茶器はとても便利だが，使うのはちょっと難しい．ちょっと難しいと誰も使わない．先ほどの領域内でもほとんど使われてくれなかった」 #SES2011

2011-09-13 10:47:02

Kyohei FUSHIDA @kyoheif

丸山「奈良先端大の茶器はとても便利だが，使うのはちょっと難しい．ちょっと難しいと誰も使わない．先ほどの領域内でもほとんど使われてなかった」 #SES2011

2011-09-13 10:47:37

kaz@33 @kaz_at_33

メモ: 国立国語研究所、書籍やブログなどから抽出した1億語の現代日本語コーパスを検索できる「中納言」を公開 http://t.co/aoYEyb9 #ses2011

2011-09-13 10:47:41

Kyohei FUSHIDA @kyoheif

丸山「データ解析系では，茶筅やJuman，MeCab．KNP，Cabochaなどを使っている」 #SES2011

2011-09-13 10:48:26

いま話題のタグ