140 likes | 401 Views
JEFLL Corpus. http://scn02.corpora.jp/~jefll03/jefll_top.html. TGU Learner Corpus を母体 Japanese EFL Learner Corpus 異なる学習段階 自由英作文データ 自発的 辞書なし 広範囲 大量. 2007年4月現在 全ファイル数 [ 作文数) 20,038 総語数 669,304語 6段階 中学 1 2 3 高校 1 2 3 学校レベル 高 中 低
E N D
JEFLL Corpus http://scn02.corpora.jp/~jefll03/jefll_top.html
TGU Learner Corpusを母体 • Japanese EFL Learner Corpus • 異なる学習段階 • 自由英作文データ 自発的 辞書なし • 広範囲 • 大量
2007年4月現在 • 全ファイル数[作文数) 20,038 • 総語数 669,304語 • 6段階 中学 1 2 3 高校 1 2 3 • 学校レベル 高 中 低 • 学校の種類 国立 公立 私立
論説文 自分の意見を論理的に述べる • 朝ご飯はパンがいいかご飯がいいか • 大地震が来たら何を持って逃げますか • お年玉○万円をもらったら、何を買いますか • 叙述文 物語や経験を記述 • あなたの学校の文化祭について教えてください • 浦島太郎のその後について想像して書きなさい • 今まで見た怖い夢について教えてください
実施方法 • 授業時間内 • 20分 • 辞書の使用不可 • 指示文とモデル英文が提示される • 日本語の使用が可
長所 • 初級・中級学習者の英語習得データとして世界最大 • 日本の英語教育環境に密着したデータ • 英作文タスクが明確に制御されているため「雑文」集まりでない • 日本語が混在しているので、ユニークな視点での調査が可能
短所 • サブコーパスに隔たりがある • 作文トピックが限定されているので、トピックの影響が強い • 20分の制限時間で書くので、作文が短い • 日本語が混在するので英語で何とか表現しようと努力する部分が見えにくい
言語注釈 • 文区切り • 単語情報 • 品詞情報 • 見出し語情報
コロケーション情報やエラー情報 • 不規則動詞の習得プロセス • 文法形態素の習得順序 • 品詞n-gramの連鎖 • 各レベルの語彙分析 • 名詞句の発達 • エラー分析