Research Notes

専門は、応用言語学・外国語教育学。特にライティングの指導と評価に関心を持っています。

The Cambridge Handbook of Learner Corpus Researchのまとめ

下記の本が昨年末に出版されました。

 

The Cambridge Handbook of Learner Corpus Research (Cambridge Handbooks in Language and Linguistics)

The Cambridge Handbook of Learner Corpus Research (Cambridge Handbooks in Language and Linguistics)

  • 作者: Sylviane Granger,Gaëtanelle Gilquin,Fanny Meunier
  • 出版社/メーカー: Cambridge University Press
  • 発売日: 2015/10/01
  • メディア: ハードカバー
  • この商品を含むブログを見る
 

 

この本のchapter 1とchapter 25の内容をまとめる機会があったので、下記に転載します。

 

Chapter 1

Granger, S., Gilquin, G., & Meunier, F. (2015). Introduction: learner corpus research - past, present and future. In S. Granger, G. Gilquin & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 1-5). Cambridge University Press.

 

Chapter 25

Leacock, C., Chodorow, M., & Tetreault, J. (2015). Automatic grammar- and spell-checking for language learners. In S. Granger, G. Gilquin & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 567-587). Cambridge University Press.

 

----------------------------------------------------------------------------------------------------------------------

  1. Introduction: learner corpus research - past, present and future

 

Learner corpus research (LCR) emerged in the late 1980s.

 

There are two advantages in access to electronic collections of L2 data.

・They are more representative than smaller data samples.

・The data can be analyzed with a whole battery of software tools

Cf. POS taggers and concordance program

 

The field of learner corpus research has undergone remarkable developments

・137 learner corpora (Learner corpora around the world)

82 (60%) L2 English, the rest focusing on other languages

The dominant focus is on writing (essay writing)

 

・Research design (longitudinal data)

 

・Individual variability

 

<参考>

Paquot, M., & Plonsky, L. (2015). Quantitative research methods and study quality in learner corpus research. LCR 2015. https://twitter.com/mrkm_a/status/642802550928998400

 

石井 (2014): 1994-2013までの英語コーパス研究184本を分析。日本人英語学習者コーパスの利用は10%に満たない。

 

The handbook is subdivided into five main parts:

  1. Learner corpus design and methodology
  2. Analysis of learner language
  3. LCR and SLA
  4. LCR and language teaching
  5. LCR and NLP

 

Chapter format

 

Introduction

A number of issues

Representative studies

Critical look

Recommended key readings

 

----------------------------------------------------------------------------------------------------------------------

  1. Automatic grammar- and spell-checking for language learners

 

  1. Introduction

Granger and Meunier (1994): grammar- and spell-checking as a promising application for learner corpus research.

 

There is a complex relationship between automated error-correction systems and the learner corpora.

 

・Some systems require large amounts of error-annotated learner writing.

・Reliable annotation

 

2 Core issues
2.1 Brief background on grammatical error correction

Published research first appeared in the 1980s.

Cf. Grammar Writer’s Workbench

→rule-based approaches

 

The approach began to shift from rule-based to statistical in the mid 1990s.

⇔almost all error-correction systems make use of at least some rules.

※この辺りの経緯は自然言語処理の学説史と密接な関係<辻井 (2012)など参照>。

 

2.2 Brief background on spelling-error correction

Kukich (1992) identified three strands of research.

(1) non-word error detection

(2) isolated-word error correction

(3) context-dependent error correction

 

Cf. 編集距離 (edit distance)とは、「2つの文字列があるときに,一方の文字列をどのくらい編集するともう一方の文字列が作成されるかを距離として計算することで,2 つの文字列の類似度(相違度)を測る尺度」(投野・望月, 2013, p. 74)

 

2.3 The needs of L2 learners

From researcher’s pedagogical experience to learner corpus such as Cambridge Learner Corpus

→The most common error is content word choice.

 

Rimrott and Heift (2008) evaluated the helpfulness of generic spell-checkers for L2 learners.

 

The spelling errors were classified as lexical, morphological and phonological.

 

For 62% of the learners’ errors, the intended word was among the suggested corrections provided by Microsoft Word.

 

2.4 The importance and design of learner corpora
2.4.1 Annotation of grammatical errors in learner corpora

Precisionとは「システムが出した結果において、本当に正しかったものの割合。検索対象の文書群の中から、正しく検索された文書の割合を指す。正確性に関する指標」

Recallとは、「結果として出てくるべきもの(記事や文書)のうち、実際に出て来たものの割合。網羅性に関する指標」

 

Gamon (2010)’s research

Errors are often ambiguous.

→researchers have often used learner text that is annotated for only a single targeted type of error.

 

The cost of developing the corpus was quite high.

→To use the error –detection system to output the errors it has found in learner text and then to ask one or more annotators to verify the output.

⇔Whenever the system is modified, its output is likely to change.

⇔It cannot be used for calculating recall.

 

Judgments of usage errors are not as clear-cuts as those of grammatical errors.

→Using crowdsourcing to annotate learner errors.

 

Errors often appear in ‘noisy’, error-ridden contexts.

→measuring the edit distance

 

2.4.2 Annotation of spelling errors in learner corpora

Bestgen and Granger (2011): identifying the categories of errors that affect essay scores.

Flor and Futagi (2012, 2013); Flor (2012): developing algorithms for spelling correction.

 

2.4.3 Error-annotated learner corpora freely available to the NLP community

  1. Helping Our Own 1 (HOO-1)
  2. Helping Our Own 2 (HOO-2)
  3. 2013 conference on Computational Natural Language Learning (CoNLL 2013)
  4. 2014 conference on Computational Natural Language Learning (CoNLL 2014)

Cf. EDCW (Error Detection and Correction Workshop) 2012

 

  1. Representative studies

A brief overview of two commonly used techniques: machine-learning (ML) statistical classifiers and language models.

 

machine-learning (ML) statistical classifiers: 教師あり学習

具体例:最近傍法(石井, 2015)

language models: 教師なし学習

 

3.1 Tetreault and Chodorow (2008)

TASK: 34 most frequent prepositions

Training data: about 7 million preposition from the Lexile corpus (fiction, non-fiction and textbooks).

RESULTS: 84% precision, almost 19 % recall.

 

3.2 Han, Tetreault, Lee and Ha (2010)

TASK: preposition-error identification and correction

Data: error-tagged corpus of essays written by English as a FL students in South Korea (111,000 essays)

Training data: about 1 million cases of preposition usage from the data.

RESULTS: 93 % precision, 15 % recall.


3.3 Rozovskaya and Roth (2010)

Developed four methods for artificially introducing article errors into training data.

Cf. GenERRate (http://www.computing.dcu.ie/~jfoster/resources/genERRate.html)


3.4 Mitton and Okada (2007)

TASK: Developed an algorhithm for spell-checker

RESULTS: The top suggestion (from 61.2% to 65.8%), the top three suggestions (73.3% to 78.7%) and among the top six suggestion (77.9% to 83.5%)

 

4 Critical assessment and future directions

There has been an immense amount of research into the development of grammatical error correction system.

 

・There is a need for efficient and reliable annotation of learner corpora for system training and evaluation.

・there is also a need to develop error-correction resources for learners of other languages.

・tailoring the error-detection systems to the native language of the writer.

・mainly focused on developing error-specific modules, one for each error type.

 

What is needed by the NLP research community is learner corpora that identify the range of error types and corrections for each error.

 

References

石井卓巳(2014)「日本の英語コーパス言語学の研究課題・手法の変遷:『英語コーパス研究』掲載論文を用いた基礎的検討」外国語教育メディア学会(LET)関西支部メソドロジー研究部会2014年度第1回研究会発表資料.

石井雄隆(2015)「データマイニングの手法を用いた英語ライティング研究―プロセスとプロダクトの観点から―」全国英語教育学会熊本研究大会発表資料.

投野由紀夫・望月源(2012)「編集距離を用いた英文自動エラータグ付与ツールの開発と評価」『コーパスに基づく言語学教育研究報告』9, 71-92.

辻井潤一(2012)「合理主義と経験主義のはざまで―内的な処理の計算モデル―」人工知能学会誌, 27(3), 273-283.

シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」

下記の通り、自動採点研究に関するシンポジウムを早稲田大学早稲田キャンパスで開催させていただきます。

 

f:id:yishii_0207:20160119191550j:plain

 

--
早稲田大学 CCDL 研究所第1回シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」

 

日時:3月19日(土)13:00-18:00

 

場所:早稲田大学早稲田キャンパス3号館302教室

http://www.waseda.jp/top/assets/uploads/2015/08/waseda-campus-map.pdf

 

司会・進行 亘理 陽一(静岡大学

 

13:00-13:05 開会挨拶・趣旨説明

 

13:05-13:40 今井 新悟(筑波大学)「SJ-CAT (Speaking Japanese Computerized

Test)の開発」

 

13:45-14:20 小林 雄一郎(東洋大学)「学習者コーパス機械学習に基づく自動評価システムの改良」

 

14:25-15:00 近藤 悠介(早稲田大学)「評定者の信頼性から考える自動採点の必要性」

 

15:20-15:55 杉田 由仁(明治学院大学)「タスクに基づくライティングテストにおける自動評価採点システムの開発」

 

16:00-16:35 石井 雄隆(早稲田大学)「データマイニングと外国語教育の接点としての自動採点研究」

 

16:55-17:55 ディスカッション

 

17:55-18:00 閉会挨拶

 

18:30-20:30 懇親会(※要事前申込)

 

参加費:無料

 

参加申込:http://www.yusukekondo.com/sonas/

 

問合せ:早稲田大学・石井雄隆 yutakaishii#aoni.waseda.jp (Replace # with @)

「データマイニングの手法を用いた英語ライティング研究―プロセスとプロダクトの観点から―」

全国英語教育学会熊本研究大会で下記の発表をしました。

 

石井雄隆. (2015). 「データマイニングの手法を用いた英語ライティング研究―プロセスとプロダクトの観点から―」. 全国英語教育学会熊本研究大会. 熊本学園大学.

 

予稿集原稿

 

Dropbox - JASELE2015_Ishii.pdf

 

スライド

 

www.slideshare.net

「学習者コーパスによる英語CEFRレベル基準特性の特定と活用に関する総合的研究」 (代表:投野由紀夫) 公開会議のお知らせ

以下のような公開会議があるとのこと。トピック的に参加しないと行けないが、この時期に東京にいるかどうか微妙なところ。

 

--

以下の要領で公開会議を開催します。奮ってご参加ください。
  
■日時:2014年12月27日(土)午後2:30~5:00
■場所:成城大学 8号館 831 教室(収容人数 150名)
■入場無料(要事前申込み)
 
■プログラム
 14:30 - 14:45  挨拶+科研の進捗状況報告
 14:45 - 15:30  講演「英語学習者の作文における文法的誤りの自動添削について」
            奥村 学 (東京工業大学教授,研究分担者)
 15:30 - 15:40  休憩
 15:40 - 16:05  研究報告①:動詞の構文パターンに見られるCEFRレベル基準特性
            能登原祥之(同志社大学,研究分担者)
 16:05 - 16:30  研究報告②:Corpus-based research on the development of nominal modifiers in L2
 金子恵美子(会津大学、研究分担者)
 16:30 - 16:55  研究報告③:Pre-A1, A1, A2レベル教材の言語特性: n-gramによる一分析(第1報)
相川真佐夫(京都外国語大学、研究分担者)
 
参加ご希望の方は、以下の === 部分をメール本文に貼り付けて,投野研究室までお送りください。メールのタイトルは「公開会議参加申し込み」としてください。:
 
tonolab.tufsATgmail.com (AT を @ に換えて送信)
 
===
 
公開会議に参加を希望します
 
氏名:
所属:
Eメール:
 
===

第4回早稲田ELF国際ワークショップ(2014年11月14日-15日)

第4回早稲田ELF国際ワークショップが11月14日-15日に早稲田大学早稲田キャンパス16号館305教室で開催されるとのこと。15日午後のパネルでは最近話題になっているEMI(English-medium instruction)をExploring ELF in EMI settingsという題で取りあげる。 詳細は下記の通り。参加費、予約等は不要。

 

--

Friday, 14th November 2014 Special Lectures
(4th Waseda ELF International Workshop* : Part 1)

 

16:30~18:00 Professor Dr Henry Widdowson,
Honorary Professor, University of Vienna,
Professor Emeritus, University of London
‘The Pragmatics of ELF Variation’

 

18:00~19:30 Professor Dr Barbara Seidlhofer, University Professor,
University of Vienna
‘The Global Significance of ELF Study’

Venue: Room 305, Building 16 (School of Education), Waseda Campus,
Waseda University

 

Saturday, 15th November 2014

10:00~18:45 4th Waseda ELF International Workshop*: Part 2

- Exploring ELF in Academic and Business contexts -

 

Programme

 

1) 10:00 Opening & Introduction  Kumiko Murata

 

2) 10:05 ~11:35 Special Lecture

Professor Dr Elana Shohamy, Tel Aviv University
‘Critical language testing and English Lingua Franca, how can one
help the other?’

 

11:35~11:40 Short Break

 

3) 11:40~12:30 Individual Presentation Session 1

 

11:40~12:00 Akiko Otsu, Daito Bunka University & Waseda University
‘Beyond ‘Nice to meet you’: small talk in ELF for initial business
communication’

 

12:00~12:20 Dr Alan Thompson, Gifu Shotoku Gakuen University
‘Three Asian ELF settings: diverse situations, diverse practices’

 

12:20~12:30 Questions & Answers, Comments

12:30~13:45 Lunch

 

4) 13:45~15:50 Individual Presentation Session 2

 

13:45~14:05 Mayu Konakahara, Waseda University
‘How ELF users negotiate face during complaining: An analysis
of third-party complaints in ELF casual conversation among friends’

 

14:05~14:25 Dr Yoko Nogami, Matsuyama University
‘Identity, sociopragmatic discernment and us vs. them discourse
in ELF’

 

14:25~14:45 Dr Keiko Tsuchiya, Tokai University
‘Comparing articles of an ELF-based and a native-norm-based
journal using a small-scale corpus’

 

14:45~15:05 Assoc. Prof. Leah Gilner, Bunkyo Gakuin University
‘Vocabulary preferences of English speakers in localized and
globalized settings’

15:05 Questions & Answers 

 

15:15 Comments on Individual Presentation Sessions 1 & 2
Commentators: Profs Barbara Seidlhofer, Elana Shohamy,
and Henry Widdowso

 

15:35 General Questions & Answers, and Discussion 

 

15:50-16:05 Coffee/ Tea Break

 

5) 16:05-18:30 Invited Panel - Exploring ELF in EMI Settings -

 

16:05 Introduction Kumiko Murata

 

16:10 Special Panel Contribution
Dr Ying Wang, China Three Gorges University
‘A case study of the role of English in a Chinese university’

 

16:30 Professor Jim D’Angelo, Chukyo University
‘Challenges of nurturing EMI in broad-based Japanese Higher Education’

 

16:50 Professor Masaki Oda, Tamagawa University
‘University English Language programs in Transition: EFL to ELF, then?’

 

17:10 Professor Nobuyuki Hino, Osaka University
‘Toward the development of CELFIL (Content and ELF Integrated
Learning) for EMI classes in higher education in Japan’

 

17:30 Professor Michiko Nakano, Waseda University
‘Challenges in EMI, a case study of ‘World Englishes online’

 

17:50 Questions & Answers

 

18:00 Discussants Profs Barbara Seidlhofer, Elana Shohamy,
and Henry Widdowson

 

18:20-18:40 General Questions & Answers, and Discussion

 

6) 18:40 Round-up Kumiko Murata

 

Venue: Room 305, Building 16 (School of Education),
Waseda Campus, Waseda University

 

* This workshop is supported by Grants-in-Aid for Scientific Research
(JSPS, Kiban (Foundation) B, No. 26284083)

 

19:00-21:00 Reception (Atton – an Italian restaurant)

 

コーパス関係の国際ジャーナル

少し前にTwitterでやりとりしたことの備忘録。情報提供していただいたAkira Murakami (@mrkm_a) | TwitterさんとIshii, T. (@imukat141) | Twitterさんに深謝。他にも関係がありそうなジャーナルがあれば、ご教示頂けましたら幸いです。

 

ICAME Journal

 

RiCL - Research in Corpus Linguistics

 

Translation: Computation, Corpora, Cognition

 

Oxford Journals | Arts & Humanities | Literary and Linguistic Computing

 

ELR Journal - Home Page

 

Computer Speech and Language - Journal - Elsevier

 

Language Resources and Evaluation - incl. option to publish open access

 

Corpus Linguistics and Linguistic Theory

 

International Journal of Corpus Linguistics

https://benjamins.com/#catalog/journals/ijcl/main

 

International Journal of Learner Corpus Research

https://benjamins.com/#catalog/journals/ijlcr/main

 

Corpora

http://www.euppublishing.com/journal/cor

 

Computational Linguistics

http://www.mitpressjournals.org/loi/coli

外国語教育メディア学会第54回全国研究大会シンポジウム「ライティング・プロダクトからライティング・プロセスへ―Writing MaertiX Corpus Project―」の発表資料

2014年8月5日に外国語教育メディア学会第54回全国研究大会@福岡大学で行ったシンポジウム「ライティング・プロダクトからライティング・プロセスへ-Writing MaetriX Corpus Project-」の資料です。WritingMaetriXのサイトからも閲覧できますが、こちらにもリンクを貼っておきます。

 

 

LETシンポジウム20140805 趣旨説明

 

LETシンポジウム20140805 WritingMaetriXについて

 

LETシンポジウム20140805 コーパス構築計画

 

LETシンポジウム20140805 予備的検討

 

LETシンポジウム20140805 総括

 

書誌情報は下記の通りです。

 

石井雄隆・石井卓巳・草薙邦広・阿部大輔・福田純也・川口勇作. (2014). 「ライティング・プロダクトからライティング・プロセスへ -Writing MaetriX Corpus Project-」. 外国語教育メディア学会第54回全国研究大会. 福岡大学. [シンポジウム].