Some corpora

近年は大規模なウェブコーパスを利用するのが一般的となってきました。しかし、小規模できめ細やかな調査には、従来型のコーパスを利用する方法もあります。

  • 現代英語のコーパスをいくつかまとめたページです。情報が多いコーパスについては、個別のページもありますのでそちらも参照してください。
  • インターネット上で直接検索ができるコーパスについては、ウェブコーパスのページをご覧ください。

The Buckeye Speech Corpus

The Buckeye Speech Corpus (Ohio State University) は、アメリカ英語の話し言葉コーパス。製作者に連絡を取り取得するタイプのコーパス。 若干サイトが古いので、利用に際しては確認が必要かもしれません。

Corps

Corpsは、political speechesのコーパス。タグ付きコーパスで、取得して利用するタイプ。

German-English parallel corpus of 18th/19th century literary texts

German-English parallel corpus of 18th/19th century literary textsは、Sebastian Pado制作の英語とドイツ語のコーパス。Project Gutenbergのテキストをもとにしたもの。

Lucy Corpus

Geoffrey SampsonのLucy Corpusのページです。Present-day written British Englishのコーパスで、ダウンロードして使用するタイプ。Geoffrey Sampsonのコーパスプロジェクトのホームからは、Susanne Corpus (written American English)とChristine Corpus (spoken British English)にもリンクがあります。

MARSEC

MARSEC: Machine Readable Spoken English Corpusへのリンク。CD-ROMは200ポンド(+ VAT)とのことです。

Reuters corpora

Reuters corporaのサイトでは、RC1, RC2, TRC2の3つのコーパスが紹介されています。若干サイトが古いので、利用に際しては確認が必要かもしれません。

Santa Barabara Corpus of Spoken American English

Santa Barbara Corpus of Spoken American English (University of California, Santa Barabara) についての情報です。249,000語のコーパス。取得して利用するタイプ。

Supreme Court Dialogs Corpus

Supreme Court Dialogs Corpusへのリンクです。Cornell University内のサイトです。このサイトの情報によれば、本コーパスは ” This corpus contains a collection of conversations from the U.S. Supreme Court Oral Arguments”とのことです。zipファイルのダウンロードによる方式。

TRAINS Dialogue Corpus

TRAINS Dialogue Corpusは、1990年代の会話を収集したコーパス。University of Rochesterの研究チームによって構築されたコーパス。HomePeopleも参照。

Usenet Corpus

Usenet Corpusは、public USENET postingsを集積したコーパスで、2005年から2011年のデータ。ダウンロードタイプのコーパス。

一般的な電子テキストの利用

インターネット上に公開されている小説等の電子テキストや映画のスクリプトをコーパスとして利用する方法もあります。以下のリンクは参考までに。