Some corpora
近年は大規模なウェブコーパスを利用するのが一般的となってきました。しかし、小規模できめ細やかな調査には、従来型のコーパスを利用する方法もあります。
- 現代英語のコーパスをいくつかまとめたページです。情報が多いコーパスについては、個別のページもありますのでそちらも参照してください。
- インターネット上で直接検索ができるコーパスについては、ウェブコーパスのページをご覧ください。
The Buckeye Speech Corpus
The Buckeye Speech Corpus (Ohio State University) は、アメリカ英語の話し言葉コーパス。製作者に連絡を取り取得するタイプのコーパス。 若干サイトが古いので、利用に際しては確認が必要かもしれません。
Corps
Corpsは、political speechesのコーパス。タグ付きコーパスで、取得して利用するタイプ。
German-English parallel corpus of 18th/19th century literary texts
German-English parallel corpus of 18th/19th century literary textsは、Sebastian Pado制作の英語とドイツ語のコーパス。Project Gutenbergのテキストをもとにしたもの。
Lucy Corpus
Geoffrey SampsonのLucy Corpusのページです。Present-day written British Englishのコーパスで、ダウンロードして使用するタイプ。Geoffrey Sampsonのコーパスプロジェクトのホームからは、Susanne Corpus (written American English)とChristine Corpus (spoken British English)にもリンクがあります。
MARSEC
MARSEC: Machine Readable Spoken English Corpusへのリンク。CD-ROMは200ポンド(+ VAT)とのことです。
Reuters corpora
Reuters corporaのサイトでは、RC1, RC2, TRC2の3つのコーパスが紹介されています。若干サイトが古いので、利用に際しては確認が必要かもしれません。
Santa Barabara Corpus of Spoken American English
Santa Barbara Corpus of Spoken American English (University of California, Santa Barabara) についての情報です。249,000語のコーパス。取得して利用するタイプ。
Supreme Court Dialogs Corpus
Supreme Court Dialogs Corpusへのリンクです。Cornell University内のサイトです。このサイトの情報によれば、本コーパスは ” This corpus contains a collection of conversations from the U.S. Supreme Court Oral Arguments”とのことです。zipファイルのダウンロードによる方式。
TRAINS Dialogue Corpus
TRAINS Dialogue Corpusは、1990年代の会話を収集したコーパス。University of Rochesterの研究チームによって構築されたコーパス。HomeやPeopleも参照。
Usenet Corpus
Usenet Corpusは、public USENET postingsを集積したコーパスで、2005年から2011年のデータ。ダウンロードタイプのコーパス。
一般的な電子テキストの利用
インターネット上に公開されている小説等の電子テキストや映画のスクリプトをコーパスとして利用する方法もあります。以下のリンクは参考までに。
- Project Gutenberg(文学作品等)
- Internet Movie Script Database(映画)
- Movie Scripts and Screenplays Web Ring Home Site(映画)
- Online Books Page(各種ジャンル)ー PDF等のファイル形式のものもあります。