Some corpora

近年は大規模なウェブコーパスを利用するのが一般的となってきました。しかし、小規模できめ細やかな調査には、従来型のコーパスを利用する方法もあります。

現代英語のコーパスをいくつかまとめたページです。情報が多いコーパスについては、個別のページもありますのでそちらも参照してください。
インターネット上で直接検索ができるコーパスについては、ウェブコーパスのページをご覧ください。

The Buckeye Speech Corpus

The Buckeye Speech Corpus (Ohio State University) は、アメリカ英語の話し言葉コーパス。製作者に連絡を取り取得するタイプのコーパス。若干サイトが古いので、利用に際しては確認が必要かもしれません。

Corps

Corpsは、political speechesのコーパス。タグ付きコーパスで、取得して利用するタイプ。

German-English parallel corpus of 18th/19th century literary texts

German-English parallel corpus of 18th/19th century literary textsは、Sebastian Pado制作の英語とドイツ語のコーパス。Project Gutenbergのテキストをもとにしたもの。

Lucy Corpus

Geoffrey SampsonのLucy Corpusのページです。Present-day written British Englishのコーパスで、ダウンロードして使用するタイプ。Geoffrey Sampsonのコーパスプロジェクトのホームからは、Susanne Corpus (written American English)とChristine Corpus (spoken British English)にもリンクがあります。

MARSEC

MARSEC: Machine Readable Spoken English Corpusへのリンク。CD-ROMは200ポンド（+ VAT）とのことです。

Reuters corpora

Reuters corporaのサイトでは、RC1, RC2, TRC2の3つのコーパスが紹介されています。若干サイトが古いので、利用に際しては確認が必要かもしれません。

Santa Barabara Corpus of Spoken American English

Santa Barbara Corpus of Spoken American English (University of California, Santa Barabara) についての情報です。249,000語のコーパス。取得して利用するタイプ。

Supreme Court Dialogs Corpus

Supreme Court Dialogs Corpusへのリンクです。Cornell University内のサイトです。このサイトの情報によれば、本コーパスは ” This corpus contains a collection of conversations from the U.S. Supreme Court Oral Arguments”とのことです。zipファイルのダウンロードによる方式。

TRAINS Dialogue Corpus

TRAINS Dialogue Corpusは、1990年代の会話を収集したコーパス。University of Rochesterの研究チームによって構築されたコーパス。HomeやPeopleも参照。

Usenet Corpus

Usenet Corpusは、public USENET postingsを集積したコーパスで、2005年から2011年のデータ。ダウンロードタイプのコーパス。

一般的な電子テキストの利用

インターネット上に公開されている小説等の電子テキストや映画のスクリプトをコーパスとして利用する方法もあります。以下のリンクは参考までに。

Project Gutenberg（文学作品等）
Modernist Literature Project（現代小説）– ブログのCastlecliffeでもModernist Literature Projectを紹介しています
Internet Movie Script Database（映画）
Movie Scripts and Screenplays Web Ring Home Site（映画）
Online Books Page（各種ジャンル）ー　PDF等のファイル形式のものもあります。

カテゴリー: コーパス

コーパス

2018年6月28日

トピックス

2018年8月6日

Some corpora

Open American National Corpus

先行研究の文献リストを作成する