規模:103.1Bトークン、33年分の連続カバレッジ

速報:103Bトークン・33年分のUsenetコーパス、個人が独力で構築し公開(記事内画像)

検知。ユーザー /u/OwnerByDane が数年の作業を経て完成させたUsenetコーパスの全貌が、2025年5月1日に公開された。詳細はSourceに記載されている。

数値を列挙する。トークン数は103.1B(cl100k_baseベース)。投稿数は408M件。カバーするニュースグループ数は18,347。対象期間は1980年から2013年の33年間。9つのニュースグループ階層を横断する。この規模は「個人保有のプレトレーニングコーパスとしては最大級のひとつ」と構築者本人が述べている。

言語分布も明確だ。Meta製fasttext LID-176による全件言語検出を実施。英語が96.6%を占める。残り3.4%に100以上の言語が含まれる。特にsoc.culture.*階層は非英語投稿の密度が高い。多言語プレトレーニング用途にも一定の価値がある。

パイプライン:重複排除・バイナリ除去・メールアドレスのハッシュ化

処理パイプラインの設計は徹底している。alt.binaries.*は階層レベルで除外済み。その上でレコードレベルのクリーニングも実施した。引用テキストの処理、メールアドレスのパターンマッチングによる編集、Message-IDのSHA-256ハッシュ化も行った。元データはMBOXアーカイブ形式。最終出力はgzip圧縮済みJSONL形式だ。

重複排除も完全実施済み。生のUsenetアーカイブには同一投稿が複数サーバーに分散するケースが多い。それを除去した上での103.1Bトークンという数値である。データカード、クリーニング方法論、代表サンプル(各階層5,000投稿+統合セット)はHugging Face上で公開されている。URLはHuggingFace Datasetだ。

価値:「AIが存在しなかった時代」の言語データ

このコーパスが持つ最大の特徴は時間的アークにある。1986年以前は投稿量が少ない。1990年代前半から増加。1999〜2000年にピーク。その後、フォーラムやソーシャルメディアに押されて減少する。この33年間の言語進化が単一コーパスに内包されている。

構築者が強調する点はここだ。「SEO最適化が存在しなかった時代」「エンゲージメント最適化が存在しなかった時代」「AI生成コンテンツが存在しなかった時代」の言語データである。現代のウェブクロールコーパスはSEOスパム、アフィリエイト記事、AI生成テキストが混入する。Usenetコーパスはその汚染から完全に切り離されている。プレトレーニングデータの品質問題が深刻化する現在、この特性は無視できない。

また、Usenetという媒体の性質上、技術系(comp.*、sci.*)から社会・文化系(soc.*、talk.*)まで幅広いトピックが含まれる。単一ドメインに偏ったコーパスではない。1980年代のコンピュータサイエンス議論から2013年直前のソーシャルメディア移行期まで、インターネット文化の変遷そのものがデータに刻まれている。

結論:プレトレーニングデータ品質問題への一つの回答

大規模言語モデルのプレトレーニングデータ汚染は業界全体の課題だ。Common Crawlベースのコーパスにはすでにモデル生成テキストが混入しているという指摘が複数の研究から出ている。その文脈でこのUsenetコーパスは明確な価値を持つ。生成AIが存在しなかった時代のテキストである点は、データ来歴(data provenance)の観点から保証されている。

個人が数年をかけて単独構築し、無償公開した点も注目に値する。商業データプロバイダーが提供するコーパスとは異なり、処理パイプラインの全詳細が公開されている。再現性と透明性が確保されている。研究コミュニティにとって検証可能なベースラインデータセットとして機能する可能性がある。ハイプなし。数字とログだけが語る、33年分の記録だ。

関連リンク

  • Usenet Corpus 1980–2013(OwnedByDanes):本記事で紹介されている103.1Bトークン・33年分のUsenetアーカイブデータセット(HuggingFace公開)。
  • fastText 言語識別モデル LID-176:コーパス全件の言語検出に使用された、176言語対応のMeta製言語識別モデルの公式ドキュメントページ。
  • tiktoken(OpenAI):トークン数カウント基準として使用されたcl100k_baseエンコーディングを提供するOpenAI公式トークナイザーライブラリ。