23: 趣味でオープンなAI作りをやっている者だ (hotchpotch)
引き続き、セコン(hotchpotch)さんをゲストに迎え、個人でできるオープンなAI作り、LLMとSLMの進化、日本語情報検索モデルの開発等についてお話しました
Show Notes
KaggleのRAGコンペ参加
庶民の味方、エンコーダモデルと情報検索
2024年に行った活動
- JQaRA : Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語 Q&A データセット
- aCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット
オープンなAIとは?
- 公開済みのモデル(重み)がオープンである
- コード(trainer / 推論コード)がOSSである
- データセットがオープンである
日本語情報検索モデルの開発
- 日本語最高性能のRerankerをリリース / そもそも Reranker とは?
- 高性能な日本語SPLADE(スパース検索)モデルを公開しました
- 情報検索モデルで最高性能(512トークン以下)・日本語版SPLADE v2をリリース
- 100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開