話したネタ

どのような大規模言語モデルと作ったのか?特徴は何か?
データセットに何を使ったのか?
日本語と英語とのバランスは?
最終的なToken数は?
事前学習モデルを作りたいとして、何から考えるのか?
ノイズのクリーニングと、その方法
今回活用したモデルアーキテクチャ(Llama)
前回のアーキテクチャは GPT-NeoX
今回の学習環境は?
AWS Trainum 32コア x 16ノード
学習にかかった時間は?
学習時に大変だったこと・上手くいかなかったことは?
学習中のチェックポイントとは何か?
なぜ、Token生成が速いのか?
手元でLLMを動かすときの一番のネックは?
bit数を落とすFineTuning
Tokenizerとは何か?
日本語の単語区切りはどのように考えるのか?
今回のLLM作成のTokenizerは何を使ったのか?
ビジネスドメインでのLLM評価
ストックマーク株式会社のRecruitページ