株式会社ずんだもん技術室AI放送局 podcast 20240919
Sep 18 2024
Length: Less than 1 minute
Podcast

Failed to add items

Sorry, we are unable to add the item because your shopping cart is already at capacity.

Add to basket failed.

Please try again later

Add to wishlist failed.

Please try again later

Remove from wishlist failed.

Please try again later

Adding to library failed

Please try again

Follow podcast failed

Unfollow podcast failed

株式会社ずんだもん技術室AI放送局 podcast 20240919

Listen for free

View show details

Summary
関連リンク GitHub - ictnlp/LLaMA-Omni: LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level. LLaMA-Omniは、Llama-3.1-8B-Instructをベースに構築された、音声言語モデルです。音声指示に基づいて、テキストと音声の両方の応答を同時に生成し、低遅延かつ高品質な音声対話を実現することを目指しています。 LLaMA-Omniの特徴 Llama-3.1-8B-Instructを基盤とすることで、高品質な応答を生成します。遅延が226msと非常に短い、低遅延な音声対話を実現します。音声指示に対して、テキストと音声の両方の応答を同時に生成します。わずか4つのGPUで3日以内の短期間でトレーニングが完了しました。制約事項 LLaMA-Omniは、MetaのLlama 3.1を基盤としているため、Llama 3.1のライセンスに準拠する必要があります。 LLaMA-Omniは、音声対話においてGPT-4レベルの性能を目指した、有望なモデルです。日本語のエンジニア、特に新人エンジニアにとって、音声認識や自然言語処理技術の理解を深める上で、参考になるリポジトリと言えるでしょう。引用元: https://github.com/ictnlp/LLaMA-Omni Qwen2.5: A Party of Foundation Models! Qwen2.5は、アリババが開発したオープンソースの大規模言語モデル（LLM）の最新バージョンです。Qwen2の後継として、コーディングに特化したQwen2.5-Coder、数学に特化したQwen2.5-Mathを含む、様々なサイズ（0.5B〜72Bパラメータ）のモデル群が公開されました。 Qwen2.5の主な特徴は、以下の通りです。知識量の増加と性能向上: 18兆トークンのデータで事前学習されており、Qwen2と比較して、MMLU、HumanEval、MATHなどのベンチマークで大幅な性能向上を実現しています。命令理解力とテキスト生成能力の強化: より複雑な指示への対応力、8Kトークンを超える長文生成、表などの構造化データの理解、JSONなどの構造化出力生成能力が向上しました。多言語対応: 中国語、英語、フランス語など29以上の言語に対応しています。トークン数: 最大128Kトークンの入力と最大8Kトークンの出力をサポートしています。 Qwen2.5-Coderは、5.5兆トークンのコード関連データで学習されており、小型モデルでも他のLLMと比較して競争力のあるコーディング性能を発揮します。Qwen2.5-Mathは、中国語と英語に対応し、CoT、PoT、TIRなどの推論手法を取り入れています。性能面では、Qwen2.5-72BはLlama-3.1-70B、Mistral-Large-V2などのオープンソースLLMと比較して、優れた性能を示しています。また、APIベースのフラッグシップモデルであるQwen2.5-Plusは、GPT4-oやClaude-3.5-Sonnetなどの商用モデルと比較しても遜色のない性能を有しています。利用方法としては、Hugging Face Transformers、vLLM、Ollamaなどのツールを用いて、API経由やローカル環境で利用できます。また、vLLMやOllamaでは、ツール呼び出し機能もサポートされています。 Qwen2.5は、オープンソースコミュニティの協力によって開発が進められています。今後も、マルチモーダルな情報処理や推論能力の強化など、更なる発展が期待されます。制約として、3Bと72B以外のモデルはApache 2.0ライセンスで公開されています。また、Qwen2.5-PlusやQwen2.5-Turboなどのフラッグシップモデルは、Model Studioを通じてAPIアクセスのみ提供されています。本要約は、Qwen2.5の主要な特徴と性能、利用方法、そして今後の展望を理解する助けとなることを目的としています。新人エンジニアの方でも、Qwen2.5の概要を掴み、今後の学習や開発に役立てられることを願っています。引用元: http://qwenlm.github.io/blog/qwen2.5/ RLHF and RLAIF in GPT-NeoX GPT-NeoXは、大規模言語モデルの事前学習フレームワークとして広く使われているオープンソースのライブラリです。EleutherAIとSynthLabsは共同で、GPT-NeoXに人間の好みを反映させるための強化学習（RLHF）と好みに基づくAI学習（RLAIF）の機能を追加しました。 RLHFは、AIモデルを人間の好みに合わせるための効果的な手法で、要約などのタスクでモデルの性能向上に役立ちます。GPT-NeoXでは、RLHFの実装として、直接的選好最適化（DPO）とKahneman-Tversky最適化（KTO）という2つの手法が導入されました。DPOは、使いやすく安定した学習が可能なため、広く...

Show More Show Less

Show More Show Less

What listeners say about 株式会社ずんだもん技術室AI放送局 podcast 20240919

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.

Audible.co.uk reviews

Amazon reviews

No Reviews are Available

Report a review on Amazon

Audiobook Categories

Popular Lists

Explore Audible

株式会社ずんだもん技術室AI放送局 podcast 20240919

Failed to add items

Add to basket failed.

Add to wishlist failed.

Remove from wishlist failed.

Adding to library failed

Follow podcast failed

Unfollow podcast failed

株式会社ずんだもん技術室AI放送局 podcast 20240919

Summary

What listeners say about 株式会社ずんだもん技術室AI放送局 podcast 20240919

Reviews - Please select the tabs below to change the source of reviews.

Audible.co.uk reviews

Amazon reviews