株式会社ずんだもん技術室AI放送局

By: 株式会社ずんだもん技術室AI放送局
  • Summary

  • AIやテクノロジーのトレンドを届けるPodcast。平日毎朝6時配信。朝の通勤時間や支度中に情報キャッチアップとして聞いてほしいのだ。
    Show More Show Less
activate_samplebutton_t1
Episodes
  • 株式会社ずんだもん技術室AI放送局 podcast 20240920
    Sep 19 2024
    関連リンク 任天堂株式会社 ニュースリリース :2024年9月19日 - 株式会社ポケットペアに対する特許権侵害訴訟の提起について|任天堂 任天堂とポケモンは、2024年9月18日に、ゲーム「Palworld / パルワールド」を開発・販売するポケットペアに対して、東京地方裁判所に特許権侵害訴訟を起こしました。 これは、パルワールドが任天堂の複数の特許を侵害しているとして、その行為の差し止めと損害賠償を求めるものです。 任天堂は、長年培ってきた自社の知的財産、特にブランドの保護に力を入れており、今回の訴訟もその一環です。知的財産の侵害行為に対しては、今後も必要な対策を継続していくとしています。 簡単に言うと、任天堂は自社のゲームのアイデアをパクったとポケットペアを訴えたということです。任天堂は、自社の知的財産を大切に守るため、今後も同様の行為には厳しく対応していく姿勢を示しています。 新人エンジニアの皆さんへ このニュースは、ゲーム業界だけでなく、ソフトウェア開発全般において、知的財産権の重要性を改めて認識させてくれる事例です。皆さんが将来、ゲームやソフトウェアを開発する際には、他社の知的財産を侵害しないよう、十分に注意する必要があります。特に、特許や著作権といった概念は、開発において非常に重要な要素となりますので、しっかりと理解しておくようにしましょう。 引用元: https://www.nintendo.co.jp/corporate/release/2024/240919.html RAG の精度を向上させる Advanced RAG on AWS の道標 Amazon Web Services 近年、大規模言語モデル(LLM)を活用したアプリケーション開発が盛んになり、検索拡張生成(RAG)が注目されています。RAGは、LLMに外部知識ベースから関連情報を提供することで、より正確で最新の情報に基づいた回答生成を可能にする技術です。 基本的なRAGシステムは多くの場合で十分な性能を発揮しますが、より複雑な質問や高度な用途では、検索精度やコンテキスト理解の向上など、さらなる改善が必要になります。Advanced RAGは、この課題に対応するために開発された、RAGを拡張する様々な技術や手法の総称です。 Advanced RAGでは、データ準備段階、クエリ処理、検索段階、検索結果の後処理、回答生成の各段階において、様々な改善策が提案されています。例えば、チャンクサイズの調整、ドキュメントパースの改善、メタデータによるフィルタリング、ハイブリッド検索などは、比較的容易に実装でき、大きな効果が期待できます。 さらに高度な改善としては、リランキング、クエリ書き換え、Small-to-Big Retrieval(階層チャンク)といった手法があります。これらの手法は、検索結果の精度や文脈理解を向上させるのに役立ちますが、処理時間やリソース消費とのバランスを考慮する必要があります。 また、近年注目されているGraphRAGは、ナレッジグラフを用いることで、文書間や概念間の複雑な関係性を表現し、多段階の推論を可能にする手法です。AWSのサービスを活用することで、Amazon NeptuneなどのグラフデータベースとAmazon BedrockなどのLLMを組み合わせ、GraphRAGを実装することができます。 Advanced RAGの手法を効果的に活用するためには、まずRAGシステムの性能を適切に評価し、具体的な問題点を特定することが重要です。評価システムを構築し、回答の質が悪いパターンを分析することで、最適な改善策を検討できます。 本記事では、Advanced RAGの概要、AWS上での実装方法、そして重要な改善ポイントについて解説しました。これらの情報を参考に、皆様のRAGシステムの精度向上に役立てていただければ幸いです。 引用元: https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with-advanced-rag-on-aws/ Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model OpenAIは、最新の大規模言語モデル「o1」の内部処理を隠蔽し、ユーザーによるその動作の調査を制限しています。o1は、問題解決プロセスを段階的に実行し、その過程を「思考チェーン」として生成しますが、OpenAIはユーザーに対してはフィルターを通した解釈結果のみを表示し、生の思考チェーンは公開していません。 これは、o1の思考プロセスを監視し、...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240919
    Sep 18 2024
    関連リンク GitHub - ictnlp/LLaMA-Omni: LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level. LLaMA-Omniは、Llama-3.1-8B-Instructをベースに構築された、音声言語モデルです。音声指示に基づいて、テキストと音声の両方の応答を同時に生成し、低遅延かつ高品質な音声対話を実現することを目指しています。 LLaMA-Omniの特徴 Llama-3.1-8B-Instructを基盤とすることで、高品質な応答を生成します。遅延が226msと非常に短い、低遅延な音声対話を実現します。音声指示に対して、テキストと音声の両方の応答を同時に生成します。わずか4つのGPUで3日以内の短期間でトレーニングが完了しました。 制約事項 LLaMA-Omniは、MetaのLlama 3.1を基盤としているため、Llama 3.1のライセンスに準拠する必要があります。 LLaMA-Omniは、音声対話においてGPT-4レベルの性能を目指した、有望なモデルです。日本語のエンジニア、特に新人エンジニアにとって、音声認識や自然言語処理技術の理解を深める上で、参考になるリポジトリと言えるでしょう。 引用元: https://github.com/ictnlp/LLaMA-Omni Qwen2.5: A Party of Foundation Models! Qwen2.5は、アリババが開発したオープンソースの大規模言語モデル(LLM)の最新バージョンです。Qwen2の後継として、コーディングに特化したQwen2.5-Coder、数学に特化したQwen2.5-Mathを含む、様々なサイズ(0.5B〜72Bパラメータ)のモデル群が公開されました。 Qwen2.5の主な特徴は、以下の通りです。 知識量の増加と性能向上: 18兆トークンのデータで事前学習されており、Qwen2と比較して、MMLU、HumanEval、MATHなどのベンチマークで大幅な性能向上を実現しています。命令理解力とテキスト生成能力の強化: より複雑な指示への対応力、8Kトークンを超える長文生成、表などの構造化データの理解、JSONなどの構造化出力生成能力が向上しました。多言語対応: 中国語、英語、フランス語など29以上の言語に対応しています。トークン数: 最大128Kトークンの入力と最大8Kトークンの出力をサポートしています。 Qwen2.5-Coderは、5.5兆トークンのコード関連データで学習されており、小型モデルでも他のLLMと比較して競争力のあるコーディング性能を発揮します。Qwen2.5-Mathは、中国語と英語に対応し、CoT、PoT、TIRなどの推論手法を取り入れています。 性能面では、Qwen2.5-72BはLlama-3.1-70B、Mistral-Large-V2などのオープンソースLLMと比較して、優れた性能を示しています。また、APIベースのフラッグシップモデルであるQwen2.5-Plusは、GPT4-oやClaude-3.5-Sonnetなどの商用モデルと比較しても遜色のない性能を有しています。 利用方法としては、Hugging Face Transformers、vLLM、Ollamaなどのツールを用いて、API経由やローカル環境で利用できます。また、vLLMやOllamaでは、ツール呼び出し機能もサポートされています。 Qwen2.5は、オープンソースコミュニティの協力によって開発が進められています。今後も、マルチモーダルな情報処理や推論能力の強化など、更なる発展が期待されます。 制約として、3Bと72B以外のモデルはApache 2.0ライセンスで公開されています。また、Qwen2.5-PlusやQwen2.5-Turboなどのフラッグシップモデルは、Model Studioを通じてAPIアクセスのみ提供されています。 本要約は、Qwen2.5の主要な特徴と性能、利用方法、そして今後の展望を理解する助けとなることを目的としています。新人エンジニアの方でも、Qwen2.5の概要を掴み、今後の学習や開発に役立てられることを願っています。 引用元: http://qwenlm.github.io/blog/qwen2.5/ RLHF and RLAIF in GPT-NeoX GPT-NeoXは、大規模言語モデルの事前学習フレームワークとして広く使われているオープンソースのライブラリです。EleutherAIとSynthLabsは共同で、GPT-NeoXに人間の好みを反映させるための強化学習(RLHF)と好みに基づくAI学習(RLAIF)の機能を追加しました。 RLHFは、AIモデルを人間の好みに合わせるための効果的な手法で、要約などのタスクでモデルの性能向上に役立ちます。GPT-NeoXでは、RLHFの実装として、直接的選好最適化(DPO)とKahneman-Tversky最適化(KTO)という2つの手法が導入されました。DPOは、使いやすく安定した学習が可能なため、広く...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240918
    Sep 17 2024
    関連リンク Announcing Pixtral 12B Mistral AIは、画像とテキストの両方を理解するようにトレーニングされた、新しいオープンソースの多様な言語モデル「Pixtral 12B」を発表しました。 Pixtral 12Bは、Mistral Nemo 12Bをベースに、新たに4億パラメータのビジョンエンコーダを追加することで、多様なタスクにおいて優れた性能を実現しています。特に、図表や文書の理解、多様な推論、指示に従う能力に優れており、MMMU推論ベンチマークでは52.5%という高いスコアを達成しています。これは、他の多くのより大規模なモデルを上回る成果です。 Pixtral 12Bは、画像の解像度やアスペクト比を維持したまま処理できるため、ユーザーは画像処理に使用するトークンの数を柔軟に調整できます。また、最大128kトークンの長いコンテキストウィンドウ内に複数の画像を処理することも可能です。 Pixtral 12Bの主な特徴 画像とテキストの両方を理解多様なタスクで優れた性能を発揮テキストのみのベンチマークでも最先端の性能を維持可変の画像サイズとアスペクト比に対応最大128kトークンの長いコンテキストウィンドウ内で複数の画像を処理可能Apache 2.0ライセンス Pixtral 12Bのアーキテクチャ Pixtral 12Bは、画像をトークン化するビジョンエンコーダと、テキストと画像のシーケンスから次のテキストトークンを予測する多様なトランスフォーマーデコーダの2つのコンポーネントで構成されています。このアーキテクチャにより、任意のサイズの画像を複数処理できます。 Pixtral 12Bの活用方法 Pixtral 12Bは、Mistral AIが提供するチャットインターフェース「Le Chat」やAPIを通じて利用できます。また、mistral-inferenceやvLLMなどのライブラリを用いてローカル環境で実行することも可能です。 Pixtral 12Bは、オープンソースでありながら、多様な言語モデルの性能において新たな基準を打ち立てました。今後、様々なアプリケーションやワークフローに統合され、画像とテキストの処理において重要な役割を果たしていくことが期待されます。 引用元: https://mistral.ai/news/pixtral-12b/ Synchron Announces First Use of Amazon’s Alexa with a Brain Computer Interface Synchron社は、脳コンピューターインターフェース(BCI)を用いて、ALS(筋萎縮性側索硬化症)患者がAmazon Alexaを操作することに世界で初めて成功したと発表しました。 このBCIシステムは、脳の運動皮質の表面にある血管に、経静脈的に埋め込まれます。患者の思考を検知し、ワイヤレスで送信することで、重度の麻痺を持つ人々が、手を動かさずにデジタルデバイスを操作することを可能にします。 今回の発表では、ALS患者であるMarkさんが、SynchronのBCIシステムを使って、Amazon FireタブレットのTap to Alexa機能を通じてスマートホームを制御することに成功しました。照明のオンオフ、ビデオ通話、音楽再生、スマート家電の操作など、音声や手を使わずに、思考だけで様々な操作が可能になりました。 Synchron社は、Alexaとの連携を通じて、BCI技術の可能性を広げ、自宅内外の環境制御を容易にすることを目指しています。これにより、重度の麻痺を持つ人々の自立性向上に貢献できると期待されています。 Synchron社のCEOであるTom Oxley氏は、「SynchronのBCIは、神経技術と消費者向け技術のギャップを埋めるものであり、麻痺を持つ人々が再び環境をコントロールできるようになる可能性を示しています。」と述べています。 今回の成果は、BCI技術が、重度の麻痺を持つ人々の生活の質を向上させるための大きな可能性を秘めていることを示すものです。今後の研究開発によって、さらに多くの機能が追加され、より多くの患者が恩恵を受けることが期待されます。 引用元: https://www.businesswire.com/news/home/20240916709941/en/Synchron-Announces-First-Use-of-Amazon%E2%80%99s-Alexa-with-a-Brain-Computer-Interface**. Build RAG-based generative AI applications in AWS using Amazon FSx for NetApp ONTAP with Amazon Bedrock Amazon Web Services このブログ記事では、Amazon Web Services (AWS) 上で、Retrieval Augmented Generation (RAG) ベースの生成AIアプリケーションを構築する方法について解説しています。RAGは、大規模言語モデル(LLM)の出力に関連する情報を外部データソースから...
    Show More Show Less
    Less than 1 minute

What listeners say about 株式会社ずんだもん技術室AI放送局

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.