Episodes

  • 株式会社ずんだもん技術室AI放送局 podcast 20240920
    Sep 19 2024
    関連リンク 任天堂株式会社 ニュースリリース :2024年9月19日 - 株式会社ポケットペアに対する特許権侵害訴訟の提起について|任天堂 任天堂とポケモンは、2024年9月18日に、ゲーム「Palworld / パルワールド」を開発・販売するポケットペアに対して、東京地方裁判所に特許権侵害訴訟を起こしました。 これは、パルワールドが任天堂の複数の特許を侵害しているとして、その行為の差し止めと損害賠償を求めるものです。 任天堂は、長年培ってきた自社の知的財産、特にブランドの保護に力を入れており、今回の訴訟もその一環です。知的財産の侵害行為に対しては、今後も必要な対策を継続していくとしています。 簡単に言うと、任天堂は自社のゲームのアイデアをパクったとポケットペアを訴えたということです。任天堂は、自社の知的財産を大切に守るため、今後も同様の行為には厳しく対応していく姿勢を示しています。 新人エンジニアの皆さんへ このニュースは、ゲーム業界だけでなく、ソフトウェア開発全般において、知的財産権の重要性を改めて認識させてくれる事例です。皆さんが将来、ゲームやソフトウェアを開発する際には、他社の知的財産を侵害しないよう、十分に注意する必要があります。特に、特許や著作権といった概念は、開発において非常に重要な要素となりますので、しっかりと理解しておくようにしましょう。 引用元: https://www.nintendo.co.jp/corporate/release/2024/240919.html RAG の精度を向上させる Advanced RAG on AWS の道標 Amazon Web Services 近年、大規模言語モデル(LLM)を活用したアプリケーション開発が盛んになり、検索拡張生成(RAG)が注目されています。RAGは、LLMに外部知識ベースから関連情報を提供することで、より正確で最新の情報に基づいた回答生成を可能にする技術です。 基本的なRAGシステムは多くの場合で十分な性能を発揮しますが、より複雑な質問や高度な用途では、検索精度やコンテキスト理解の向上など、さらなる改善が必要になります。Advanced RAGは、この課題に対応するために開発された、RAGを拡張する様々な技術や手法の総称です。 Advanced RAGでは、データ準備段階、クエリ処理、検索段階、検索結果の後処理、回答生成の各段階において、様々な改善策が提案されています。例えば、チャンクサイズの調整、ドキュメントパースの改善、メタデータによるフィルタリング、ハイブリッド検索などは、比較的容易に実装でき、大きな効果が期待できます。 さらに高度な改善としては、リランキング、クエリ書き換え、Small-to-Big Retrieval(階層チャンク)といった手法があります。これらの手法は、検索結果の精度や文脈理解を向上させるのに役立ちますが、処理時間やリソース消費とのバランスを考慮する必要があります。 また、近年注目されているGraphRAGは、ナレッジグラフを用いることで、文書間や概念間の複雑な関係性を表現し、多段階の推論を可能にする手法です。AWSのサービスを活用することで、Amazon NeptuneなどのグラフデータベースとAmazon BedrockなどのLLMを組み合わせ、GraphRAGを実装することができます。 Advanced RAGの手法を効果的に活用するためには、まずRAGシステムの性能を適切に評価し、具体的な問題点を特定することが重要です。評価システムを構築し、回答の質が悪いパターンを分析することで、最適な改善策を検討できます。 本記事では、Advanced RAGの概要、AWS上での実装方法、そして重要な改善ポイントについて解説しました。これらの情報を参考に、皆様のRAGシステムの精度向上に役立てていただければ幸いです。 引用元: https://aws.amazon.com/jp/blogs/news/a-practical-guide-to-improve-rag-systems-with-advanced-rag-on-aws/ Ban warnings fly as users dare to probe the “thoughts” of OpenAI’s latest model OpenAIは、最新の大規模言語モデル「o1」の内部処理を隠蔽し、ユーザーによるその動作の調査を制限しています。o1は、問題解決プロセスを段階的に実行し、その過程を「思考チェーン」として生成しますが、OpenAIはユーザーに対してはフィルターを通した解釈結果のみを表示し、生の思考チェーンは公開していません。 これは、o1の思考プロセスを監視し、...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240919
    Sep 18 2024
    関連リンク GitHub - ictnlp/LLaMA-Omni: LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level. LLaMA-Omniは、Llama-3.1-8B-Instructをベースに構築された、音声言語モデルです。音声指示に基づいて、テキストと音声の両方の応答を同時に生成し、低遅延かつ高品質な音声対話を実現することを目指しています。 LLaMA-Omniの特徴 Llama-3.1-8B-Instructを基盤とすることで、高品質な応答を生成します。遅延が226msと非常に短い、低遅延な音声対話を実現します。音声指示に対して、テキストと音声の両方の応答を同時に生成します。わずか4つのGPUで3日以内の短期間でトレーニングが完了しました。 制約事項 LLaMA-Omniは、MetaのLlama 3.1を基盤としているため、Llama 3.1のライセンスに準拠する必要があります。 LLaMA-Omniは、音声対話においてGPT-4レベルの性能を目指した、有望なモデルです。日本語のエンジニア、特に新人エンジニアにとって、音声認識や自然言語処理技術の理解を深める上で、参考になるリポジトリと言えるでしょう。 引用元: https://github.com/ictnlp/LLaMA-Omni Qwen2.5: A Party of Foundation Models! Qwen2.5は、アリババが開発したオープンソースの大規模言語モデル(LLM)の最新バージョンです。Qwen2の後継として、コーディングに特化したQwen2.5-Coder、数学に特化したQwen2.5-Mathを含む、様々なサイズ(0.5B〜72Bパラメータ)のモデル群が公開されました。 Qwen2.5の主な特徴は、以下の通りです。 知識量の増加と性能向上: 18兆トークンのデータで事前学習されており、Qwen2と比較して、MMLU、HumanEval、MATHなどのベンチマークで大幅な性能向上を実現しています。命令理解力とテキスト生成能力の強化: より複雑な指示への対応力、8Kトークンを超える長文生成、表などの構造化データの理解、JSONなどの構造化出力生成能力が向上しました。多言語対応: 中国語、英語、フランス語など29以上の言語に対応しています。トークン数: 最大128Kトークンの入力と最大8Kトークンの出力をサポートしています。 Qwen2.5-Coderは、5.5兆トークンのコード関連データで学習されており、小型モデルでも他のLLMと比較して競争力のあるコーディング性能を発揮します。Qwen2.5-Mathは、中国語と英語に対応し、CoT、PoT、TIRなどの推論手法を取り入れています。 性能面では、Qwen2.5-72BはLlama-3.1-70B、Mistral-Large-V2などのオープンソースLLMと比較して、優れた性能を示しています。また、APIベースのフラッグシップモデルであるQwen2.5-Plusは、GPT4-oやClaude-3.5-Sonnetなどの商用モデルと比較しても遜色のない性能を有しています。 利用方法としては、Hugging Face Transformers、vLLM、Ollamaなどのツールを用いて、API経由やローカル環境で利用できます。また、vLLMやOllamaでは、ツール呼び出し機能もサポートされています。 Qwen2.5は、オープンソースコミュニティの協力によって開発が進められています。今後も、マルチモーダルな情報処理や推論能力の強化など、更なる発展が期待されます。 制約として、3Bと72B以外のモデルはApache 2.0ライセンスで公開されています。また、Qwen2.5-PlusやQwen2.5-Turboなどのフラッグシップモデルは、Model Studioを通じてAPIアクセスのみ提供されています。 本要約は、Qwen2.5の主要な特徴と性能、利用方法、そして今後の展望を理解する助けとなることを目的としています。新人エンジニアの方でも、Qwen2.5の概要を掴み、今後の学習や開発に役立てられることを願っています。 引用元: http://qwenlm.github.io/blog/qwen2.5/ RLHF and RLAIF in GPT-NeoX GPT-NeoXは、大規模言語モデルの事前学習フレームワークとして広く使われているオープンソースのライブラリです。EleutherAIとSynthLabsは共同で、GPT-NeoXに人間の好みを反映させるための強化学習(RLHF)と好みに基づくAI学習(RLAIF)の機能を追加しました。 RLHFは、AIモデルを人間の好みに合わせるための効果的な手法で、要約などのタスクでモデルの性能向上に役立ちます。GPT-NeoXでは、RLHFの実装として、直接的選好最適化(DPO)とKahneman-Tversky最適化(KTO)という2つの手法が導入されました。DPOは、使いやすく安定した学習が可能なため、広く...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240918
    Sep 17 2024
    関連リンク Announcing Pixtral 12B Mistral AIは、画像とテキストの両方を理解するようにトレーニングされた、新しいオープンソースの多様な言語モデル「Pixtral 12B」を発表しました。 Pixtral 12Bは、Mistral Nemo 12Bをベースに、新たに4億パラメータのビジョンエンコーダを追加することで、多様なタスクにおいて優れた性能を実現しています。特に、図表や文書の理解、多様な推論、指示に従う能力に優れており、MMMU推論ベンチマークでは52.5%という高いスコアを達成しています。これは、他の多くのより大規模なモデルを上回る成果です。 Pixtral 12Bは、画像の解像度やアスペクト比を維持したまま処理できるため、ユーザーは画像処理に使用するトークンの数を柔軟に調整できます。また、最大128kトークンの長いコンテキストウィンドウ内に複数の画像を処理することも可能です。 Pixtral 12Bの主な特徴 画像とテキストの両方を理解多様なタスクで優れた性能を発揮テキストのみのベンチマークでも最先端の性能を維持可変の画像サイズとアスペクト比に対応最大128kトークンの長いコンテキストウィンドウ内で複数の画像を処理可能Apache 2.0ライセンス Pixtral 12Bのアーキテクチャ Pixtral 12Bは、画像をトークン化するビジョンエンコーダと、テキストと画像のシーケンスから次のテキストトークンを予測する多様なトランスフォーマーデコーダの2つのコンポーネントで構成されています。このアーキテクチャにより、任意のサイズの画像を複数処理できます。 Pixtral 12Bの活用方法 Pixtral 12Bは、Mistral AIが提供するチャットインターフェース「Le Chat」やAPIを通じて利用できます。また、mistral-inferenceやvLLMなどのライブラリを用いてローカル環境で実行することも可能です。 Pixtral 12Bは、オープンソースでありながら、多様な言語モデルの性能において新たな基準を打ち立てました。今後、様々なアプリケーションやワークフローに統合され、画像とテキストの処理において重要な役割を果たしていくことが期待されます。 引用元: https://mistral.ai/news/pixtral-12b/ Synchron Announces First Use of Amazon’s Alexa with a Brain Computer Interface Synchron社は、脳コンピューターインターフェース(BCI)を用いて、ALS(筋萎縮性側索硬化症)患者がAmazon Alexaを操作することに世界で初めて成功したと発表しました。 このBCIシステムは、脳の運動皮質の表面にある血管に、経静脈的に埋め込まれます。患者の思考を検知し、ワイヤレスで送信することで、重度の麻痺を持つ人々が、手を動かさずにデジタルデバイスを操作することを可能にします。 今回の発表では、ALS患者であるMarkさんが、SynchronのBCIシステムを使って、Amazon FireタブレットのTap to Alexa機能を通じてスマートホームを制御することに成功しました。照明のオンオフ、ビデオ通話、音楽再生、スマート家電の操作など、音声や手を使わずに、思考だけで様々な操作が可能になりました。 Synchron社は、Alexaとの連携を通じて、BCI技術の可能性を広げ、自宅内外の環境制御を容易にすることを目指しています。これにより、重度の麻痺を持つ人々の自立性向上に貢献できると期待されています。 Synchron社のCEOであるTom Oxley氏は、「SynchronのBCIは、神経技術と消費者向け技術のギャップを埋めるものであり、麻痺を持つ人々が再び環境をコントロールできるようになる可能性を示しています。」と述べています。 今回の成果は、BCI技術が、重度の麻痺を持つ人々の生活の質を向上させるための大きな可能性を秘めていることを示すものです。今後の研究開発によって、さらに多くの機能が追加され、より多くの患者が恩恵を受けることが期待されます。 引用元: https://www.businesswire.com/news/home/20240916709941/en/Synchron-Announces-First-Use-of-Amazon%E2%80%99s-Alexa-with-a-Brain-Computer-Interface**. Build RAG-based generative AI applications in AWS using Amazon FSx for NetApp ONTAP with Amazon Bedrock Amazon Web Services このブログ記事では、Amazon Web Services (AWS) 上で、Retrieval Augmented Generation (RAG) ベースの生成AIアプリケーションを構築する方法について解説しています。RAGは、大規模言語モデル(LLM)の出力に関連する情報を外部データソースから...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240917
    Sep 16 2024
    関連リンク Announcing LangChain v0.3 LangChain v0.3がPythonとJavaScriptの両方でリリースされました。このバージョンでは、Pydantic 1のサポート終了に伴い、Python版ではPydantic 2への移行とPython 3.8のサポート終了が主な変更点です。JavaScript版では、@langchain/coreの依存関係の変更やコールバックの非同期化など、いくつかの変更と機能追加が行われています。 主な変更点 Python: Pydantic 1のサポート終了に伴い、Pydantic 2への移行が行われました。Python 3.8のサポートが終了しました。 JavaScript: @langchain/coreをpeer dependencyとして明示的にインストールする必要が生じました。コールバックが非同期処理になりました。一部の非推奨機能が削除または移行されました。 新機能 多くの統合パッケージがlangchain-communityからlangchain-{name}に移行されました。統合ドキュメントとAPIリファレンスが改善されました。ツールの定義と使用が簡素化されました。チャットモデルとのやり取りのためのユーティリティが追加されました。カスタムイベントのディスパッチ機能が追加されました。 今回のバージョンアップでは、PydanticとPythonのバージョンのサポート終了に注意が必要です。また、JavaScript版では、@langchain/coreの依存関係やコールバックの処理方法に注意する必要があります。 LangChainは今後もマルチモーダル機能の強化、ドキュメントの改善、統合の信頼性向上に取り組んでいく予定です。 今回のリリースで、LangChainはより使いやすく、より強力になったと言えるでしょう。新人エンジニアの方々も、ドキュメントやチュートリアルを参考に、ぜひLangChainを活用してLLMアプリケーション開発に挑戦してみてください。 引用元: https://blog.langchain.dev/announcing-langchain-v0-3/ LLMのセキュリティ対策は「まだ道半ば」–Splunkの首席調査官が指摘 近年、生成AI、特に大規模言語モデル(LLM)の利用が急速に拡大していますが、Splunkの首席調査官であるShannon Davis氏によると、LLMとそのユーザーを保護するためのセキュリティ対策は十分とは言えない状況です。 LLMは複雑なシステムであり、従来の技術と同様に適切な管理と保護が必要です。しかし、LLMベースのアプリケーションの中には、セキュリティ面が十分に考慮されずに開発・導入されているものも多く、悪用されるケースも発生しています。 Splunkのセキュリティ調査チーム「SURGe」では、LLMアプリケーションに対する脅威を定義するフレームワークとして、OWASP Top 10 for Large Language Model Applicationsを活用しています。Davis氏は、LLM関連の脆弱性と脅威ベクターを理解することで、効果的な防御策を実装できると強調しています。 特に、プロンプトインジェクション、安全でない出力処理、DoS攻撃、機密情報の開示、モデルの盗難といった5つの脅威は注意が必要です。例えば、プロンプトインジェクションは、悪意のある入力を送り込むことでLLMを操作する攻撃であり、Splunkの機械学習技術などを活用して検知する必要があります。また、安全でない出力処理は、XSSやSQLインジェクションなどのリスクにつながるため、ウェブアプリケーションセキュリティの基本を適用することが重要です。 LLMのセキュリティ対策は、まだ発展途上であり、新たな脅威も出現する可能性があります。そのため、LLMの特徴を理解し、適切な防御策を講じる必要があります。SURGeチームの情報が、LLMベースのアプリケーションをより安全に保護する上で役立つことが期待されます。 引用元: https://japan.zdnet.com/article/35223831/ o1-previewの性能はどのくらい向上したのか?ーGPT-4oとの性能比較|IT navi OpenAIが新たに発表した推論モデル「o1-preview」と「o1-mini」は、従来のGPT-4oと比べて、数学や論理的な問題解決能力が大幅に向上しています。特に、複雑な数学問題や論理パズルにおいては、o1-previewがGPT-4oを上回る性能を示しました。 しかし、歴史や文学など、知識や文系的思考を必要とする問題では、GPT-4oの方が優れている傾向が見られます。また、o1-previewは、まだ文章表現力に課題があり、GPT-4oほどの自然な文章生成はできません。 o1-previewは、週30メッセージ、o1-miniは週50メッセージという利用回数制限...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240913
    Sep 12 2024
    関連リンク Build stateful conversational AI agents with LangGraph and assistant-ui LangChainと連携した新しいAIチャットフロントエンド「assistant-ui」が登場しました。これはReactアプリケーションに組み込めるツールで、会話型AIエージェントの構築を容易にします。 assistant-uiの主な特徴は、LLMの応答をストリーミング表示したり、ツール呼び出し結果を生成UIで分かりやすく表示したりできる点です。また、ユーザーがAIの行動を承認する「Human-in-the-loop」機能や、画像やドキュメントの入力に対応するなど、よりインタラクティブで使いやすいAIチャット体験を実現します。 さらに、LangGraph Cloudとの統合により、状態を保持した会話型AIエージェントを簡単に構築・デプロイできます。LangGraphは、AIエージェントの思考プロセスを管理し、状態を保持することで、より自然で複雑なタスクに対応できるようになります。 本記事では、LangGraphとassistant-uiの連携方法や、具体的な活用例として「Stockbroker Agent」が紹介されています。Stockbroker Agentは、株価情報取得、財務諸表分析、注文実行といった機能を備え、生成UIや承認UIを活用することで、ユーザーフレンドリーな投資支援AIとして機能します。 LangGraphとassistant-uiを組み合わせることで、開発者はAIエージェントの複雑な状態管理やUXデザインに煩わされることなく、より価値の高い機能に集中できます。これにより、より高度で使いやすいAIアプリケーションを迅速に開発できるようになります。 新人エンジニア向け補足 LLM:大規模言語モデル。テキスト生成などを行うAIモデル。生成UI:AIの処理結果を、ユーザーが理解しやすいように、表やグラフなどで可視化するUI。Human-in-the-loop:AIが判断を下す前に、人間が確認・承認する仕組み。React:Webアプリケーション開発に広く使われるJavaScriptライブラリ。LangGraph:LangChainが提供する、AIエージェントの思考プロセスや状態を管理するためのツール。 本記事で紹介されている技術は、会話型AIエージェントの開発において重要な役割を果たします。特に、状態を保持した複雑なタスクを扱うエージェントを構築したい場合は、LangGraphとassistant-uiの組み合わせが有効です。ぜひ、紹介されているドキュメントやサンプルコードなどを参考に、AIエージェント開発に挑戦してみてください。 引用元: https://blog.langchain.dev/assistant-ui/ Google Colab で Pixtral-12B を試す|npaka この記事では、Google Colab上でMistralが開発したマルチモーダルモデル「Pixtral-12B」を試した手順と結果について解説しています。Pixtral-12Bは、テキストと画像を同時に処理できる点が特徴で、1024×1024ピクセルの画像や最大128000トークンのコンテキストを扱うことができます。OCRや情報抽出にも適しています。 Colabでの実行には、Hugging FaceのAPIキーが必要で、vllmなどのパッケージをインストールする必要があります。モデルのロード時にはメモリ消費を抑えるため、max_model_lenを4000に設定することが推奨されています。 実際に画像とプロンプトを与えて推論を実行した結果、画像の内容を的確に記述したテキストが出力されました。記事では、実行結果の出力例やメモリ使用量なども掲載されており、Pixtral-12Bの実力を確認できます。 制約事項として、記事中の動作確認はGoogle Colab Pro/Pro+のA100環境で行われているため、他の環境では動作が異なる可能性がある点に注意が必要です。 この記事は、Pixtral-12Bを試してみたいエンジニアにとって、具体的な手順や注意点が分かりやすくまとめられており、大変参考になるでしょう。特に、画像処理や自然言語処理に興味のある新人エンジニアは、ぜひ参考にしてみてください。 引用元: https://note.com/npaka/n/n32773066f08d Enabling production-grade generative AI: New capabilities lower costs, streamline production, and boost security Amazon Web Services 生成AIは、概念実証(POC)段階から本番環境への移行が進み、ビジネスや消費者のデータや情報との関わり方に大きな変化をもたらしています。AWSは、生成AIの本番環境利用における課題解決を目指し、コスト削減、生産性向上、セキュリティ強化といった機能強化に取り組んでいます。 課題: 生成AIモデルの...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240912
    Sep 11 2024
    関連リンク Illuminate Illuminateは、Googleが提供する、音声データからノイズや不要な音声を除去する実験的なサービスです。現在、利用にはウェイティングリストへの登録が必要で、順番がきた際に利用開始の通知を受け取ります。 概要 Illuminateは、音声データの品質向上を目的とした、Googleの音声処理技術を活用した実験的なサービスです。音声データからノイズや不要な音声を除去し、よりクリアな音声を得ることが期待できます。 制約 現時点では、利用にはウェイティングリストへの登録が必須です。Googleは、利用開始の順番がきた際にユーザーに通知を送信する予定です。サービスの利用には、Googleアカウントが必要です。 補足 この要約では、サービスの利用方法や詳細な機能については触れていません。新人エンジニアが、Illuminateの概要を理解し、ウェイティングリストへの登録など、今後必要となるアクションを把握できるように、簡潔な説明に絞っています。 引用元: https://illuminate.google.com/home** Enabling complex generative AI applications with Amazon Bedrock Agents Amazon Web Services Amazon Bedrock Agentsは、複雑なワークフローを効率化し、自然で会話的なユーザーエクスペリエンスを提供する、インテリジェントでコンテキストを認識する生成AIアプリケーションを構築するためのAWSのサービスです。従来のLLMは単なる言語理解にとどまっていましたが、Bedrock AgentsはLLMを他のツールと組み合わせることで、より複雑なタスクに対応できるようになります。 例えば、旅行プランの作成を支援するAIアシスタントを開発する場合、Bedrock Agentsを使えば、LLMの推論能力に加えて、旅行APIへのクエリ、プライベートデータや公開情報へのアクセス、予算やユーザーの嗜好の管理など、様々な機能を統合できます。これにより、よりパーソナライズされた複雑な質問にも対応できるAIアシスタントを構築できます。 Bedrock Agentsは、LLM、オーケストレーションプロンプト、プランニング、メモリ、コミュニケーション、ツール統合、ガードレールという主要なコンポーネントで構成されています。LLMは基本的な推論能力を提供し、オーケストレーションプロンプトはLLMの意思決定プロセスをガイドします。プランニング機能は、抽象的なリクエストを具体的な実行可能なアクションに分解し、実行中に状況に合わせて計画を動的に更新できます。メモリ機能は、会話履歴や重要な情報を保存し、ユーザーの好みを学習してパーソナライズされたエクスペリエンスを提供します。コミュニケーション機能は、複数のエージェントを連携させることで、複雑な問題をより効率的に解決します。ツール統合機能は、様々なツールやリソースをLLMに接続し、コード生成やデータ分析などの機能を追加します。ガードレールは、AI生成コンテンツの精度と安全性を確保します。 Bedrock Agentsは、複雑なクエリを処理し、プライベートデータソースを利用し、責任あるAI原則を遵守するAIアプリケーションの構築と展開のための包括的なソリューションを提供します。開発者は、テスト済みの例やゴールデンユートランス、ゴールデンレスポンスを活用して、ユースケースに合わせたエージェントを構築し、生成AIアプリケーション開発を加速させることができます。 制約: Bedrock Agentsは、複雑な生成AIアプリケーションの構築を支援するサービスです。LLM、オーケストレーションプロンプト、プランニング、メモリ、コミュニケーション、ツール統合、ガードレールといったコンポーネントで構成されています。複雑なクエリへの対応、プライベートデータの利用、責任あるAI原則の遵守を可能にします。開発者は、テスト済みの例を活用して、ユースケースに合わせたエージェントを構築できます。 本要約が、新人エンジニアの方々の理解の一助となれば幸いです。 引用元: https://aws.amazon.com/blogs/machine-learning/enabling-complex-generative-ai-applications-with-amazon-bedrock-agents/ GitHub - felafax/felafax: Felafax is building AI infra for non-NVIDIA GPUs Felafaxは、NVIDIA以外のGPU(TPU、AWS Trainium、AMD GPU、Intel GPUなど)でAIワークロードを実行しやすくするための...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240911
    Sep 10 2024
    スライド 関連リンク PlayStation®5 Proを発表! PlayStation®史上最高の映像美の実現へ ソニー・インタラクティブエンタテインメントは、PlayStation®5の後継機となる「PlayStation®5 Pro」(PS5 Pro)を発表しました。PS5 Proは、より高精細なグラフィックと滑らかな60FPSのフレームレートを実現することを目指した、PlayStation®史上最も革新的なコンソールです。 PS5 Proの主な特徴は以下の通りです。 GPUの強化: 現行PS5と比べて、GPUのコンピュートユニット数が67%増加し、GPUメモリも28%高速化されました。これにより、ゲームのレンダリング速度が最大45%向上し、より滑らかなプレイ体験が期待できます。進化したレイトレーシング: よりリアルな光の表現を可能にするレイトレーシング機能が進化し、光線を従来の2~3倍の速度で投射できるようになりました。AIによる解像感向上: 機械学習ベースのAI技術「PlayStation®スペクトルスーパーレゾリューション(PSSR)」を搭載し、映像のディテールを大幅にアップスケーリングすることで、より鮮明なビジュアルを実現します。PS4ゲームの強化: 8,500以上のPS4ゲームをプレイ可能で、PS5 Proゲームブーストにより、一部のPS5およびPS4ゲームのパフォーマンスが向上する可能性があります。また、PS4ゲームの画質向上設定も利用できます。最新の通信規格対応: Wi-Fi 7に対応し、VRR(可変リフレッシュレート)や8Kでのゲームプレイにも対応しています。 PS5 Proは、PS5ファミリーのデザインを継承しつつ、より高性能なスペックを実現しています。Ultra HD Blu-rayディスクドライブの取り付けにも対応し、本体カバーの交換も可能です。希望小売価格は119,980円(税込)で、11月7日より発売予定です。 PS5 Proは、プレイヤーとゲームクリエイターの双方に、より高品質なゲーム体験を提供することを目指した次世代ゲーム機です。多くのPS5ゲームがPS5 Pro向けに強化され、「PS5 Pro Enhanced」の表記で識別できるようになります。今後も、PS5およびPS5 Proを通じて、最高のゲーム体験を提供していくとのことです。 引用元: https://blog.ja.playstation.com/2024/09/11/20240911-ps5pro/ Amazon EC2 P5e instances are generally available Amazon Web Services Amazon Web Services (AWS) は、新たに高性能なコンピューティングインスタンス「P5e」を一般提供開始しました。P5eインスタンスは、最新の第4世代インテルXeonスケーラブルプロセッサーと、最新のNVIDIA A100 TensorコアGPUを搭載しています。 P5eインスタンスの主な特徴 高性能なCPUとGPU: 第4世代インテルXeonスケーラブルプロセッサーとNVIDIA A100 TensorコアGPUにより、高度な機械学習やAI処理に最適です。高速なメモリとストレージ: 大容量メモリと高速なストレージにより、データ処理を高速化できます。高いネットワーク帯域幅: 高速なネットワーク接続により、データ転送を高速化できます。 P5eインスタンスの利用シーン P5eインスタンスは、以下のような用途に最適です。 機械学習モデルのトレーニングAI推論高性能コンピューティングデータ分析 これらの特徴から、P5eインスタンスは、大規模なデータセットを扱う機械学習やAIアプリケーション、高性能なコンピューティングリソースを必要とするアプリケーションに最適な選択肢となります。 制約事項 AWSは、P5eインスタンスの利用には、利用地域やインスタンスタイプ、リージョンなど、いくつかの制約があることを明記しています。詳細については、AWSの公式ドキュメントを参照してください。 新人エンジニアの皆さんは、この新しい高性能インスタンスを活用することで、より高度なアプリケーションを開発できるようになるでしょう。AWSの提供する豊富なサービスと組み合わせることで、さらに効率的かつ効果的なシステム構築が可能になります。 引用元: https://aws.amazon.com/blogs/machine-learning/amazon-ec2-p5e-instances-are-generally-available/ Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth Amazon Web Services この記事では、Amazon SageMakerを用いて、Meta Llama 3 8B Instructモデルの応答を人間の好みに合わせる方法について解説しています。特に、Direct Preference Optimization (DPO)という手法を用いることで、LLMの...
    Show More Show Less
    Less than 1 minute
  • 株式会社ずんだもん技術室AI放送局 podcast 20240910
    Sep 9 2024
    スライド 関連リンク 本システム導入の目標は、生産性向上なんかじゃありません タイム・コンサルタントの日誌から この記事では、ITシステム導入の目的は、単に生産性向上だけではないという主張が展開されています。著者は、日々の生活や業務における様々な事例を通して、ITシステムがもたらす真の価値は、生産性向上だけでなく、不安感情の低減、ひいてはより質の高い判断にあると訴えています。 例えば、古くなった車を使い続ける著者は、いざという時に「ちゃんと動くか」という不安を抱えています。しかし、カーナビなどのITシステムは、道順の確認や到着時刻の予測などを通して、その不安を解消し、より質の高い判断を可能にします。 企業におけるITシステム導入においても同様です。MESなどの導入で生産性が向上するとは限らず、経営層は「投資対効果」を疑問視することが多いです。しかし、ITシステムは、業務の可視化やリスクの低減を通じて、より的確な判断を支援し、結果的に組織の決断力を向上させることができます。 著者は、ITシステムの価値を3つの側面から捉えています。 1つ目は、生産性向上です。これは従来から強調されてきた側面ですが、唯一の価値観ではありません。 2つ目は、新しい能力の獲得です。ITシステムによって、今までできなかったことが可能になります。 3つ目は、リスク低減と判断の質向上です。ITシステムは、データに基づく情報提供を通して、より質の高い判断を支援します。 著者は、ITシステムの導入目的を、生産性向上という単一指標で評価することの危険性を指摘しています。そして、「スマートである」とは、単に生産性が高いだけでなく、不安を解消し、より質の高い判断を支援することだと主張しています。 日本の企業では、生産性向上が重視されがちですが、ITシステムの導入目的を多角的に捉え、組織の真の課題解決に繋げる必要があることを、この記事は示唆しています。新人エンジニアの皆さんも、ITシステムの導入効果を評価する際には、生産性だけでなく、これらの側面も考慮することが重要です。 引用元: https://brevis.exblog.jp/32736843/ Googleの画像生成AI「Imagen3」(ImageFX)の使用経験|Browncat Googleがリリースした最新画像生成AI「Imagen3」とそのサービス「ImageFX」について、実際に使用した経験に基づいたレビューです。 Imagen3は、プロンプト理解力、画像品質、テキストレンダリング機能において、他のAIモデル(DALL-E 3、Stable Diffusionなど)を凌駕する性能を持つとされています。特に、フォトリアルな画像生成に優れ、人物描写も自然で破綻が少ない点が特徴です。 ImageFXは、Googleアカウントがあれば無料で利用できますが、1日あたりの生成回数に制限があります。また、生成画像サイズは1024x1024ピクセルの正方形に限定されています。 一方で、Imagen3は表現規制が厳しく、プロンプトの記述には工夫が必要です。単語数を徐々に増やしながら、規制に引っかからないように調整する必要があります。 記事では、Imagen3と他のAIモデルで同一のプロンプトを用いた生成結果を比較しています。その結果、Imagen3はフォトリアルな画像生成において、他のモデルを上回るクオリティであることが示されています。また、テキストレンダリング機能も優秀で、画像内に指定したテキストを自然に反映させることができます。 Imagen3は、非常に高品質な画像生成が可能なAIモデルですが、表現規制や画像サイズ等の制約がある点に注意が必要です。しかし、その優れた性能は、今後様々な分野で活用される可能性を秘めていると言えるでしょう。新人エンジニアの方でも、Googleアカウントさえあれば気軽に試せるので、ぜひImageFXでImagen3の画像生成を体験してみてください。 引用元: https://note.com/browncatro1/n/n4f8343898225 Tanuki-8BとOllamaとDifyを使って日本語ローカルRAG構築 本記事では、東京大学の松尾・岩澤研究室が開発した日本語LLM「Tanuki-8B」を用いて、ローカル環境でRAGシステムを構築する方法を紹介します。 RAG(Retrieval-Augmented Generation)とは、LLMが外部の知識(ナレッジ)を参照して回答生成を行う技術です。...
    Show More Show Less
    Less than 1 minute