Nothing Special   »   [go: up one dir, main page]

タグ

llmに関するstealthinuのブックマーク (312)

  • ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント

    GoogleAmazon投資するAIスタートアップのAnthropicの研究チームが、ニューラルネットワークがどのように言語や画像を扱っているのかを解き明かす研究において、個々のニューロンを「特徴」と呼ばれる単位にまとめることでニューラルネットワークの中身を解釈しやすくなるという研究結果を発表しました。 Anthropic \ Decomposing Language Models Into Understandable Components https://www.anthropic.com/index/decomposing-language-models-into-understandable-components 大規模言語モデルは多数のニューロンが接続されたニューラルネットワークで、ルールに基づいてプログラミングされるのではなく、多数のデータを元にトレーニングを行うことでタス

    ニューラルネットワークの中身を分割してAIの動作を分析・制御する試みが成功、ニューロン単位ではなく「特徴」単位にまとめるのがポイント
    stealthinu
    stealthinu 2023/10/11
    おばあさん細胞はLLMの知見からも否定されグループ単位での特徴抽出されてるという研究結果。前回ニューラルネットワークブームで研究されてたことの答え合わせが色んなことで起きてる感。
  • ディープラーニングやLLMは、科学ではなく錬金術なのか〜最近AI業界をにぎわせる、ある議論について - BRIDGE(ブリッジ)

    Image by Digital Artist via Pixabay 機械倫理学者 Thomas Krendl Gilbert 氏との対談で、彼が今の AI を科学ではなく「錬金術」の一形態と呼んだことは、今週の AI Beat で多くの人を驚かせた。 これを作っている人たちは、自分たちがやっていることは魔法のようだと考えています。そしてそれは、AGI(汎用型 AI)や超能力のような、ここ数ヶ月の間に公の言説に浸透した多くのメタファーやアイデアに根ざしています。(Gilbert 氏) ソーシャルメディア上では、この評価に対して賛否が分かれた。しかし、彼がVentureBeat の記事に言及しているかどうかは不明だが、Meta のチーフ AI サイエンティスト Yann LeCun 氏は、ソーシャルメディアに「理論に魔法のような性質があると考える一部の人々が、善意の工学や経験科学を錬金術と

    ディープラーニングやLLMは、科学ではなく錬金術なのか〜最近AI業界をにぎわせる、ある議論について - BRIDGE(ブリッジ)
    stealthinu
    stealthinu 2023/10/01
    『LLMは今や公然と「基礎的なもの」として語られていますが、その基礎が何なのか、あるいは存在するのかどうかさえ、誰も明確に理解していません』そうなのよね。ある意味自然科学のシミュレータ
  • Streamlit+LangChainでストリーミング対応しつつPDFに複数の質問をさせる | Shikoan's ML Blog

    Streamlit+LangChainでChatGPTのストリーミング表示を実装してみます。PDFの検索ベースで、かつテンプレートの質問を連続的に行うという実践的な例を紹介します。LangChainのコールバックの実装と、UIへのつなぎ込みの部分に工夫が必要です。 はじめに Streamlit+LangChainでChatGPTをストリーミング表示させるのはいくつかありますが、単発の質問で複数の質問を表示させたり、ページを切り替えたときにチャット履歴を保持したり、実践的な例がほとんどなかったので試してみました。結論からいうとできました。ただ2023年9月現在、なかなかネットに出てこない情報を手探りで試した感はあったのでメモとしておいておきます。 最終的に作りたいもの アプリとしてのガワ(フロントエンド)はStreamlitを使う StreamlitはChatのインテーフェイスが用意されてお

    Streamlit+LangChainでストリーミング対応しつつPDFに複数の質問をさせる | Shikoan's ML Blog
    stealthinu
    stealthinu 2023/09/29
    PDFファイルの内容をLangChainでRetrievalな答えをChatでストリーミングで返す実装。shikoanさん。Streamlitの謎な動き部分についてが参考になる。
  • Xwin-LMの性能を日本語LLMやChatGPTと比較してみた|IT navi

    1.Xwin-LMの概要Xwin-LMは、中国科学院や精華大学の研究者らが開発した中国製の大規模言語モデル(LLM)です。 Metaが開発したオープンソースLLMのLlama 2をベースに、教師ありファインチューニング、報酬モデル、リジェクトサンプリング、人間フィードバックによる強化学習(RLHF)などを利用して調整したものとなっています。 今回、70億、130億、700億の3種類のパラメータ数のモデルが公開されており、700億パラメータのモデルは、LLMのベンチマークサイトのAlpacaEvalの評価基準(Text-Davinci-003に対する勝率)でGPT-4を追い抜き、第1位を獲得したとされています。 出典:https://tatsu-lab.github.io/alpaca_eval/ 2.Xwin-LMの利用方法今回は、Google Colab上で、130億パラメータの4ビット

    Xwin-LMの性能を日本語LLMやChatGPTと比較してみた|IT navi
    stealthinu
    stealthinu 2023/09/26
    Xwin-LMとChatGPT4、ELYZAとの比較。ただし13Bモデル。これを70BモデルとChatGPT3.5ともやりたい。70Bだと3.5より上、4より下、くらいになるのでは?
  • ChatGPT can now see, hear, and speak

    We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w

    ChatGPT can now see, hear, and speak
    stealthinu
    stealthinu 2023/09/26
    マルチモーダル化は約束されていた未来だったけど、画像/音声どちらもがGPT-4からたったの半年後でサポートされるのは想定以上の早さだった。これからもっと世界の速度があがるのだろう。
  • OpenAI Cookbook

    Processing and narrating a video with GPT's visual capabilities and the TTS API

    OpenAI Cookbook
    stealthinu
    stealthinu 2023/09/25
    OpenAIでAPI叩いて諸々やるときによくあるやりたいことの案内。こういうことだけは現時だとChatGPT4様に聞いても教えてくれないからなあ…
  • LLMを用いたLLMの自動評価について 〜可能性と注意点〜 - NTT Communications Engineers' Blog

    こんにちは、イノベーションセンターの杉GitHub:kaisugi)です。普段はノーコードAI開発ツール Node-AI の開発に取り組む傍ら、兼務1で大規模言語モデル(LLM:Large Language Model)について調査を行なっています。特に、日語を中心に学習された LLM への関心があり、awesome-japanese-llm という日語 LLM をまとめた Web サイトのメンテナンスにも取り組んでいます。 今回は、LLM に LLM の評価そのものを行わせるという新たなアプローチ(LLM-as-a-judge)についてご紹介します。 ChatGPT の登場以降、国内外で LLM の開発競争が進行しており、モデルの重みが公開されたオープンなモデルも続々と現れています。そのような中で、新しいモデルの構築だけでなく、どのモデルが優れているかを比較検討することが今後ます

    LLMを用いたLLMの自動評価について 〜可能性と注意点〜 - NTT Communications Engineers' Blog
    stealthinu
    stealthinu 2023/09/25
    「LLM-as-a-judge」GPT4などの強力なLLMにLLMの性能を評価させる仕組み。Rakudaベンチなどがこれにあたる。評価問題どうしたらいいんだろう?と思ってたらまさに今ホットな分野なんだな。
  • ソフトウェア開発の真の問題点は、コードを書くことではなく、問題の複雑さの管理にある - YAMDAS現更新履歴

    www.oreilly.com オライリー・メディアのコンテンツ戦略部門のバイスプレジデントであるマイク・ルキダスの文章だが、彼が数週間前、「コードを書くことが問題なのではない。複雑さをコントロールすることが問題なのだ」というツイートを見かけた話から始まる。彼はこれに感心したようで、これから何度も引用すると思うので、誰のツイートか思い出せればいいのにと書いている(ご存じの方は彼にご一報を)。 件のツイートは、プログラミング言語の構文の詳細や API が持つ多くの関数を覚えることは重要じゃなくて、解決しようとしている問題の複雑さを理解し、管理することこそが重要だと言ってるわけですね。 これは皆、覚えがある話だろう。アプリケーションやツールの多くは、最初はシンプルである。しかも、それでやりたいことの80%、いやもしかしたら90%をやれている。でも、それじゃ十分ではないと、バージョン1.1でいく

    ソフトウェア開発の真の問題点は、コードを書くことではなく、問題の複雑さの管理にある - YAMDAS現更新履歴
    stealthinu
    stealthinu 2023/09/25
    『そのうち最終的な目標をプロンプトとして与えれば複雑さを管理しながらエンタープライズの規模まで自己増殖のように規模を増していくプログラムを書けるようになる生成AIが登場』当然そうなるさ
  • GitHub - Xwin-LM/Xwin-LM: Xwin-LM: Powerful, Stable, and Reproducible LLM Alignment

    💥 [May, 2024] The Xwin-Math-70B-V1.1 and Xwin-Math-7B-V1.1 model achieve 51.9 and 44.7 pass@1 on the MATH benchmark and 90.6 and 84.4 pass@1 on the GSM8K benchmark. These are new SoTA models based on LLaMA-2! 💥 [Jan, 2024] We update XwinLM-V0.3 on AlpacaEval, ranking as top-1 among open-source models. 💥 [Nov, 2023] The Xwin-Math-70B-V1.0 model achieves 31.8 pass@1 on the MATH benchmark and 87.0

    GitHub - Xwin-LM/Xwin-LM: Xwin-LM: Powerful, Stable, and Reproducible LLM Alignment
    stealthinu
    stealthinu 2023/09/24
    衝撃的に凄い。70BでGPT-4超えると主張してるけど確かにだいぶ良い。少なくともGPT-3.5よりは上。そして7Bのモデルでもだいぶ賢い。llama.cpp使うと家庭のPCでも動く。Llama系が勝つ世界もあるかも。
  • Xwin-LM-70B-V0.1をOpen Interpreterから使ってみる。

    はじめに 前回の記事で Xwin-LM-70B-V0.1 と Llama-2-70B の出力結果の比較しました。今回は Open Interpreter のバックエンドとして Xwin-LM-70B-V0.1 を使ってみます。 私の PC のスペック[1] i7 13700K 3090 24GB DDR5 128GB 準備 llama-cpp-python を CUDA を有効にしてインストールする。 sudo apt install -y build-essential cmake python3 python3-pip python-is-python3 \ && CUDA_PATH=/usr/local/cuda FORCE_CMAKE=1 CMAKE_ARGS='-DLLAMA_CUBLAS=on' \ pip install llama-cpp-python --force-re

    Xwin-LM-70B-V0.1をOpen Interpreterから使ってみる。
    stealthinu
    stealthinu 2023/09/24
    非常に参考になった。特にllama-cpp-pythonをcuBLAS付けてコンパイルするのとか最初に読んだ時必要性わかってなくて後で苦労してからやっと意味わかった。これryeとかpipenvからやる方法がわからん。
  • 無料でGPT4越え!?ついに来たXwin-LM|shi3z

    今日のウィークリーAIニュースではnpaka大先生と一週間のニュースを振り返った。今週もいろいろあったが、なんといってもダークフォース、GPT-4越えと言われるXwin-LMである。中国製。 大先生もまだ試してないというので番組内で一緒に試してみた。 もちろんドスパラ製Memeplexマシン(A6000x2)を使用。 >>> from transformers import AutoTokenizer, AutoModelForCausalLM >>> model = AutoModelForCausalLM.from_pretrained("Xwin-LM/Xwin-LM-7B-V0.1") Downloading (…)lve/main/config.json: 100%|██████████████████| 626/626 [00:00<00:00, 56.2kB/s] [2023

    無料でGPT4越え!?ついに来たXwin-LM|shi3z
    stealthinu
    stealthinu 2023/09/23
    これでGPT4なみ?くらいの気持ちで読んでたら、なんと7B!?それはとんでもねえわ。どんな魔法??例のTextbook is All You Need.のおかげなのかな?これはまたさらに世界が加速するな。
  • Open Interpreterの使い方や料金を徹底解説!実際にアンケート結果のデータ分析をした活用事例を紹介!|Ainova

    1. インストール 1pip install open-interpreter ターミナルで次のコマンドを実行して、Open Interpreter をインストールします。 2. 対話型チャットの開始 インストール後、次のコマンドを実行して、ターミナルで対話型チャットを開始できます。 1interpreter Python で対話型チャットを開始するには、次のコマンドを実行します。 1import interpreter 2interpreter.chat() 2. OpenAI APIキーの設定 OpenAIAPIキーを利用する場合は設定が必要ですが、OpenAIのキーを使用しない場合は、Code-Llamaを利用することができます。 これで、Open Interpreterを利用する準備が整いました。 Open Interpreterの使い方 タスクの依頼・実行 Open Inter

    stealthinu
    stealthinu 2023/09/12
    あ、そうか。コマンドだけじゃなくPythonから呼べるから、Jupyterから使える=VSCode上で使えるのか。ターミナル上で日本語入力がいまいちだからなんかないかと思ってたがこれが一番よさそう。
  • もうみんなプログラマーになれるよ|shi3z

    僕の20年来の親友にnpakaというプログラマーがいるんだけど、彼はもう超凄い。何でもすごい。何でも書けるし何でも早い。を書くのもプログラムを書くのも、新しいわけわかんない説明書がバグだらけの環境に慣れるのも早い。 んで、これまではちょっとしたことも難しいことも全部npaka(布留川君)に頼んでたんだけど、最近二人とも独立したからつまんないこと頼むのは悪いなと思って「あれはできるんだっけ」くらいのことは自分で何とかしようかなと思った。 それでChatGPTに「Swiftで⚪︎⚪︎やるにはどうすんの?」と聞いたら、Swiftについてほとんど何も勉強してないのに作りたいものが何となくすぐにできてきちゃって、でもまあやっぱりChatGPTだと知識が古いので詰まったらネットで検索すると、だいたい結局npaka(布留川君)のページが出てきてやはり信頼と実績の大先生(仲間内ではそう呼ばれている)です

    もうみんなプログラマーになれるよ|shi3z
    stealthinu
    stealthinu 2023/09/11
    『だいたい結局npaka(布留川君)のページが出て』最近すごいこの状況になってる。RAG使う何かを作ってる人たちはみんなこの状況ではないか。
  • OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z

    凄いものが出てきてしまった。 ChatGPTの「Code Interpreter」が話題になったが、あれはあくまでクラウド上で動いているだけ。それを模してローカルで動作するようになった「Open Interpreter」は、衝撃的な成果である。 Open Interpreterのインストールは簡単。コマンド一発だ $ pip install open-interpreter起動も簡単 $ interpreter -yこれだけでOK。 あとはなんでもやってくれる。 たとえばどんなことができるのかというと、「AppleとMetaの株価の推移をグラフ化してくれ」と言うとネットから自動的に情報をとってきてPythonコード書いてグラフをプロットしてくれる。 凄いのは、ローカルで動くのでたとえばApplescriptを使ってmacOSで動いているアプリを直接起動したり操作したりできる。「Keynot

    OpenInterpreter / ついにAIがガチのアシスタントに!これは凄い、というか凄すぎる|shi3z
    stealthinu
    stealthinu 2023/09/08
    清水さん大げさだからと思って開いたがほんとに凄い。なるほどCode Interpreterと同等のがローカルで動くなら使えるツールの制限や外のデータにアクセスできな問題は解決される/試したすげえ
  • 「クリエイティビティなら人間がAIに勝つ」は本当か?試してみた|kouseinen

    最終成果物下記のような画像生成を自動で、かつ1分で生成できるようにしました。 A Crystal Heart, pulsating in tune with electronic music, as a cyberpunk whale glides gracefully amidst the Star's Dance. Every shimmer and echo exudes the vibrancy of a techno-organic symphony. Rendered with intricate precision, 8k resolution, capturing an electrifying, yet ethereal atmosphere --ar 16:9A Mosaic Dream, where gravity-defying tea swirls above g

    「クリエイティビティなら人間がAIに勝つ」は本当か?試してみた|kouseinen
    stealthinu
    stealthinu 2023/09/07
    「クリエイティビティ」を概念や分野の離れたキーワードを結びつけることととらえてstep by stepで画像生成のプロンプトに仕上げている。これはなかなか練られた手法だなと思う。
  • LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(ローカル編) | Shikoan's ML Blog

    LLaMA.cppのスループットをローカルで検証してみました。OpenLLaMA 7B/13Bをベースに、CPU/GPUのそれぞれの生成速度(token per second)と量子化の関係を実験的に調査します。 はじめに LLaMA.cppを使うとモデルを高速に軽量に実行できますが、量子化とスループットの関係、デバイスごとの関係がよくわからなかったので検証しました。 環境 LLaMA.cpp https://github.com/ggerganov/llama.cpp 最新版は変換後のモデルがggufフォーマットだが、旧版のggmlのフォーマットを使用(元の利用想定が、MiniGPT4.cppで旧版に統一する必要があったため) コミットIDはdadbed9になるように、git cloneしたあとcheckoutする ビルドはcuBLASを使ってビルド。実行時のみGPUを使うかどうかを切り

    LLaMA.cpp+(cu)BLASのCPU/GPUのスループット検証(ローカル編) | Shikoan's ML Blog
    stealthinu
    stealthinu 2023/09/03
    llama.cppで量子化bit数と速度の関係について。なんとGPUだと量子化しても速度には依存しないという結果に!CPUは量子化の強さにだいたい依存している。非常に参考になった。
  • LlamaIndexの性能向上のためのテクニックガイド|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Building Performant RAG Applications for Production 1. はじめに「LlamaIndex」によるRAG (検索拡張生成) のプロトタイプを作成するのは簡単ですが、それを番用に性能と堅牢性を備えた大規模な知識コーパスに拡張するのは困難です。 この記事では、「LlamaIndex」によるRAGの性能を向上させるためのさまざまなヒントを紹介します。最終的な目標は、検索 (retrieval) と生成 (generation) の性能を最適化し、より複雑なデータセットに対するより多くのクエリに幻覚なしに正確に答えることです。 2. 番用のRAGを構築するための考慮事項番用のRAGを構築するための考慮事項は、次のとおりです。 ・検索用のチャンクと合成用のチャンクの分離 ・より大きな文書セット

    LlamaIndexの性能向上のためのテクニックガイド|npaka
    stealthinu
    stealthinu 2023/09/01
    LlamaIndexの性能向上について手法がまとめられてる。今まさにやってることがやはり同じようなアイデアが出ていた。基本はデータセットの改善手法になりそう。
  • 【ローカルLLM】llama.cppの量子化バリエーションを整理する|Baku

    【追記】 この記事の内容はかなり古くなっているのでご注意ください。ブログに新しい記事(https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547)も上げてます。 「llama.cpp」はMacBookなどでLlamaベースの大規模言語モデルを動かすことを目標とするアプリケーション。一応CPUのみでも実行でき、GPUの非力な環境でも動かしやすい。 llama.cppの量子化モデルllama.cpp(GGML)では量子化によるモデルサイズ縮小が進んでいる。例えば、下記のHuggingFaceのRepoを見ると、GGML量子化モデルは「q4_0, q4_1, q5_0, q5_1, q8_0, q2_K, q3_K_S, q3_K_M, q3_K_L, q4_K_S, q4_K_M, q5_K_S, q5_K_M, q6_K」と多岐にわたる

    【ローカルLLM】llama.cppの量子化バリエーションを整理する|Baku
    stealthinu
    stealthinu 2023/08/30
    llama.cppにおける量子化の手法とbit数での品質低下度合い。この辺の技術を音声のほうに持って行けるだけの知識がない。
  • Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.

    Metaの「Llama 2」をベースとした商用利用可能な日語LLM「ELYZA-japanese-Llama-2-7b」を公開しました 記事のサマリーELYZAが「Llama 2」ベースの商用利用可能な日語LLM「ELYZA-japanese-Llama-2-7b」を一般公開 性能は「GPT-3.5 (text-davinci-003)」に匹敵、日語の公開モデルのなかでは最高水準 Chat形式のデモや評価用データセットも合わせて公開 既に社内では、130億、700億パラメータのモデルの開発も進行中 はじめにこんにちは。ELYZAの研究開発チームの佐々木、中村、平川、堀江です。 この度ELYZAは、Metaの「Llama 2」をベースに、日語による追加事前学習を行なった日語言語モデル「ELYZA-japanese-Llama-2-7b」と、そこにELYZA独自の事後学習を施した「

    Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました|ELYZA, Inc.
    stealthinu
    stealthinu 2023/08/30
    Llama2ベースで商用利用可能な日本語追加学習モデル。text-davinci-003相当の性能。これはだいぶ上がってきた。13Bとか70B!も学習させてるらしいのでChatGPT-3.5相当も夢ではなさそう。
  • ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog

    こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形で進んできたなあと実感しております。 自分は普段業務では ABEJA Platform という AI プロダクトやその周辺プロダクトのバックエンド開発とフロントエンド開発をやっているのですが、AI 業界所属していながら ChatGPT などの LLM 全然追いかけれていない状態になっちゃてて自責の念にかられているので、このブログ執筆という良い機会に ChatGPT の仕組みについて調べてみました。 記事の対象読者としては、以下のようになりま

    ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
    stealthinu
    stealthinu 2023/08/30
    ChatGPTなどLLMの仕組みについてTransformerの仕組みなどから説明。すごく細かく丁寧に説明されてるがある程度はDLわかってる人向け。