Global Trend Radar
Web: note.com US web_search 2026-05-01 13:02

Google Gemini... | note(ノート)

元記事を開く →

分析結果

カテゴリ
AI
重要度
78
トレンドスコア
42
要約
Google Geminiで7時間分の音声を一気に文字起こし。しかも無料!【プロンプト付】|本郷喜千 Google Geminiで7時間分の音声を一気に文字起こし。しかも無料!【プロンプト付】 539 本郷喜千 2024年10月23日 21:12 はじめに 会議やセミナーの録音データを文字起こしする場合にAIを使用するのが普及してきました。 Noteにもいろいろと方法をご紹介してきました。 今回は、Google Geminiで、7時間と
キーワード
Google Geminiで7時間分の音声を一気に文字起こし。しかも無料!【プロンプト付】|本郷喜千 Google Geminiで7時間分の音声を一気に文字起こし。しかも無料!【プロンプト付】 539 本郷喜千 2024年10月23日 21:12 はじめに 会議やセミナーの録音データを文字起こしする場合にAIを使用するのが普及してきました。 Noteにもいろいろと方法をご紹介してきました。 今回は、Google Geminiで、7時間という長時間のセミナーの文字起こしと、文章整形を行いました。 Geminiであれば、mp3ファイル形式などの音声データをアップロードし、適切なプロンプトを入力することで、文字起こしだけではなく、配布できるレベルまでの文章の体裁を整えるところまで行えます。 Geminiは、以下のGoogle AI Studioから無料で利用できます。 Google AI Studio The fastest path from prompt to production with Gemini aistudio.google.com LINE Clova Noteが有料化した現在、無料で大量の音声文字起こしできるGoogle Geminiは貴重です。 Geminiの特長 Geminiという大規模言語モデルシリーズは、元々GoogleのAI研究チームが開発したBERTというTransformerのうちのエンコーダ部分を切り出して作られたモデルから発展したものです。 Transformerは、入力シーケンスを理解するエンコーダと、出力を生成するデコーダから構成されていますが、BERTはエンコーダ部分だけを使用しています。 これが何を意味しているかというと、文章の要約や翻訳など、入力されたテキストの文脈や全体像を理解することに長けているモデルです。 そのBERTから発展した(と思われる。非公表)モデルであるGeminiも、当然その長所を受け継いでいるため、200万トークンという超長文(ロングコンテキスト)を扱うことができます。 ロングコンテキスト | インディ・パ | 生成AI教育・研修・コンサルティング はじめに 生成AI、特に大規模言語モデル(LLM)の進化に伴い、「ロングコンテキスト」という概念がますます重要視されていま indepa.net と、長くなりましたが、要は、Geminiは長いトークンや入力の処理は得意ですよ、ということです。 Geminiでの文字起こし モデル選び まず、文字起こしにあたっての大規模言語モデルを選びます。画面の右サイドのドロップダウンリストから選びます。 おすすめは、現段階で一番賢いと言われる「Gemini 1.5 Pro 002」です。賢い分、出力はゆっくりです。 (2025年3月現在、モデルはアップデートされ、Gemini Pro 2.0 Flashが良いです。) 音声ファイルのアップロード 続きまして、音声ファイルのアップロードです。 今回は、ZOOMミーティングの収録から、音声部分を抜き出したmp.3ファイルから、文字起こしを行います。 以下のように、音声ファイルをドラッグ&ドロップでアップロードします。 以前は、音声ファイルを一旦Googleドライブに入れてから、音声文字起こしを行うという面倒な手続きが必要でした。 しかし、最近この手続きがなくなり、ChatGPTのように、直接この画面に音声ファイルを放り込むだけで、文字起こしをできるようになり、圧倒的に利便性が上がりました。 GoogleDriveがすぐに満杯になるのを心配する必要もなくなりました。 文字起こしプロンプトの入力 次に、音声ファイルから文字起こしを行うために、Geminiにプロンプトを入力します。 今回は、文字起こしに特化して、以下のようなプロンプトとしました。 このファイルは{大規模言語モデルのプロンプトエンジニアリング}に関するセミナーを収録した録音データです。全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。 すると、以下のように文字起こしがはじまります。 これを7時間分行います。 出力は一度では終わりませんので、出力が止まったら、「続けてください」などと続行の指示を出して、最後まで出力します。 この出力テキストをコピーして、テキストファイルなどに保存すれば、文字起こしの完成です。 文章としての体裁を整える方法 ただ、通常は、これだけでは物足りないというか、利用できるには至りません。 「えー」とかとか、「まぁ」とか「で、」とかのオノマトペが入っているからです。 さらには、そもそもが喋り言葉であるため、報告書であったり、何かに使用するための文章としては不完全です。 この点を修正しなければなりません。 これを人力で直すと、多分1日では終わらないでしょう。 それを大規模言語モデルは自動的にやってくれるわけです。 Geminiに入力するための文章の体裁を整えるプロンプト 会議の文字起こしの場合は、以前書きました以下の記事のプロンプトがご参考になるかと思います。 今回のような、1人が喋っているセミナーの文字起こしの場合は、もっとシンプルなプロンプトで足ります。以下はプロンプトの例です。 以下は{プロンプトエンジニアリング入門}というセミナー音声の文字起こし文です。内容を一切省略せずに、口語体から文章体にしてください。 「口語体から文章体に」という点がプロンプトのキーポイントです。 参考までに例を載せておきます。口語体と文章体では文章の印象が随分違います。 【文字起こしそのまま:口語体】 では始めさせていただきます。はい。では、画面、画面共有させていただいて 見えてますでしょうか? はいはい、見えてますか? はい、それでは、えー 始めさせていただきます。 ChatGPTプロンプトエンジニアリング入門講座、インディバ株式会社の本郷です。よろしくお願いいたします。 今日は6時半 か、ま、もうちょっと過ぎまでお時間いただいておりまして、長丁場になりますが、えー、楽しくやっていきたいと思っております。 あ、今Google画面なってますか?あれ?ちょっと待ってください。が 共有がちょっと うまく行ってないみたいなので。 えーと、すみませんね、ちょっと、最初のところは重要なので。 オッケーですか?ちょっとずらしますね。 ああ、これは連続ではずれないかな?はい、分かりました。はい、ではChatGPTの画面にスライドする時は、またちょっと すいません、ちょっと操作だけ練習させてください。 【文章としての体裁を整えたもの:文章体】 では、始めさせていただきます。画面共有させていただき、見えておりますでしょうか?はい、見えておりますか?はい。それでは、始めさせていただきます。ChatGPTプロンプトエンジニアリング入門講座、インディバ株式会社の本郷です。よろしくお願いいたします。 本日は6時半、もしくはそれより少し過ぎるまでお時間をいただいており、長丁場になりますが、楽しく進めていきたいと思います。現在、Googleの画面になっておりますでしょうか?少々お待ちください。共有がうまくいっていないようです。すみません、最初の部分は重要なので、少々お待ちください。よろしいでしょうか?少し位置をずらします。これは連続ではずれないでしょうか?はい、分かりました。では、ChatGPTの画面にスライドする際は、また操作の練習をさせてください。 さらにこの後に、目指す文章の形式に合わせて、プロンプトを作成して変更していけば良いわけです。例:報告書、議事録、解説文、など 録音データから、一気に報告書にすることも、プロンプトを書けばできますが、大規模言語モデルは、一度に複数のタスクを与えて良いパフォーマンスを出すような仕組みになっていません。 個別のタスクに細かく切り分けて、タスクごとにプロンプトを作成して、段階的にコンテンツを仕上げていく方が、良い結果を得られます。 アップデート版(2024.10.29) その後、口語体の長文を文章体に変換するための、さらに良い【決定版】プロンプトができましたので、ご紹介させてください。 まとめ ビデオ録画や音声の録音から文字起こしして記録を作成する作業は、誰にとってもその役割が回ってくる可能性があります。 仕事だけではなく、コミュニティーの会合でもそのような仕事はあるはずです。 そんな時にサクッと無料で30分程度で文章を作成できるようにすれば、ものすごく便利ですし、喜ばれると思います。 こんな身近なところからAIを活用していくのは、周囲の理解も得やすく、良いのではないでしょうか? とにかく、この大ボリュームの情報処理を難なくこなすGeminiはすごいです。 さすがに、7時間分のデータは、1日分の利用制限の上限にひっかかりまして、無料利用枠の範囲では終わりませんでした。 ですので、別のGoogleアカウントに切り替えて続行しました。 ということで、長文データ処理にはGeminiのご利用をオススメします。 投資に「軸」を持て! ChatGPTではじめるAI株式投資 (【ChatGPTを投資に活用する実践ガイド! 購読者特典あり!】) amzn.to 2,200 円 (2026年04月29日 04:54時点 詳しくはこちら) Amazon.co.jpで購入する 「言葉の力」でAIを操れ! ChatGPT はじめてのプロンプトエンジニアリング (生成AI を自在に使いこなして仕事を効率化!) amzn.to 2,200 円 (2026年04月29日 04:54時点 詳しくはこちら) Amazon.co.jpで購入する ChatGPT 誰でも1時間でできる! はじめてのGPTsのつくり方 (オリジナルAI アプリをつくって、面倒な仕事を任せよう!) amzn.to 2,200 円 (2026年04月29日 04:54時点 詳しくはこちら) Amazon.co.jpで購入する GPTsアプリ無料デモ – ChatGPTで今すぐお試しいただけます | インディ・パ|前提が結論を決める ご利用方法:・アイコン画像をクリックすると、ChatGPT内でGPTsアプリが開きます。・全てのChatGPTユーザーがこ indepa.net ダウンロード copy いいなと思ったら応援しよう! チップで応援する #生成AI #Gemini #Google #文字起こし #mp3 #音声ファイル #bart 539 5 本郷喜千 フォロー 新刊『ChatGPTではじめるAI株式投資』→ https://amzn.to/3KRREel インディ・パ株式会社代表|AI時代の意思決定を支援。AI教育・コンサルティングを行いながら「知の構造化」「問い」をテーマに考えを発信しています。

類似記事(ベクトル近傍)