Blog MiMi

ボイスレコーダーの音声から特定の音声を消して欲しい|音声解析のご相談

スポンサードリンク



こんばんわ。

ブログMiMiです。

本日は、アフィリエイトの話ばかりは退屈でツマラナイとのご連絡をクライアントよりいただきましたので、他の話にします。

アフィリエイトにはまったく興味がないし、既にお金を沢山持っていて、その内容を知っている経営者の人からすれば、とてもレベルが低い話であり、まったく意味のない話になりますから仕方がありませんが、一応は私の意志でコンテンツを決めています。

ですから、何をするかも既に知っていて、必ず中間摂取されるアフィリエイトの類ではなく、ご自身で経営者として儲かる元受の仕事をしている人からすれば、退屈な話題になるのは仕方がありません。

というわけで、本日は、他の話題として、ボイスレコーダーから特定の音声を消して欲しいといった音声解析業務のお話です。

これは、声紋解析をかねる事もあります。

ボイスレコーダって何?

知らない人もいるかもしれませんので、先にご説明すると、ボイスレコーダーとは、携帯型の電話機のような大きさの器械であり、音声を録音するためだけの器械でもあります。

最近は、スマートフォンなどでもソフトウェア的に、そのボイスレコーダー機能が付加されているようですが、所詮はソフトウェアとかアプリケーションですので、殆ど役に立つ事はありません。

ハードウェア単体で、ボイスレコーダーとしてのみ機能する製品にはどんなに進化したスマートフォンでは絶対に勝てませんので、覚えておいて下さい。必要であれば、ボイスレコーダーを購入する事をお勧めいたします。

どのような場合でも、重要な場面であれば、何でもできる十得ナイフのようなツールではなく、それしかできない専用のツールを必ず使うようにしてください。

まったく結果が変わってきますので、私はお勧めです。

 

ボイスレコーダーの音声をパソコンに取り込む

最近のボイスレコーダーは、SDカード等を媒体に使えて、それに記録されるようになってきていますが、信頼性などを考えると、やはり本体のメモリに直接記録するのが一番よいことになります。

ボイスレコーダーは、航空機のブラックボックスと呼ばれる墜落しても壊れないような音声記録装置ほどではありませんが、結構過酷な現場で使われることも多いですから、このあたりは使用前に必ず本番の際と同じ状態でボイスレコーダーの使用テストが必要です。

ただし、ほとんどの現場では、最新のボイスレコーダーになると、SDカードに記録していただいて問題はありません。

その場合は、SDカード(マイクロやナノといった小さいタイプも含みます)を、ボイスレコーダーから取り外して、そのままカードリーダーやパソコンに突き刺して、データ転送すれば大丈夫です。

または、USBケーブルをボイスレコーダーにつきさして、USBメモリとしてパソコンに接続できるボイスレコーダーも普通になってきています。時代の進化はすごいものがありますね。

ですから、なるべく長時間の音声を記録するために、音声は圧縮されて記録される事が多く、ほとんどが、MP3のような圧縮された形式になっているはずです。

ただし、実際には一回2時間以内の音声記録である事が多いですから、なるべく最高の音質で記録するようにしておいてください。

CD音質であっても、80分で700メガバイト程度ですから、最近のボイスレコーダー記憶容量であれば、全く問題ありません。

ステレオかモノラルか?になると、外部の専用マイクをつけているなど、よほどのケースを除き、基本的にはモノラルで大丈夫です。

SDカード等ではなく、ボイスレコーダー本体に直接音声を記録した場合は、そのままではファイルのコピーなどはできませんので、音声をアナログデーター、もしくはデジタルデータとして、パソコンに取り込むのですが、この時にあれば便利なハードウェアが、USBで接続する音声入出力アンプになります。

これは、大変便利で、最近のMacBookPro等は、音声入力端子などがありませんが、USBのアンプがあれば、簡単にどのような入力方法であっても、最高品質で音声をパソコンに取り込むことが可能ですし、普段の使用でも、高性能なヘッドフォンを使う場合などは、USBのアンプを通すと、余計なノイズが本当に全く聞こえないくらいの優れた音質になります。

音声解析をしなくても、音にこだわる人であれば、USBアンプは特にお勧めです。

 

ボイスレコーダーに記録された音声データから、特定の音声のみを消去することは可能なのか?

このご質問は、本当によくいただくご質問になります。

何しろ、全く知識のない人からすれば、音声データから特定の音だけを消す事が本当に可能なのか?と思われるのが普通だからです。

実際に、音声データから、特定の音のみを消去することですが、これは相当難易度が高い業務のひとつです。

あまりに解析および除去が難しいとなると、完璧に除去するのではなく、なるべく聞こえなくして、元の音声から本来必要である音声が除去されないように最新の注意を払って作業を行います。

音声データというものは、フォトショップのレイヤー構造で例えると分かりやすいので、こちらで例えてご説明します。

例えば、フォトショップPSD形式で保存されるような、レイヤーでいくつもの階層を作って分けてある画像データであれば、後から部分的な編集や修正を行うことが大変容易になります。

しかし、これらを一枚の画像として統合してしまったら、後から部分的に修正するのは大変困難になり高い専門的な技能が必要になる場合もあります。

※レイヤーとは、アニメのセル画のようなもので、背景と人物、電車や飛行機などを、すべて別の階層(透明なシート)として完全に分けて保存しているようなイメージです。それとは反対に、統合した画像というのは、その名のとおり、一枚ものの画像であり背景も人物もすべてがくっついた画像になります。

音声データというものは、常に画像が統合されているような状態ものであると考えると、とても分かりやすいと思います。

その状態で、特定の音声の分離をしていかないといけませんので、じつにもってして結構難しい業務になります。

必要な能力は、絶対音感や相対音感、更にはフォトショップで使っている完璧な色分解の特殊技能などになりますので、結構なスペックを要求される業務になります。

他にも特徴としては、こういった案件のクライアントは弁護士さんである事が多く、さらには直接のクライアントはそうでなくても全体的には弁護士さんが必ずかかわっている案件になりますので、弁護士さんや警察相手に正しくプレゼンテーションや折衝ができる能力も当然必須になりますし、裁判所で使う事が多くなりますので、責任がとれて見やすく正確な書類も書かないといけません。

これが、ボイスレコーダーから特定の音声を分離する業務になるのですが、どうでしょうか?

クライアントには、当然弁護士さんなども含まれますが、基本的には将来的に伸びる能力のある方、経営企画やマネージメントができて、お金を稼ぐ能力のある方が主体になります。

初心者の方はそれにあわせてご説明を行いますが、どう考えても全く才能がないと判断した方に関しては、なるべく早くその旨を伝えるようにしていますので、無駄な時間や費用は最低限度に抑える事が可能です。分からない事があればお気軽にどうぞ。

私から、全く才能がないと言われたらムカつく方もいるのですが、才能のない方にがんばればできますといってしまうと、それはアフィリエイトで稼げますといっている悪質な業者と同じようになってしまいますので、ご理解ください。

 

階層化されたレイヤー構造ではないのに、勝手にレイヤー構造になっている音声データ解析の難しさ

既にご説明しているとおり、音声データはモノラルとステレオの違いはあっても、常に一枚ものであり、独立したレイヤー上の階層状態のデータではありません。

しかし、音声データは一枚のデータの中で、とても複雑に階層化されているので厄介なのです。

スポンサードリンク




この説明だけでは、全く意味が分からないと思いますので、さらに詳しくご説明します。

音声データは画像と違い、横に伸びる時間軸と縦に伸びる周波数という縦と横のグラフがあります。

これは、画像ではなく、時間軸のある動画のようなイメージが近いと思います。

この音声の時間軸と周波数を視覚的にソフトウェアでパソコンのディスプレイに表示しながら、ヘッドフォンで同時に音声として確認していくのが、音声解析の基本的なスタイルです。

フォトショップの業務であれば、基本的には視覚しか使いませんが、音声の場合は、さらに聴覚も追加で使う事になるという状態になりますので、絶対音感とか相対音感が必要になってしまうのです。

ただし、絶対音感とか、相対音感がなければ、音声解析ができないといった話ではなく、それらがなくても一応の音声解析を行うことは可能ですが、簡単な案件はほとんどないため、音声の判別ができないといったハンディは、その後に大変困難な作業が待ち受けている事になるでしょう。

なぜなら、常に最初から最後まで、画面の目視と、ヘッドフォンの音声を確認しながらの作業になるからです。

ただ、特定の周波数帯の音声のピッチが上がっているのか?下がっているのか?が分かれば、何とかなるかもしれません。

倍音の取り扱いになると、それらの音を同時に聞き分けないといけませんので、やっぱり何とかならないかもしれません・・・・。

これについては、一回、ご自身でやってみれば意味がすぐに分かります。

 

人間の音声は単純なものではありません。これを声紋と言う、指紋のように個人を判別できるものとして扱います。

これまでに、倍音といった専門的な意味不明な言葉を聞いたことがあるでしょうか?

おそらくは、ほとんどの人が全く聞いたことがない類の言葉になりますが、これを簡単にご説明すると、人の声は何個もの周波数が重なって構成されて音として成り立っているもので、単一の周波数だけではないという意味です。

レイヤーの階層構造のように、周波数全域にわたって、人の声、いわゆる会話が音声データに記録されて、初めて会話として聞いた人が識別できる言葉になるというわけです。

ちょうど声紋を目で見ると、手の指の指紋のような形状をしていますので、ご自身の手を見れば声紋の視覚的なイメージがつかみやすいかもしれません。

人の音声は、指紋のようなイメージで音声データに記録されており、それが人によって全くデザインが異なるため、声紋判定といった個人を特定するような識別が可能になります。

だんだん意味が分からないとか、ちょっとこれは・・・といった感じで話が難しくなってきたでしょうか?

私はいつも、素人の方でもなるべく分かりやすい言葉で、ご説明させていただいているのですが、音声解析というのは、どう転んでも簡単な類の業務ではありませんので、意味が分からなくても特に恥ずかしいことではありません。

単純に、私の説明の方法が不十分だから、音声解析の意味が分からないと思っていただいてかまいません。

ただし、相当長い話になってしまいますので、適度にショートカットをしてご説明をしていますから、苦情などをいただいてもお受けすることはできませんし、対応もしません。

相談でしたらいつでもお受けしていますので、お気軽にどうぞ。

とにかく、人の音声は、いくつもの周波数の階層が重なって、ひとつの声になっていると思ってください。

このターゲットの音声を、同時に記録されている雑音やノイズ、他の人の声などと分離する業務が、音声解析になります。

 

音声の分離などは、ツールやソフトウェアを使ったら簡単にできるのではありませんか?といった疑問

確かに、最近は、ボタンひとつで、ノイズの除去ができますとか、ボーカルの音声が除去できますといったソフトウェアも沢山出てきていますが、そういった誰にでもできるノイズ除去や特定の音声除去とうソフトウェアは実務では全く役に立ちません。

しかし、プロの現場では、かならず、すべての音声を直接何度も聞きながら、専門技術のある人材が、一つ一つ手作業で行わないといけない仕事ですし、それ以外の方法はありませんので、自動化はできないのです。

ソフトウェアを使って、楽をして、誰にでもできるだろうと思っていたら、後で大変なことになりますので、ご注意ください。

楽をして難しい問題を解決するような、魔法のソフトウェア等は存在しませんので、当然といえば当然です。

 

最も難しい音声分離のデータとは一体何なのか?

たとえば、サイレンの音や猫の鳴き声、鳥の泣き声や蛙の鳴き声、赤ちゃんの鳴き声の分離業務であれば、それほど難しくはありません。実は結構簡単な部類に含まれます。

では、どういった音声データの分離、いわゆる取り除く業務が難しいのかといえば、ズバリ犬の鳴き声です。

この犬の鳴き声というのは、本当に曲者であり、周波数の全音域に渡って、犬の音声がとても大きな音量で記録されるため、本当に厄介なのです。

下は、50ヘルツから、上は44.1キロヘルツまで、犬の鳴き声は本当に全域に渡って、音声データに記録されており、その音量もとんでもない大きさで記録されますので、その区間で会話をしている人の声などは、完全にかき消されてしまっている場合もあります。

人間の声紋が、パソコンのディスプレイを触った後の指紋のようなイメージだとすれば、犬の鳴き声は、パソコンのディスプレイに、大量のペンキを投げつけたようなイメージになりますので、他のものが何も見えなくなるような状態です。

ここで、ヘルツとかキロヘルツといった言葉が出てきましたが、これは、音域を表す言葉になります。

たとえば、CDであれば、44.1キロヘルツ、一般的ではないDATであれば、48キロヘルツの音を記録できます。

DATに関しては、深く気にしなくてかまいません。CDよりも高い音質で記録できるデジタルテープである事と、そのDATという名前だけ覚えておけば大丈夫です。

難しく考えずに、CDに記録できる音声は44.1kHzであり、これ以上の音域は人間には殆ど聞こえないので、必要がないと思ってください。

犬の泣き声は、更に広域の周波数帯まで到達している場合もありますが、その場合は無駄なのでカットしています。

なぜなら、特定の音声分離後は、製作した音源データをCDで納品する事がほとんどですので、CDに記録されないような音声データは最初から必要がないためです。それにクライアントも必要としていませんので、無用の長物になります。

そもそも、人が識別できないような音声はどこに言っても必要がない事が殆どなのです。

犬の鳴き声でも、クゥーンとかならまだよいのですが、ワンワン!ワンワン!ワンワン!といった泣き声は、本当に私でも解析や除去、分離に苦労する業務です。

だから、何とかしてくださいといって、私に相談や依頼が来るといった話になるのですけど・・・・。

音声解析はとても大変な業務になりますが、大変やりがいのある業務でもあります。

先ほどご説明したとおり、私が行っている、フォトショップ教室で音声解析もご説明してますので、興味のある方はご相談ください。

なにしろ、フォトショップが完璧に使いこなせないと、とてもできない仕事ですからやりがいがありますので、仕方がありません。

それに、請求や報酬も決して安くありませんので、結構高額な案件に分類されると思っていただいてかまいませんので、こういった仕事をしてみたい方にもお勧めです。

本日は、クライアントである経営者の方から、自分が理解しているレベルの低いアフィリエイトの話は退屈である、といったご指摘を受けましたので、音声解析についてのお話を簡単にご説明させていただきました。

ワンワンワンワンといった犬の鳴き声を、高性能なヘッドフォンで絶対音感とか、相対音感のある人が、長時間聞き続けると、とてもヤバイ精神状態になる事は秘密です。

よろしくお願いいたします。


誰にも言えない悩み相談なら→ 【電話占いヴェルニ】会員&募集

スポンサードリンク







コメントは受け付けていません。