入力が違う
人間は離散トークンを読んでいない。胎児は羊水越しのくぐもった音から始まる。連続信号である。
胎児の耳から始める言語AI
離散トークンなし。Transformerなし。バックプロパゲーションなし。
連続信号 × 再帰ヘブネットワーク × 予測符号化。
人間の発達段階に沿って、胎児の耳から言語を獲得するAIアーキテクチャ。
| 人間の赤ちゃん | GPT-4 | |
|---|---|---|
| 学習データ | 数年の感覚体験 | 13兆トークン |
| パラメータ | 860億ニューロン(段階的に成長) | 1.8兆パラメータ(固定) |
| 学習コスト | 食事だけ | $100M+ |
| 入力形式 | 連続信号(音・光) | 離散トークン |
| 学習則 | 局所的(ヘブ則) | 大域的(バックプロパゲーション) |
スケーリングの限界は見えている。データもコストも指数関数的に増えるが、「理解」は増えない。 人間の赤ちゃんは数年で言語を獲得する。なぜAIはそれを再現できないのか。
人間は離散トークンを読んでいない。胎児は羊水越しのくぐもった音から始まる。連続信号である。
脳にバックプロパゲーションは存在しない。ニューロン同士が同時に発火すれば結合が強まる — ヘブ則。局所的で、生物学的に妥当な学習。
人間は「簡単なもの」から学ぶ。胎児期は韻律だけ。新生児期に音素。乳児期に言葉と物の結合。幼児期に文法。この発達段階をAIは完全に無視している。
| 従来のLLM | AmadeuSY LLM | |
|---|---|---|
| 入力表現 | 離散トークン | 連続信号(音響波形 → 蝸牛フィルタバンク) |
| モデル構造 | Transformer | 再帰ヘブネットワーク(成長する) |
| 学習アルゴリズム | バックプロパゲーション | 予測誤差ヘブ則(局所学習) |
胎児は妊娠20週頃から音が聞こえ始める。羊水・子宮壁・腹壁が高周波をカットし、残るのはピッチ・韻律・リズムだけ。
初期はニューロン8個で開始(胎児初期の未熟な脳)。予測誤差が収束すると新しいニューロンが追加される。 既存の学習済みニューロンは保持したまま、新ニューロンが統合される。生物の神経新生と同じ原理。
入力: 低周波のみ(~500Hz)。モデル: 8→32ニューロン。
学習目標: 韻律・リズムパターンの予測。母体の心拍(~70BPM)が最初の「学習の成功体験」。
入力: 全周波数帯域(~8kHz)。モデル: 32→128ニューロン。
羊水フィルターを段階的に解除。蝸牛チャンネルを16→64に拡張。複数話者の音声を導入。
マルチモーダル入力。音と視覚の同時入力による結合学習(grounding)。
「この音のパターンが聞こえるとき、この視覚パターンがある」という対応関係を獲得。
構文パターンの自己組織化。生成(出力)の仕組みを追加。
大規模音声データでの学習。言語構造の創発を検証。
| 要素 | 先行研究 | 状況 |
|---|---|---|
| 予測符号化 | Rao & Ballard 1999, Friston | 理論は確立 |
| ヘブ学習 | Hebb 1949, STDP研究群 | 神経科学では標準 |
| 蝸牛モデル | ガンマトーンフィルタバンク | 聴覚モデルとして定着 |
| 胎児聴覚学習 | DeCasper & Fifer 1980 | 認知科学の古典 |
| カリキュラム学習 | Bengio et al. 2009 | ML分野で実績あり |
| 特性 | Transformer | AmadeuSY |
|---|---|---|
| 入力 | 離散トークン(人間が定義) | 連続信号(モデルが構造を発見) |
| 学習 | BPTT(全計算グラフ保持) | ヘブ則(局所、リアルタイム) |
| メモリ | O(n²) attention | 再帰状態(固定メモリ) |
| 成長 | 固定アーキテクチャ | 動的ニューロン追加 |
| 解釈性 | ブラックボックス | 各ニューロンの役割を追跡可能 |
全計算グラフの保持が不要。メモリ効率が桁違いに改善。
局所学習のため、エッジデバイスでのオンライン学習が可能。
認知科学への貢献。人間の脳がどう学習するかの計算論的理解。
人間的な認知プロセスを持つAIは「なぜその判断をしたか」が追跡可能。EU AI Act等の規制対応に優位。
BPなしモデルはGPU依存が低い。IoT・モバイル・ウェアラブルでのオンライン学習に適用可能。
言語獲得の計算モデルとして、発達障害の理解に貢献。個別最適化学習の基盤技術。
| リスク | 深刻度 | 対策 |
|---|---|---|
| スケール時に言語構造が創発しない可能性 | 高 | 段階的検証。各段階で内部表現を可視化・評価 |
| 性能面でTransformerに勝てない | 中 | 競合軸を変える。性能ではなく認知モデルとしての妥当性 |
| マルチモーダル統合の複雑性 | 中 | 段階0-1を完全に動かしてから着手 |
羊水フィルター + 蝸牛フィルタバンク + 再帰ヘブネットワークの実装・学習。内部表現の可視化で韻律パターンの自己組織化を確認。
全周波数帯域での音素パターン学習。技術論文のプレプリント公開。
音声+視覚のgrounding実験。学会発表。
文法パターンの獲得と発話(生成)。実応用プロトタイプの構築。