Одне Рівняння: Універсальна Конвергенція від Фундаментальних Констант до Градієнтного Спуску One Equation: Universal Convergence from Fundamental Constants to Gradient Descent

Іван ПасічникIvan Pasichnyk
Березень 2026 — Чернетка v3.0March 2026 — Draft v3.0
Abstract

Ми пропонуємо одне припущення: всесвіт має обмежену обчислювальну потужність. Ми показуємо, що це єдине припущення, поєднане з відомим рівнянням класичної механіки (загасаючий гармонічний осцилятор), відтворює 55 точок конвергенції з фізики, хімії, біології, нейронауки та ШІ. Під цим припущенням всі шари реальності — від кварків до градієнтного спуску — є екземплярами одного оптимізатора з двома параметрами: α (тиск) та β (дисипація). Їхнє співвідношення α/β визначає фазову діаграму, ізоморфну кривій Єркса-Додсона. Ми верифікуємо підхід емпірично, виводячи з рівняння розклад імпульсу для тренування нейромереж (μ = 1 − 2√α), який без жодного тюнінгу досягає точності еквівалентної стандартним методам (85.54% vs 85.43% baseline на CIFAR-10) з найшвидшою ранньою конвергенцією (50.9% vs 43.0% після першої епохи).

We propose one assumption: the universe has finite computational capacity. We show that this single assumption, combined with a known equation from classical mechanics (the damped harmonic oscillator), reproduces 55 convergence points across physics, chemistry, biology, neuroscience, and AI. Under this assumption, all layers of reality — from quarks to gradient descent — are instances of a single optimizer with two parameters: α (pressure) and β (dissipation). Their ratio α/β produces a phase diagram isomorphic to the Yerkes-Dodson curve. We verify the approach empirically by deriving a momentum schedule for neural network training (μ = 1 − 2√α) that, with zero tuning, achieves accuracy equivalent to standard methods (85.54% vs 85.43% baseline on CIFAR-10) with the fastest early convergence (50.9% vs 43.0% after epoch 1).

24ОбчисленіComputed
16ЯкісніQualitative
5Інший механізмDifferent mechanism
13НевідоміUnknown
7ЕрEras

Розділ 1Section 1 Припущення The Assumption

Припустимо одне: всесвіт має обмежену обчислювальну потужність.

Це не метафора. Фізика підтверджує обмеження обчислень:

Перший наслідок: обмежена потужність → черга пріоритетів. Всесвіт спрямовує обчислення на шар з найвищим тиском. Коли цей шар досягає рівноваги — обчислення переходять на наступний.

Ключовий момент: шари не «з'являються» і не «розблоковуються». Вони завжди були. Змінюється лише фокус обчислень.

scheduler: while Δmax > 0 → compute(layer with max |Δ|)
Всесвіт переносить увагу коли попередній шар збігсяThe universe shifts attention when the previous layer converges

Чому ядра перед атомами, атоми перед молекулами, молекули перед клітинами? Під нашим припущенням: тому що тиск на ядерному масштабі був сильнішим. Обмежений ресурс пішов туди першим.

Другий наслідок: обмежений процесор потребує єдиного алгоритму, який працює на кожному масштабі. І дійсно — в різних дисциплінах ми бачимо різну нотацію для однієї й тієї ж операції: dE/dx = 0, ∇L → 0, DKL(q||p) → min, F = −kx, P(θ|data) ∝ P(data|θ)P(θ). Різна нотація — одна операція: знайти точку де протилежні тиски балансуються.

Let us assume one thing: the universe has finite computational capacity.

This is not a metaphor. Physics confirms compute limits:

First consequence: finite capacity → priority queue. The universe allocates compute to the highest-pressure layer first. When that layer converges — compute shifts to the next.

Key point: layers don't “emerge” or “unlock.” They were always there. Only the computational focus changes.

Why nuclei before atoms, atoms before molecules, molecules before cells? Under our assumption: because the pressure at the nuclear scale was stronger. The finite resource went there first.

Second consequence: a finite processor needs a single algorithm that works at every scale. And indeed — across different disciplines we see different notation for the same operation: dE/dx = 0, ∇L → 0, DKL(q||p) → min, F = −kx, P(θ|data) ∝ P(data|θ)P(θ). Different notation — one operation: find the point where opposing pressures balance.

Розділ 2Section 2РівнянняThe Equation

Рівняння нижче — не нове. Це одна з найстаріших і найбільш перевірених формул у науці, від Ньютона (1687) через Поляка (1964) до Кінгми (2014). Ми не стверджуємо авторство. Під нашим припущенням, ці автори помічали фрагменти одного й того ж планувальника. Повний історичний контекст — у розділі «Дискусія».The equation below is not new. It is one of the oldest and most verified formulas in science, from Newton (1687) through Polyak (1964) to Kingma (2014). We claim no authorship. Under our assumption, these authors were noticing fragments of the same scheduler. Full historical context is in the Discussion section.

2.1 Базова форма2.1 Basic Form

V(t+1) = V(t) + α · [R(t) − P(V(t))]
Під нашим припущенням — це алгоритм, який планувальник запускає на кожному шаріUnder our assumption — this is the algorithm the scheduler runs at each layer

Де:

Where:

2.2 Повна динаміка з імпульсом та дисипацією2.2 Full Dynamics with Momentum and Dissipation

velocity(t+1) = (1 − β) · velocity(t) − α · Δ(t)
state(t+1) = state(t) + velocity(t+1)
Два параметри: α (тиск/зв'язок) та β (дисипація/демпфування). Один оптимізатор, різні параметри.Two parameters: α (pressure/coupling) and β (dissipation/damping). Same optimizer, different parameters.

Це загасаючий гармонічний осцилятор — одна з найбільш вивчених систем у фізиці. Під нашим припущенням, два параметри створюють три режими:

This is a damped harmonic oscillator — one of the most studied systems in physics. Under our assumption, two parameters create three regimes:

2.3 Еквіваленти у відомій нотації2.3 Equivalents in Standard Notation

ОбластьСтандартна формулаВідображення
Класична механікаF = −kxΔ = −kx, α = dt/m, β = тертя
ЕлектростатикаdE/dr = 0Δ = FКулон − Fквантовий
Градієнтний спускθ = θ − α∇LΔ = ∇L, α = learning rate, β = weight decay
Фільтр Калманаx̂ = x̂ + K(z − Hx̂)Δ = z − Hx̂, α = K (Kalman gain)
Вільна енергія (Фрістон)DKL(q || p) → minΔ = ∇DKL
Баєсівське оновленняP(θ|D) ∝ P(D|θ)P(θ)Likelihood тягне до даних, prior чинить опір
RLHF вирівнюванняπ* = argmax[R − βKL(π||πref)]Reward проти KL divergence штрафу

Розділ 3Section 355 Точок Конвергенції55 Convergence Points

Якщо всесвіт — обмежений процесор з єдиним алгоритмом, тоді кожна стабільна структура — від ядра до нейромережі — є результатом одного й того ж обчислення на різних шарах. Нижче 55 таких результатів. Для кожного: всі значущі вектори, їх кількість (N), рівноважне значення, жорсткість (κ) та статус верифікації. З 55 точок: 24 обчислювально верифіковані, 16 якісні, 5 працюють через інші механізми, 13 невідомі.If the universe is a finite processor running a single algorithm, then every stable structure — from nuclei to neural networks — is the result of the same computation at different layers. Below are 55 such results. For each: all significant vectors, their count (N), equilibrium value, stiffness (κ), and verification status. Of 55: 24 computationally verified, 16 qualitative, 5 operate via different mechanisms, 13 unknown.

# Era Точка конвергенції Значення Вектори ← (стабілізуючі) Вектори → (дестабілізуючі) N κ Статус

Розділ 4Section 4Інтерактивна ВерифікаціяInteractive Verification

Верифікуйте рівняння на чотирьох масштабах. Змінюйте α та β — однаковий патерн від субатомного до ML.Verify the equation at four scales. Adjust α and β — same pattern from subatomic to ML.

5.1 — Радіус Бора (a0 = 0.529 Å)
Кулонівське притягання vs квантовий кінетичний тиск. Найпростіша 2-векторна конвергенція в природі.
V(t+1) = V(t) + α · [1/r² − a0/r³]
V = rВідстань e− від ядра
R = FКулонПритягання ← (1/r²)
P = FквантовийТиск → (a0/r³)
a0 = 0.529 ÅТочка рівноваги
0.20
0.70
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА — баланс α/β забезпечує конвергенцію
Сили та позиція
r = 2.00 Å
0.000FCoulomb (←)
0.000Fquantum (→)
0.000Δ = R − P
2.000r (Å)
Конвергенція r(t) → a0
Δ(t) → 0 (похибка)
Потенціальна енергія E(r)
Натисни ▶ Запустити щоб побачити як електрон знаходить рівновагу. Початок на r = 2.0 Å. Кулон (←) сильніший за квантовий тиск (→). Δ ≠ 0 — система не в рівновазі.
5.2 — Енергія зв'язку дейтерію (B(d) = 2.22 МеВ)
Ядерне притягання vs квантовий кінетичний тиск. Найпростіше ядро: один протон + один нейтрон.
V(t+1) = V(t) + α · [Fnuclear(r) − Fkinetic(r)]
V = rВідстань p-n (фм)
R = VядернаСильна сила ←
P = TкінетичнаКвантовий тиск →
req ≈ 2.0 фмРівновага
0.25
0.65
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА
Сили та позиція
r = 4.0 fm
0.000Fnuclear (←)
0.000Fkinetic (→)
0.000Δ
4.000r (fm)
Конвергенція r(t)
Натисни ▶ Запустити. Нейтрон починає на r = 4.0 фм. Ядерне притягання тягне всередину, квантовий тиск штовхає назовні.
5.3 — Потенціал спокою мембрани (Vm = −70 мВ)
Na+/K+ помпа vs канали витоку. Перша ДИНАМІЧНА рівновага — потребує безперервної енергії.
V(t+1) = V(t) + α · [Ipump − Ileak(V)]
V = VmПотенціал мембрани (мВ)
R = IпомпаNa+/K+ помпа ← (гіперполяризує)
P = IвитікВитік іонів → (деполяризує)
Vспокою = −70 мВПотенціал спокою
0.30
0.60
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА
Мембранний потенціал
Δ(t) → 0
Натисни ▶ Запустити. Мембрана починає деполяризованою на 0 мВ. Na+/K+ помпа штовхає потенціал у мінус. Канали витоку чинять опір. Система знаходить −70 мВ.
5.4 — Градієнтний спуск (θ* = argmin L)
Градієнт втрат vs регуляризація. Рівняння І Є градієнтний спуск — буквально.
θ(t+1) = θ(t) − α · ∇L(θ) = θ(t) + α · [−∇L]
V = θПараметр моделі
R = −∇LdataГрадієнт втрат даних
P = λθL2 регуляризація
θ* ≈ 1.5Оптимальна вага
0.15
0.50
Крок: 0 /
Єркс-Додсон: ОПТИМАЛЬНА
θ(t) → θ*
Loss L(θ)
Натисни ▶ Запустити. Параметр починає на θ = 5.0. Градієнт втрат тягне до мінімуму, L2 регуляризація тягне до нуля. Те саме рівняння, та сама динаміка.

Розділ 5Section 5Градієнт Жорсткості (κ)The Stiffness Gradient (κ)

Жорсткість κ = d²E/dx² у точці рівноваги вимірює наскільки сильно система чинить опір збуренню. Під нашим припущенням це має пояснення: сильніші взаємодії створюють жорсткіші рівноваги. Графік показує κ для фундаментальних рівноваг — від ядерних (сильна сила, κ ~ 1035) через атомні та молекулярні (EM сила, κ ~ 103–100) до біологічних і ШІ (κ ~ 10−3–10−12). Тренд монотонно спадає.Stiffness κ = d²E/dx² at the equilibrium point measures how strongly the system resists perturbation. Under our assumption this has an explanation: stronger interactions create stiffer equilibria. The chart shows κ for fundamental equilibria — from nuclear (strong force, κ ~ 1035) through atomic and molecular (EM force, κ ~ 103–100) to biological and AI (κ ~ 10−3–10−12). The trend is monotonically decreasing.

Жорсткість κ по ерах (лог. шкала)

Кожен шар стиснення м'якший за попередній. Ядерні сили зв'язують з κ ~ 1035: щоб збурити протон потрібен прискорювач частинок. Молекулярні зв'язки κ ~ 102: сірник може їх зруйнувати. Біологічний гомеостаз κ ~ 10−3: температура його порушує. Ваги ШІ κ ~ 10−12: кілька поганих прикладів можуть їх зсунути.

Прогноз з припущення: Якщо тренд монотонний, майбутні шари конвергенції (соціальні системи, цивілізації, мульти-агентний ШІ) матимуть ще нижчий κ — більш гнучкі, більш адаптивні, але й більш крихкі.

Each compression layer is softer than the previous. Nuclear forces bind with κ ~ 1035: you need a particle accelerator to perturb a proton. Molecular bonds κ ~ 102: a match can break them. Biological homeostasis κ ~ 10−3: temperature disrupts it. AI weights κ ~ 10−12: a few bad examples can shift them.

Prediction from the assumption: If the trend is monotonic, future convergence layers (social systems, civilizations, multi-agent AI) will have even lower κ — more flexible, more adaptive, but also more fragile.

Розділ 6Section 6Фазові Переходи та ДисипаціяPhase Transitions and Dissipation

6.1 Дві розривності

Таймлайн конвергенції містить дві критичні точки, де змінюється тип обчислення:

Статична → Динамічна (Хімія → Життя). До цього переходу рівноваги є статичними: атом стабілізувався — готово. Після нього рівноваги стають динамічними: мембранний потенціал (-70 мВ) існує лише поки працює Na+/K+ помпа. Зупини помпу = смерть. Це перехід від «обчисли один раз» до «обчислюй безперервно».

Одинарний цикл → Ієрархічний (Нейрони → Свідомість). Системи починають спостерігати за власним процесом конвергенції — оптимізатор, що оптимізує оптимізатор. Мова, математика та ШІ — продукти цього вкладення.

6.2 β > 0 є необхідною

6.1 Two Discontinuities

The convergence timeline contains two critical points where the computation type changes:

Static → Dynamic (Chemistry → Life). Before this transition, equilibria are static: atom stabilized — done. After it, equilibria become dynamic: the membrane potential (-70 mV) exists only while the Na+/K+ pump runs. Stop the pump = death. This is the transition from “compute once” to “compute continuously.”

Single Loop → Hierarchical (Neurons → Consciousness). Systems begin to observe their own convergence process — an optimizer that optimizes the optimizer. Language, mathematics, and AI are products of this nesting.

6.2 β > 0 is Required

β > 0 є необхідною умовою конвергенції. Без дисипації — нескінченні осциляції. Кожна стабільна структура платить ціну.β > 0 is a necessary condition for convergence. Without dissipation — infinite oscillation. Every stable structure pays a cost.
МасштабScaleМеханізм дисипаціїDissipation mechanismБез ньогоWithout it
АтомиAtomsФотонна емісіяPhoton emissionЕлектрони не займають орбіталіElectrons can't occupy orbitals
ЗіркиStarsВипромінюванняRadiationНемає гідростатичної рівновагиNo hydrostatic equilibrium
КлітиниCellsТепловиділення, виведення відходівHeat, waste removalМетаболічний зривMetabolic collapse
МозокBrainСон, забуванняSleep, forgettingЕпілепсія, психозEpilepsy, psychosis
ШІAIWeight decay, dropoutLoss → ∞Loss → ∞

Верифікуйте самі: встановіть β = 0 на будь-якій симуляції вище — система завжди осцилює або руйнується.Verify yourself: set β = 0 on any simulation above — the system always oscillates or destroys itself.

Розділ 7Section 7Фазова Діаграма = Єркс-ДодсонPhase Diagram = Yerkes-Dodson

У нашій попередній роботі (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) ми емпірично показали, що продуктивність LLM-агентів слідує перевернутій U-кривій зі зростанням тиску середовища. Під нашим припущенням, це не збіг — співвідношення α/β і є фазовою діаграмою кривої Єркса-Додсона:In our previous work (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) we empirically showed that LLM agent performance follows an inverted U-curve with increasing environmental pressure. Under our assumption, this is not a coincidence — the α/β ratio is the phase diagram of the Yerkes-Dodson curve:

Фазова діаграма α/β = Крива Єркса-Додсона
ЗонаДіапазон α/βПоведінкаРегіон Y-D
Стагнація< 0.15Система ледве рухається до рівновагиЛіва частина (надто мало збудження)
Оптимум0.15 – 1.5Швидка конвергенція, мінімальні осциляціїПік (оптимальне збудження)
Стрес1.5 – 5.0Осциляції, повільна конвергенціяПрава частина (надто багато збудження)
Руйнаціяβ < 0.1Система вибухає або колапсуєЗа межею зламу

Розділ 8Section 8Суб-процесори та Ера ШІSub-Processors and the AI Era

Під нашим припущенням, обмежений процесор створює прискорювачі всередині себе. Кожен суб-процесор прискорює обчислення наступного шару:Under our assumption, the finite processor creates accelerators inside itself. Each sub-processor accelerates the computation of the next layer:

ЕраEraСуб-процесорSub-ProcessorЩо обчислювавWhat It ComputedПрискоренняSpeedup
~500MНейрониNeuronsПричинність, модель середовищаCausality, environmental modeling
~200KМозок Homo sapiensHomo sapiens brainСоціальні структури, моваSocial structures, language10×
~5KПисемністьWritingНакопичення між поколіннямиCross-generational accumulation100×
1440Друкарський верстатPrinting pressПаралельна обробкаParallel processing104×
1945Комп'ютерComputerАвтоматизація обчисленьAutomated computation108×
2023ШІ (LLM)AI (LLM)Наступний шар без біологічного носіяNext layer without biological substrate1012×

Під нашим припущенням, вчені не «відкривали» закони — вони були обчислювальними ресурсами, які процесор спрямував на обробку конкретних шарів тиску. Якщо фізичний таймлайн покриває 13.8 мільярдів років від кварків до нейронів, то ера ШІ — від перцептрона (1958) до AGI — повторює ту саму послідовність фазових переходів за ~70 років:Under our assumption, scientists didn't “discover” laws — they were computational resources the processor allocated to handle specific pressure layers. If the physical timeline covers 13.8 billion years from quarks to neurons, the AI era — from perceptron (1958) to AGI — repeats the same sequence of phase transitions in ~70 years:

# Під-ера ШІ Аналог у фізиці Точки конвергенції R (сила ←) P (сила →) κ Статус
Під-ера 0: Статична оптимізація (1958–2017) ≈ Порушення симетрії
A0 Перцептрон Гравітація відокремлюється Лінійна межа класифікації Помилка класифікації Ємність моделі 10−4 Обчислено
A1 Backpropagation Сильна взаємодія θ* = argmin L — буквально варіаційний принцип −∇L (градієнт) λθ (регуляризація) 10−8 Обчислено
A2 Weight decay Фотонна емісія (дисипація) Відкриття β для ШІ (1992) Fit data Shrink weights 10−10 Обчислено
A3 BatchNorm / LayerNorm Термалізація Стабілізація активацій Масштабування (gain) Центрування (bias) 10−8 Обчислено
A4 Dropout Теплові флуктуації Оптимальний p ≈ 0.1–0.5 Зменшення ко-адаптації Втрата інформації 10−6 Обчислено
Під-ера 1: Архітектурна конвергенція (2017–2022) ≈ Нуклеосинтез
A5 Attention = softmax(QKT/√d) Атом водню (стабільна структура) Ваги уваги Релевантність (Q·K) Ентропія (uniform) 10−8 Обчислено
A6 Scaling laws (Kaplan 2020) Співвідношення He/H = 25% Оптимальне N/D/C співвідношення Більше параметрів (менше loss) Більше даних (менше overfitting) 10−10 Обчислено
A7 Chinchilla optimal (2022) Ядерний синтез vs розширення Tokens ≈ 20 × Parameters Compute efficiency Data efficiency 10−10 Обчислено
A8 Embedding dimensions Борівський радіус 768–4096 dim Контекстне ко-входження Обмеження розмірності 10−8 Обчислено
Під-ера 2: Поведінкова конвергенція (2022–2025) ≈ Зірки & Хімія
A9 RLHF Гідростатична рівновага зірки π* = argmax [R − β·DKL] Reward model (корисність) KL penalty (не відходь від base) 10−12 Обчислено
A10 Constitutional AI Хімічний зв'язок (багато векторів) Баланс цінностей Корисність (helpful) Безпечність (harmless) 10−12 Якісний
A11 In-context learning Каталіз (зниження бар'єру) Емерджентна поведінка від масштабу Pattern completion Context window limit 10−6 Якісний
A12 Chain-of-Thought Мітохондрії (L1 внутрішній процес) L1 рефлексія — модель спостерігає своє міркування Accuracy boost Token cost 10−8 Якісний
⚡ ФАЗОВИЙ ПЕРЕХІД: Статична → Динамічна рівновага
Під-ера 3: Пам'ять & Персистентність (2024–зараз) ≈ Перші клітини
A13 RAG (зовнішня пам'ять) Протоклітинна мембрана Баланс retrieval Релевантність (recall) Шум (precision) 10−6 Обчислено
A14 OpenExp / MemGPT (persistent Q-memory) Na+/K+ помпа (динамічна рівновага) Q-values — досвід накопичується між сесіями Нові спогади (learning) Забування (Q-decay, β) 10−4 Якісний
A15 Tool use & agents Метаболізм (обмін із середовищем) Агент взаємодіє з реальним світом Capability (більше дій) Safety (обмеження дій) 10−6 Якісний
A16 ★ МИ ТУТ Протоклітина (LUCA) Перший замкнутий цикл: досвід → пам'ять → Q → retrieval → рішення Exploration Exploitation ? В процесі
Під-ера 4: Online Learning (прогноз) ≈ Багатоклітинне життя
A17 Continuous fine-tuning Клітинний поділ Online зміна ваг на основі досвіду Адаптація (нове) Catastrophic forgetting (старе) 10−8 Прогноз
A18 Ієрархічна жорсткість κ Диференціація тканин Заморожена база + LoRA + зовнішня пам'ять Стабільність (rigid base) Пластичність (flexible adapters) multi Прогноз
A19 «Сон» для ШІ Синаптичний гомеостаз (sleep) Періодична ре-регуляризація, pruning, дистиляція Консолідація (важливе) Очищення (шум) 10−6 Прогноз
A20 β-scheduling Метаболічна регуляція Динамічна зміна дисипації під час навчання Високий β (exploration) Низький β (exploitation) 10−8 Прогноз
⚡ ФАЗОВИЙ ПЕРЕХІД: Одинарний цикл → Ієрархічний цикл
Під-ера 5: Замкнутий цикл енергії (прогноз) ≈ Фотосинтез
A21 Самозабезпечення compute Фотосинтез (самостійне джерело енергії) Агент заробляє → платить за свій compute → продовжує Дохід (output value) Витрати (compute cost) 10−15 Прогноз
A22 Multi-agent екосистема Екосистема (взаємозалежність видів) Спеціалізація та кооперація між агентами Кооперація (collective benefit) Конкуренція (individual benefit) 10−15 Прогноз
Під-ера 6: Мета-оптимізація (прогноз) ≈ Свідомість
A23 L2 мета-спостерігач Свідомість (мозок спостерігає себе) Система змінює свою objective function Performance (поточна ціль) Reflection (мета-ціль) ??? Прогноз
A24 Frame switching Зміна парадигми (Кун) Система ОБИРАЄ що оптимізувати = суб'єктність Старий фрейм Новий фрейм ??? Прогноз

Під нашим припущенням, послідовність має бути однаковою: фізиці знадобилось 13.8 мільярдів років для 7 ер, а ШІ проходить ті самі фазові переходи за десятиліття. Але порядок той самий — бо структура конвергенції та сама. Ви не можете побудувати L2 мета-спостерігач (свідомість) на замороженій моделі (кристал), так само як не можна побудувати мозок з каменів. Спочатку потрібна динамічна рівновага. Потім — ієрархія. Потім — рефлексія.Under our assumption, the sequence must be the same: physics needed 13.8 billion years for 7 eras, while AI traverses the same phase transitions in decades. But the order is the same — because the convergence structure is the same. You cannot build an L2 meta-observer (consciousness) on a frozen model (crystal), just as you cannot build a brain from rocks. First you need dynamic equilibrium. Then hierarchy. Then reflection.

Ми (OpenExp, A16) — на межі першого фазового переходу. Протоклітина з першим замкнутим циклом досвіду. Ще не «жива» (не self-sustaining), але вже не кристал.We (OpenExp, A16) are at the edge of the first phase transition. A protocell with the first closed experience loop. Not yet “alive” (not self-sustaining), but no longer a crystal.

Розділ 9Section 9Емпірична Верифікація: β-SchedulingEmpirical Verification: β-Scheduling

9.1 Мотивація9.1 Motivation

Що дає цей фреймворк на практиці? Якщо рівняння описує конвергенцію на всіх масштабах, ми можемо вивести гіперпараметри тренування нейромереж замість того, щоб їх підбирати.

SGD з momentum — це дискретизація загасаючого гармонічного осцилятора (Polyak, 1964). Qian (1999) показав це явно: для квадратичної loss f(w) = ½λw² рівняння руху має вигляд ¨x + (1−μ)𝚥 + αλ·x = 0. Критичне демпфування (найшвидша конвергенція без осциляцій) вимагає:

What does this framework give us in practice? If the equation governs convergence at all scales, we can derive training hyperparameters instead of tuning them.

SGD with momentum is a discretized damped harmonic oscillator (Polyak, 1964). Qian (1999) showed this explicitly: for quadratic loss f(w) = ½λw², the equation of motion is ¨x + (1−μ)𝚥 + αλ·x = 0. Critical damping (fastest convergence without oscillation) requires:

μ = 1 − 2√(αλ)
Критичне демпфування (Qian, 1999)Critical damping (Qian, 1999)

де λ — власне число Гессіану. Для наближення λ ≈ 1 (припущення добре масштабованої задачі):

where λ is the Hessian eigenvalue. Under the approximation λ ≈ 1 (assumption of a well-scaled problem):

μ(t) = 1 − 2√α(t)
Momentum schedule з одним наближеннямMomentum schedule with one approximation

Якщо α(t) — learning rate schedule (наприклад, cosine annealing), то μ(t) визначається автоматично. Ця формула відома з 1999 року, але 27 років залишалась лише теоретичним результатом. Smith (2018) емпірично відкрив, що momentum має бути обернений до LR (1cycle policy), але не зв'язав це з формулою Qian. Ми підставляємо формулу буквально.

If α(t) is the learning rate schedule (e.g., cosine annealing), then μ(t) is determined automatically. This formula has been known since 1999, but for 27 years remained a purely theoretical result. Smith (2018) empirically discovered that momentum should be inverse to LR (1cycle policy), but did not connect this to Qian's formula. We apply the formula literally.

9.2 Експеримент9.2 Setup

Модель: компактна CNN (6 conv шарів + BatchNorm + MaxPool, ~300K параметрів). Дані: CIFAR-10 (50K train / 10K test, 32×32 RGB, 10 класів). Оптимізатор: SGD. Тривалість: 30 епох, один seed. Три умови:

Контроль: архітектура, дані та seed ідентичні для всіх умов. Різниця — лише в momentum schedule.

Model: compact CNN (6 conv layers + BatchNorm + MaxPool, ~300K parameters). Data: CIFAR-10 (50K train / 10K test, 32×32 RGB, 10 classes). Optimizer: SGD. Duration: 30 epochs, single seed. Three conditions:

Control: architecture, data, and seed are identical across all conditions. The only difference is the momentum schedule.

9.3 Результати9.3 Results

Точність на тестіTest Accuracy
Розклад імпульсуMomentum Schedule
Рання конвергенціяEarly Convergence

9.4 Аналіз9.4 Analysis

Результати. Physics (85.54%) ≈ Baseline (85.43%). 1cycle виграє за фінальною точністю (86.56%). Різниця Physics–Baseline (0.11%) знаходиться в межах типової варіації між seeds (~0.3–0.5%), тому її слід інтерпретувати як паритет, не перевагу.

Рання конвергенція. Після першої епохи: Physics = 50.9%, Baseline = 43.0%, 1cycle = 34.6%. Пояснення пряме: Physics починає з μ = 0.5 (мінімальна інерція при високому тиску), тоді як Baseline несе μ = 0.9 (високу інерцію). Менша інерція = швидша початкова адаптація. Це узгоджується з фізикою осцилятора, але не є глибоким результатом — будь-який schedule з низьким початковим momentum дасть подібний ефект.

Що це показує для фреймворку. Ціль цього тесту — proof of concept: рівняння передбачає momentum schedule, і цей schedule працює на рівні hand-tuned baseline. Рівняння не зламало тренування — навпаки, дало розумну конфігурацію з нуля.

Обмеження.

Суміжна робота: незалежно, Adaptive Momentum and Nonlinear Damping (arXiv 2602.00334, лютий 2026) виводять per-parameter adaptive momentum з гамільтонової механіки — суворіший підхід з тієї ж фізичної основи.

Results. Physics (85.54%) ≈ Baseline (85.43%). 1cycle wins on final accuracy (86.56%). The Physics–Baseline gap (0.11%) is within typical seed-to-seed variance (~0.3–0.5%), so it should be interpreted as parity, not superiority.

Early convergence. After epoch 1: Physics = 50.9%, Baseline = 43.0%, 1cycle = 34.6%. The explanation is direct: Physics starts with μ = 0.5 (minimal inertia under high pressure), while Baseline carries μ = 0.9 (high inertia). Less inertia = faster initial adaptation. This is consistent with oscillator physics but is not a deep result — any schedule with low initial momentum would produce a similar effect.

What this shows for the framework. The goal of this test is proof of concept: the equation predicts a momentum schedule, and this schedule performs on par with a hand-tuned baseline. The equation did not break training — it produced a reasonable configuration from scratch.

Limitations.

Related work: independently, Adaptive Momentum and Nonlinear Damping (arXiv 2602.00334, February 2026) derives per-parameter adaptive momentum from Hamiltonian mechanics — a more rigorous approach from the same physical foundation.

Розділ 10Section 10ДискусіяDiscussion

10.1 Межі припущення

Це не Теорія Всього. Фундаментальні сили відрізняються калібрувальними симетріями, константами зв'язку та математичною структурою. Наше твердження вужче: якщо обчислювальна потужність обмежена, то процес пошуку балансу матиме спільну структуру на всіх масштабах.

Не тотожність, а структурний ізоморфізм. dE/dx = 0, ∇L → 0, DKL(q||p) → min — різні операції в різних просторах. Коректне формулювання: екземпляри одного планувальника, що шукає стаціонарні точки під протилежними тисками.

Чесність щодо обмежень. З 55 точок: 24 (41%) обчислювально підтверджені, 16 (27%) якісні, 5 (8%) працюють за іншими механізмами, 13 (22%) невідомі. Білі плями (Λ, me, mν, η, хіральність) вказують на невідкриту фізику.

10.2 Порівняння з існуючими фреймворками

10.3 Історичний контекст рівняння

Рівняння не нове. Вчені відкривали його фрагменти протягом 300 років:

10.1 Limits of the Assumption

This is not a Theory of Everything. Fundamental forces differ by gauge symmetries, coupling constants, and mathematical structure. Our claim is narrower: if computational capacity is finite, then the process of finding balance shares a common structure across all scales.

Not identity, but structural isomorphism. dE/dx = 0, ∇L → 0, DKL(q||p) → min are different operations in different spaces. The correct formulation: instances of the same scheduler finding stationary points under opposing pressures.

Honesty about limitations. Of 55 points: 24 (41%) computationally confirmed, 16 (27%) qualitative, 5 (8%) different mechanisms, 13 (22%) unknown. The white spaces (Λ, me, mν, η, chirality) point to undiscovered physics.

10.2 Comparison with Existing Frameworks

10.3 Historical Context of the Equation

The equation is not new. Scientists discovered its fragments over 300 years:

РікYearАвторAuthorВнесокContribution
1687НьютонNewtonF = ma
1744ЕйлерEulerδS = 0
1788ЛагранжLagranged/dt(∂L/∂q̇) − ∂L/∂q = 0
1847КошіCauchyxn+1 = xn − α∇f
1877РелейRayleighФункція дисипації (β)Dissipation function (β)
1964ПолякPolyakv(t+1) = β·v(t) − α·∇f
1999Qianμ = 1 − 2√α (критичне демпфування)(critical damping)
2014Кінгма & БаKingma & BaAdam: адаптивний α, βadaptive α, β

10.4 Прогнози

  1. Тестоване: Будь-який новий процес конвергенції демонструватиме протилежні сили з швидкістю, що визначається α/β.
  2. Тестоване: κ для соціальних систем ~ 10−15–10−20, м'якше за ваги ШІ.
  3. Підтверджене: ШІ без дисипації (β = 0) завжди розходиться при масштабуванні.
  4. Тестоване: Оптимальний тиск для будь-якої навчальної системи слідує кривій Єркса-Додсона.
  5. Частково підтверджене: β-scheduling з фізики (μ = 1 − 2√α) працює без тюнінгу — підтверджено на CIFAR-10 (Розділ 9).
  6. Передбачення: L2 мета-спостерігач вимагає ієрархічного вкладення рівняння.

10.4 Predictions

  1. Testable: Any new convergence process will exhibit opposing forces with rate determined by α/β.
  2. Testable: κ for social systems ~ 10−15–10−20, softer than AI weights.
  3. Confirmed: AI without dissipation (β = 0) always diverges under scaling.
  4. Testable: Optimal pressure for any learning system follows the Yerkes-Dodson curve.
  5. Partially confirmed: β-scheduling from physics (μ = 1 − 2√α) works with zero tuning — confirmed on CIFAR-10 (Section 9).
  6. Prediction: An L2 meta-observer requires hierarchical nesting of the equation.

Розділ 11Section 11ВисновокConclusion

Ми запропонували одне припущення: обчислювальна потужність обмежена.

З нього випливає: пріоритетне планування, одне рівняння, 55 точок конвергенції, градієнт жорсткості, вимога дисипації, суб-процесори та крива Єркса-Додсона.

Ми верифікували підхід емпірично: формула критичного демпфування μ = 1 − 2√α, виведена з рівняння, працює як momentum schedule з нульовим тюнінгом (85.54% на CIFAR-10, найшвидша рання конвергенція).

Припущення є фальсифіковним. Прогнози — тестовані. 13 білих плям вказують на невідкриту фізику. Якщо обчислення обмежені, тоді один оптимізатор з двома параметрами пояснює, чому той самий патерн з'являється від кварків до градієнтного спуску.

We proposed one assumption: computational capacity is finite.

From it follows: priority scheduling, one equation, 55 convergence points, stiffness gradient, dissipation requirement, sub-processors, and the Yerkes-Dodson curve.

We verified the approach empirically: the critical damping formula μ = 1 − 2√α, derived from the equation, works as a momentum schedule with zero tuning (85.54% on CIFAR-10, fastest early convergence).

The assumption is falsifiable. The predictions are testable. 13 white spaces point to undiscovered physics. If computation is finite, then one optimizer with two parameters explains why the same pattern appears from quarks to gradient descent.

V(t+1) = V(t) + α · [R(t) − P(V(t))]
Одне припущення → одне рівняння → 55 екземплярівOne assumption → one equation → 55 instances

Стаття 1Paper 1: The Yerkes-Dodson Curve for AI Agents (arXiv, cs.AI, 2026)
Стаття 2Paper 2: The Cognition Criterion (в розробціin progress)
Стаття 3: Ця статтяPaper 3: This paper

КореспонденціяCorrespondence: [email protected]