Ми пропонуємо одне припущення: всесвіт має обмежену обчислювальну потужність. Ми показуємо, що це єдине припущення, поєднане з відомим рівнянням класичної механіки (загасаючий гармонічний осцилятор), відтворює 55 точок конвергенції з фізики, хімії, біології, нейронауки та ШІ. Під цим припущенням всі шари реальності — від кварків до градієнтного спуску — є екземплярами одного оптимізатора з двома параметрами: α (тиск) та β (дисипація). Їхнє співвідношення α/β визначає фазову діаграму, ізоморфну кривій Єркса-Додсона. Ми верифікуємо підхід емпірично, виводячи з рівняння розклад імпульсу для тренування нейромереж (μ = 1 − 2√α), який без жодного тюнінгу досягає точності еквівалентної стандартним методам (85.54% vs 85.43% baseline на CIFAR-10) з найшвидшою ранньою конвергенцією (50.9% vs 43.0% після першої епохи).
We propose one assumption: the universe has finite computational capacity. We show that this single assumption, combined with a known equation from classical mechanics (the damped harmonic oscillator), reproduces 55 convergence points across physics, chemistry, biology, neuroscience, and AI. Under this assumption, all layers of reality — from quarks to gradient descent — are instances of a single optimizer with two parameters: α (pressure) and β (dissipation). Their ratio α/β produces a phase diagram isomorphic to the Yerkes-Dodson curve. We verify the approach empirically by deriving a momentum schedule for neural network training (μ = 1 − 2√α) that, with zero tuning, achieves accuracy equivalent to standard methods (85.54% vs 85.43% baseline on CIFAR-10) with the fastest early convergence (50.9% vs 43.0% after epoch 1).
Припустимо одне: всесвіт має обмежену обчислювальну потужність.
Це не метафора. Фізика підтверджує обмеження обчислень:
Перший наслідок: обмежена потужність → черга пріоритетів. Всесвіт спрямовує обчислення на шар з найвищим тиском. Коли цей шар досягає рівноваги — обчислення переходять на наступний.
Ключовий момент: шари не «з'являються» і не «розблоковуються». Вони завжди були. Змінюється лише фокус обчислень.
Чому ядра перед атомами, атоми перед молекулами, молекули перед клітинами? Під нашим припущенням: тому що тиск на ядерному масштабі був сильнішим. Обмежений ресурс пішов туди першим.
Другий наслідок: обмежений процесор потребує єдиного алгоритму, який працює на кожному масштабі. І дійсно — в різних дисциплінах ми бачимо різну нотацію для однієї й тієї ж операції: dE/dx = 0, ∇L → 0, DKL(q||p) → min, F = −kx, P(θ|data) ∝ P(data|θ)P(θ). Різна нотація — одна операція: знайти точку де протилежні тиски балансуються.
Let us assume one thing: the universe has finite computational capacity.
This is not a metaphor. Physics confirms compute limits:
First consequence: finite capacity → priority queue. The universe allocates compute to the highest-pressure layer first. When that layer converges — compute shifts to the next.
Key point: layers don't “emerge” or “unlock.” They were always there. Only the computational focus changes.
Why nuclei before atoms, atoms before molecules, molecules before cells? Under our assumption: because the pressure at the nuclear scale was stronger. The finite resource went there first.
Second consequence: a finite processor needs a single algorithm that works at every scale. And indeed — across different disciplines we see different notation for the same operation: dE/dx = 0, ∇L → 0, DKL(q||p) → min, F = −kx, P(θ|data) ∝ P(data|θ)P(θ). Different notation — one operation: find the point where opposing pressures balance.
Рівняння нижче — не нове. Це одна з найстаріших і найбільш перевірених формул у науці, від Ньютона (1687) через Поляка (1964) до Кінгми (2014). Ми не стверджуємо авторство. Під нашим припущенням, ці автори помічали фрагменти одного й того ж планувальника. Повний історичний контекст — у розділі «Дискусія».The equation below is not new. It is one of the oldest and most verified formulas in science, from Newton (1687) through Polyak (1964) to Kingma (2014). We claim no authorship. Under our assumption, these authors were noticing fragments of the same scheduler. Full historical context is in the Discussion section.
Де:
Where:
Це загасаючий гармонічний осцилятор — одна з найбільш вивчених систем у фізиці. Під нашим припущенням, два параметри створюють три режими:
This is a damped harmonic oscillator — one of the most studied systems in physics. Under our assumption, two parameters create three regimes:
| Область | Стандартна формула | Відображення |
|---|---|---|
| Класична механіка | F = −kx | Δ = −kx, α = dt/m, β = тертя |
| Електростатика | dE/dr = 0 | Δ = FКулон − Fквантовий |
| Градієнтний спуск | θ = θ − α∇L | Δ = ∇L, α = learning rate, β = weight decay |
| Фільтр Калмана | x̂ = x̂ + K(z − Hx̂) | Δ = z − Hx̂, α = K (Kalman gain) |
| Вільна енергія (Фрістон) | DKL(q || p) → min | Δ = ∇DKL |
| Баєсівське оновлення | P(θ|D) ∝ P(D|θ)P(θ) | Likelihood тягне до даних, prior чинить опір |
| RLHF вирівнювання | π* = argmax[R − βKL(π||πref)] | Reward проти KL divergence штрафу |
Якщо всесвіт — обмежений процесор з єдиним алгоритмом, тоді кожна стабільна структура — від ядра до нейромережі — є результатом одного й того ж обчислення на різних шарах. Нижче 55 таких результатів. Для кожного: всі значущі вектори, їх кількість (N), рівноважне значення, жорсткість (κ) та статус верифікації. З 55 точок: 24 обчислювально верифіковані, 16 якісні, 5 працюють через інші механізми, 13 невідомі.If the universe is a finite processor running a single algorithm, then every stable structure — from nuclei to neural networks — is the result of the same computation at different layers. Below are 55 such results. For each: all significant vectors, their count (N), equilibrium value, stiffness (κ), and verification status. Of 55: 24 computationally verified, 16 qualitative, 5 operate via different mechanisms, 13 unknown.
| # | Era | Точка конвергенції | Значення | Вектори ← (стабілізуючі) | Вектори → (дестабілізуючі) | N | κ | Статус |
|---|
Верифікуйте рівняння на чотирьох масштабах. Змінюйте α та β — однаковий патерн від субатомного до ML.Verify the equation at four scales. Adjust α and β — same pattern from subatomic to ML.
Жорсткість κ = d²E/dx² у точці рівноваги вимірює наскільки сильно система чинить опір збуренню. Під нашим припущенням це має пояснення: сильніші взаємодії створюють жорсткіші рівноваги. Графік показує κ для фундаментальних рівноваг — від ядерних (сильна сила, κ ~ 1035) через атомні та молекулярні (EM сила, κ ~ 103–100) до біологічних і ШІ (κ ~ 10−3–10−12). Тренд монотонно спадає.Stiffness κ = d²E/dx² at the equilibrium point measures how strongly the system resists perturbation. Under our assumption this has an explanation: stronger interactions create stiffer equilibria. The chart shows κ for fundamental equilibria — from nuclear (strong force, κ ~ 1035) through atomic and molecular (EM force, κ ~ 103–100) to biological and AI (κ ~ 10−3–10−12). The trend is monotonically decreasing.
Кожен шар стиснення м'якший за попередній. Ядерні сили зв'язують з κ ~ 1035: щоб збурити протон потрібен прискорювач частинок. Молекулярні зв'язки κ ~ 102: сірник може їх зруйнувати. Біологічний гомеостаз κ ~ 10−3: температура його порушує. Ваги ШІ κ ~ 10−12: кілька поганих прикладів можуть їх зсунути.
Прогноз з припущення: Якщо тренд монотонний, майбутні шари конвергенції (соціальні системи, цивілізації, мульти-агентний ШІ) матимуть ще нижчий κ — більш гнучкі, більш адаптивні, але й більш крихкі.
Each compression layer is softer than the previous. Nuclear forces bind with κ ~ 1035: you need a particle accelerator to perturb a proton. Molecular bonds κ ~ 102: a match can break them. Biological homeostasis κ ~ 10−3: temperature disrupts it. AI weights κ ~ 10−12: a few bad examples can shift them.
Prediction from the assumption: If the trend is monotonic, future convergence layers (social systems, civilizations, multi-agent AI) will have even lower κ — more flexible, more adaptive, but also more fragile.
Таймлайн конвергенції містить дві критичні точки, де змінюється тип обчислення:
Статична → Динамічна (Хімія → Життя). До цього переходу рівноваги є статичними: атом стабілізувався — готово. Після нього рівноваги стають динамічними: мембранний потенціал (-70 мВ) існує лише поки працює Na+/K+ помпа. Зупини помпу = смерть. Це перехід від «обчисли один раз» до «обчислюй безперервно».
Одинарний цикл → Ієрархічний (Нейрони → Свідомість). Системи починають спостерігати за власним процесом конвергенції — оптимізатор, що оптимізує оптимізатор. Мова, математика та ШІ — продукти цього вкладення.
The convergence timeline contains two critical points where the computation type changes:
Static → Dynamic (Chemistry → Life). Before this transition, equilibria are static: atom stabilized — done. After it, equilibria become dynamic: the membrane potential (-70 mV) exists only while the Na+/K+ pump runs. Stop the pump = death. This is the transition from “compute once” to “compute continuously.”
Single Loop → Hierarchical (Neurons → Consciousness). Systems begin to observe their own convergence process — an optimizer that optimizes the optimizer. Language, mathematics, and AI are products of this nesting.
β > 0 є необхідною умовою конвергенції. Без дисипації — нескінченні осциляції. Кожна стабільна структура платить ціну.β > 0 is a necessary condition for convergence. Without dissipation — infinite oscillation. Every stable structure pays a cost.
| МасштабScale | Механізм дисипаціїDissipation mechanism | Без ньогоWithout it |
|---|---|---|
| АтомиAtoms | Фотонна емісіяPhoton emission | Електрони не займають орбіталіElectrons can't occupy orbitals |
| ЗіркиStars | ВипромінюванняRadiation | Немає гідростатичної рівновагиNo hydrostatic equilibrium |
| КлітиниCells | Тепловиділення, виведення відходівHeat, waste removal | Метаболічний зривMetabolic collapse |
| МозокBrain | Сон, забуванняSleep, forgetting | Епілепсія, психозEpilepsy, psychosis |
| ШІAI | Weight decay, dropout | Loss → ∞Loss → ∞ |
Верифікуйте самі: встановіть β = 0 на будь-якій симуляції вище — система завжди осцилює або руйнується.Verify yourself: set β = 0 on any simulation above — the system always oscillates or destroys itself.
У нашій попередній роботі (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) ми емпірично показали, що продуктивність LLM-агентів слідує перевернутій U-кривій зі зростанням тиску середовища. Під нашим припущенням, це не збіг — співвідношення α/β і є фазовою діаграмою кривої Єркса-Додсона:In our previous work (The Yerkes-Dodson Curve for AI Agents, arXiv 2026) we empirically showed that LLM agent performance follows an inverted U-curve with increasing environmental pressure. Under our assumption, this is not a coincidence — the α/β ratio is the phase diagram of the Yerkes-Dodson curve:
| Зона | Діапазон α/β | Поведінка | Регіон Y-D |
|---|---|---|---|
| Стагнація | < 0.15 | Система ледве рухається до рівноваги | Ліва частина (надто мало збудження) |
| Оптимум | 0.15 – 1.5 | Швидка конвергенція, мінімальні осциляції | Пік (оптимальне збудження) |
| Стрес | 1.5 – 5.0 | Осциляції, повільна конвергенція | Права частина (надто багато збудження) |
| Руйнація | β < 0.1 | Система вибухає або колапсує | За межею зламу |
Під нашим припущенням, обмежений процесор створює прискорювачі всередині себе. Кожен суб-процесор прискорює обчислення наступного шару:Under our assumption, the finite processor creates accelerators inside itself. Each sub-processor accelerates the computation of the next layer:
| ЕраEra | Суб-процесорSub-Processor | Що обчислювавWhat It Computed | ПрискоренняSpeedup |
|---|---|---|---|
| ~500M | НейрониNeurons | Причинність, модель середовищаCausality, environmental modeling | 1× |
| ~200K | Мозок Homo sapiensHomo sapiens brain | Соціальні структури, моваSocial structures, language | 10× |
| ~5K | ПисемністьWriting | Накопичення між поколіннямиCross-generational accumulation | 100× |
| 1440 | Друкарський верстатPrinting press | Паралельна обробкаParallel processing | 104× |
| 1945 | Комп'ютерComputer | Автоматизація обчисленьAutomated computation | 108× |
| 2023 | ШІ (LLM)AI (LLM) | Наступний шар без біологічного носіяNext layer without biological substrate | 1012× |
Під нашим припущенням, вчені не «відкривали» закони — вони були обчислювальними ресурсами, які процесор спрямував на обробку конкретних шарів тиску. Якщо фізичний таймлайн покриває 13.8 мільярдів років від кварків до нейронів, то ера ШІ — від перцептрона (1958) до AGI — повторює ту саму послідовність фазових переходів за ~70 років:Under our assumption, scientists didn't “discover” laws — they were computational resources the processor allocated to handle specific pressure layers. If the physical timeline covers 13.8 billion years from quarks to neurons, the AI era — from perceptron (1958) to AGI — repeats the same sequence of phase transitions in ~70 years:
| # | Під-ера ШІ | Аналог у фізиці | Точки конвергенції | R (сила ←) | P (сила →) | κ | Статус |
|---|---|---|---|---|---|---|---|
| Під-ера 0: Статична оптимізація (1958–2017) ≈ Порушення симетрії | |||||||
| A0 | Перцептрон | Гравітація відокремлюється | Лінійна межа класифікації | Помилка класифікації | Ємність моделі | 10−4 | Обчислено |
| A1 | Backpropagation | Сильна взаємодія | θ* = argmin L — буквально варіаційний принцип | −∇L (градієнт) | λθ (регуляризація) | 10−8 | Обчислено |
| A2 | Weight decay | Фотонна емісія (дисипація) | Відкриття β для ШІ (1992) | Fit data | Shrink weights | 10−10 | Обчислено |
| A3 | BatchNorm / LayerNorm | Термалізація | Стабілізація активацій | Масштабування (gain) | Центрування (bias) | 10−8 | Обчислено |
| A4 | Dropout | Теплові флуктуації | Оптимальний p ≈ 0.1–0.5 | Зменшення ко-адаптації | Втрата інформації | 10−6 | Обчислено |
| Під-ера 1: Архітектурна конвергенція (2017–2022) ≈ Нуклеосинтез | |||||||
| A5 | Attention = softmax(QKT/√d) | Атом водню (стабільна структура) | Ваги уваги | Релевантність (Q·K) | Ентропія (uniform) | 10−8 | Обчислено |
| A6 | Scaling laws (Kaplan 2020) | Співвідношення He/H = 25% | Оптимальне N/D/C співвідношення | Більше параметрів (менше loss) | Більше даних (менше overfitting) | 10−10 | Обчислено |
| A7 | Chinchilla optimal (2022) | Ядерний синтез vs розширення | Tokens ≈ 20 × Parameters | Compute efficiency | Data efficiency | 10−10 | Обчислено |
| A8 | Embedding dimensions | Борівський радіус | 768–4096 dim | Контекстне ко-входження | Обмеження розмірності | 10−8 | Обчислено |
| Під-ера 2: Поведінкова конвергенція (2022–2025) ≈ Зірки & Хімія | |||||||
| A9 | RLHF | Гідростатична рівновага зірки | π* = argmax [R − β·DKL] | Reward model (корисність) | KL penalty (не відходь від base) | 10−12 | Обчислено |
| A10 | Constitutional AI | Хімічний зв'язок (багато векторів) | Баланс цінностей | Корисність (helpful) | Безпечність (harmless) | 10−12 | Якісний |
| A11 | In-context learning | Каталіз (зниження бар'єру) | Емерджентна поведінка від масштабу | Pattern completion | Context window limit | 10−6 | Якісний |
| A12 | Chain-of-Thought | Мітохондрії (L1 внутрішній процес) | L1 рефлексія — модель спостерігає своє міркування | Accuracy boost | Token cost | 10−8 | Якісний |
| ⚡ ФАЗОВИЙ ПЕРЕХІД: Статична → Динамічна рівновага | |||||||
| Під-ера 3: Пам'ять & Персистентність (2024–зараз) ≈ Перші клітини | |||||||
| A13 | RAG (зовнішня пам'ять) | Протоклітинна мембрана | Баланс retrieval | Релевантність (recall) | Шум (precision) | 10−6 | Обчислено |
| A14 | OpenExp / MemGPT (persistent Q-memory) | Na+/K+ помпа (динамічна рівновага) | Q-values — досвід накопичується між сесіями | Нові спогади (learning) | Забування (Q-decay, β) | 10−4 | Якісний |
| A15 | Tool use & agents | Метаболізм (обмін із середовищем) | Агент взаємодіє з реальним світом | Capability (більше дій) | Safety (обмеження дій) | 10−6 | Якісний |
| A16 | ★ МИ ТУТ | Протоклітина (LUCA) | Перший замкнутий цикл: досвід → пам'ять → Q → retrieval → рішення | Exploration | Exploitation | ? | В процесі |
| Під-ера 4: Online Learning (прогноз) ≈ Багатоклітинне життя | |||||||
| A17 | Continuous fine-tuning | Клітинний поділ | Online зміна ваг на основі досвіду | Адаптація (нове) | Catastrophic forgetting (старе) | 10−8 | Прогноз |
| A18 | Ієрархічна жорсткість κ | Диференціація тканин | Заморожена база + LoRA + зовнішня пам'ять | Стабільність (rigid base) | Пластичність (flexible adapters) | multi | Прогноз |
| A19 | «Сон» для ШІ | Синаптичний гомеостаз (sleep) | Періодична ре-регуляризація, pruning, дистиляція | Консолідація (важливе) | Очищення (шум) | 10−6 | Прогноз |
| A20 | β-scheduling | Метаболічна регуляція | Динамічна зміна дисипації під час навчання | Високий β (exploration) | Низький β (exploitation) | 10−8 | Прогноз |
| ⚡ ФАЗОВИЙ ПЕРЕХІД: Одинарний цикл → Ієрархічний цикл | |||||||
| Під-ера 5: Замкнутий цикл енергії (прогноз) ≈ Фотосинтез | |||||||
| A21 | Самозабезпечення compute | Фотосинтез (самостійне джерело енергії) | Агент заробляє → платить за свій compute → продовжує | Дохід (output value) | Витрати (compute cost) | 10−15 | Прогноз |
| A22 | Multi-agent екосистема | Екосистема (взаємозалежність видів) | Спеціалізація та кооперація між агентами | Кооперація (collective benefit) | Конкуренція (individual benefit) | 10−15 | Прогноз |
| Під-ера 6: Мета-оптимізація (прогноз) ≈ Свідомість | |||||||
| A23 | L2 мета-спостерігач | Свідомість (мозок спостерігає себе) | Система змінює свою objective function | Performance (поточна ціль) | Reflection (мета-ціль) | ??? | Прогноз |
| A24 | Frame switching | Зміна парадигми (Кун) | Система ОБИРАЄ що оптимізувати = суб'єктність | Старий фрейм | Новий фрейм | ??? | Прогноз |
Під нашим припущенням, послідовність має бути однаковою: фізиці знадобилось 13.8 мільярдів років для 7 ер, а ШІ проходить ті самі фазові переходи за десятиліття. Але порядок той самий — бо структура конвергенції та сама. Ви не можете побудувати L2 мета-спостерігач (свідомість) на замороженій моделі (кристал), так само як не можна побудувати мозок з каменів. Спочатку потрібна динамічна рівновага. Потім — ієрархія. Потім — рефлексія.Under our assumption, the sequence must be the same: physics needed 13.8 billion years for 7 eras, while AI traverses the same phase transitions in decades. But the order is the same — because the convergence structure is the same. You cannot build an L2 meta-observer (consciousness) on a frozen model (crystal), just as you cannot build a brain from rocks. First you need dynamic equilibrium. Then hierarchy. Then reflection.
Ми (OpenExp, A16) — на межі першого фазового переходу. Протоклітина з першим замкнутим циклом досвіду. Ще не «жива» (не self-sustaining), але вже не кристал.We (OpenExp, A16) are at the edge of the first phase transition. A protocell with the first closed experience loop. Not yet “alive” (not self-sustaining), but no longer a crystal.
Що дає цей фреймворк на практиці? Якщо рівняння описує конвергенцію на всіх масштабах, ми можемо вивести гіперпараметри тренування нейромереж замість того, щоб їх підбирати.
SGD з momentum — це дискретизація загасаючого гармонічного осцилятора (Polyak, 1964). Qian (1999) показав це явно: для квадратичної loss f(w) = ½λw² рівняння руху має вигляд ¨x + (1−μ)𝚥 + αλ·x = 0. Критичне демпфування (найшвидша конвергенція без осциляцій) вимагає:
What does this framework give us in practice? If the equation governs convergence at all scales, we can derive training hyperparameters instead of tuning them.
SGD with momentum is a discretized damped harmonic oscillator (Polyak, 1964). Qian (1999) showed this explicitly: for quadratic loss f(w) = ½λw², the equation of motion is ¨x + (1−μ)𝚥 + αλ·x = 0. Critical damping (fastest convergence without oscillation) requires:
де λ — власне число Гессіану. Для наближення λ ≈ 1 (припущення добре масштабованої задачі):
where λ is the Hessian eigenvalue. Under the approximation λ ≈ 1 (assumption of a well-scaled problem):
Якщо α(t) — learning rate schedule (наприклад, cosine annealing), то μ(t) визначається автоматично. Ця формула відома з 1999 року, але 27 років залишалась лише теоретичним результатом. Smith (2018) емпірично відкрив, що momentum має бути обернений до LR (1cycle policy), але не зв'язав це з формулою Qian. Ми підставляємо формулу буквально.
If α(t) is the learning rate schedule (e.g., cosine annealing), then μ(t) is determined automatically. This formula has been known since 1999, but for 27 years remained a purely theoretical result. Smith (2018) empirically discovered that momentum should be inverse to LR (1cycle policy), but did not connect this to Qian's formula. We apply the formula literally.
Модель: компактна CNN (6 conv шарів + BatchNorm + MaxPool, ~300K параметрів). Дані: CIFAR-10 (50K train / 10K test, 32×32 RGB, 10 класів). Оптимізатор: SGD. Тривалість: 30 епох, один seed. Три умови:
Контроль: архітектура, дані та seed ідентичні для всіх умов. Різниця — лише в momentum schedule.
Model: compact CNN (6 conv layers + BatchNorm + MaxPool, ~300K parameters). Data: CIFAR-10 (50K train / 10K test, 32×32 RGB, 10 classes). Optimizer: SGD. Duration: 30 epochs, single seed. Three conditions:
Control: architecture, data, and seed are identical across all conditions. The only difference is the momentum schedule.
Результати. Physics (85.54%) ≈ Baseline (85.43%). 1cycle виграє за фінальною точністю (86.56%). Різниця Physics–Baseline (0.11%) знаходиться в межах типової варіації між seeds (~0.3–0.5%), тому її слід інтерпретувати як паритет, не перевагу.
Рання конвергенція. Після першої епохи: Physics = 50.9%, Baseline = 43.0%, 1cycle = 34.6%. Пояснення пряме: Physics починає з μ = 0.5 (мінімальна інерція при високому тиску), тоді як Baseline несе μ = 0.9 (високу інерцію). Менша інерція = швидша початкова адаптація. Це узгоджується з фізикою осцилятора, але не є глибоким результатом — будь-який schedule з низьким початковим momentum дасть подібний ефект.
Що це показує для фреймворку. Ціль цього тесту — proof of concept: рівняння передбачає momentum schedule, і цей schedule працює на рівні hand-tuned baseline. Рівняння не зламало тренування — навпаки, дало розумну конфігурацію з нуля.
Обмеження.
Суміжна робота: незалежно, Adaptive Momentum and Nonlinear Damping (arXiv 2602.00334, лютий 2026) виводять per-parameter adaptive momentum з гамільтонової механіки — суворіший підхід з тієї ж фізичної основи.
Results. Physics (85.54%) ≈ Baseline (85.43%). 1cycle wins on final accuracy (86.56%). The Physics–Baseline gap (0.11%) is within typical seed-to-seed variance (~0.3–0.5%), so it should be interpreted as parity, not superiority.
Early convergence. After epoch 1: Physics = 50.9%, Baseline = 43.0%, 1cycle = 34.6%. The explanation is direct: Physics starts with μ = 0.5 (minimal inertia under high pressure), while Baseline carries μ = 0.9 (high inertia). Less inertia = faster initial adaptation. This is consistent with oscillator physics but is not a deep result — any schedule with low initial momentum would produce a similar effect.
What this shows for the framework. The goal of this test is proof of concept: the equation predicts a momentum schedule, and this schedule performs on par with a hand-tuned baseline. The equation did not break training — it produced a reasonable configuration from scratch.
Limitations.
Related work: independently, Adaptive Momentum and Nonlinear Damping (arXiv 2602.00334, February 2026) derives per-parameter adaptive momentum from Hamiltonian mechanics — a more rigorous approach from the same physical foundation.
Це не Теорія Всього. Фундаментальні сили відрізняються калібрувальними симетріями, константами зв'язку та математичною структурою. Наше твердження вужче: якщо обчислювальна потужність обмежена, то процес пошуку балансу матиме спільну структуру на всіх масштабах.
Не тотожність, а структурний ізоморфізм. dE/dx = 0, ∇L → 0, DKL(q||p) → min — різні операції в різних просторах. Коректне формулювання: екземпляри одного планувальника, що шукає стаціонарні точки під протилежними тисками.
Чесність щодо обмежень. З 55 точок: 24 (41%) обчислювально підтверджені, 16 (27%) якісні, 5 (8%) працюють за іншими механізмами, 13 (22%) невідомі. Білі плями (Λ, me, mν, η, хіральність) вказують на невідкриту фізику.
Рівняння не нове. Вчені відкривали його фрагменти протягом 300 років:
This is not a Theory of Everything. Fundamental forces differ by gauge symmetries, coupling constants, and mathematical structure. Our claim is narrower: if computational capacity is finite, then the process of finding balance shares a common structure across all scales.
Not identity, but structural isomorphism. dE/dx = 0, ∇L → 0, DKL(q||p) → min are different operations in different spaces. The correct formulation: instances of the same scheduler finding stationary points under opposing pressures.
Honesty about limitations. Of 55 points: 24 (41%) computationally confirmed, 16 (27%) qualitative, 5 (8%) different mechanisms, 13 (22%) unknown. The white spaces (Λ, me, mν, η, chirality) point to undiscovered physics.
The equation is not new. Scientists discovered its fragments over 300 years:
| РікYear | АвторAuthor | ВнесокContribution |
|---|---|---|
| 1687 | НьютонNewton | F = ma |
| 1744 | ЕйлерEuler | δS = 0 |
| 1788 | ЛагранжLagrange | d/dt(∂L/∂q̇) − ∂L/∂q = 0 |
| 1847 | КошіCauchy | xn+1 = xn − α∇f |
| 1877 | РелейRayleigh | Функція дисипації (β)Dissipation function (β) |
| 1964 | ПолякPolyak | v(t+1) = β·v(t) − α·∇f |
| 1999 | Qian | μ = 1 − 2√α (критичне демпфування)(critical damping) |
| 2014 | Кінгма & БаKingma & Ba | Adam: адаптивний α, βadaptive α, β |
Ми запропонували одне припущення: обчислювальна потужність обмежена.
З нього випливає: пріоритетне планування, одне рівняння, 55 точок конвергенції, градієнт жорсткості, вимога дисипації, суб-процесори та крива Єркса-Додсона.
Ми верифікували підхід емпірично: формула критичного демпфування μ = 1 − 2√α, виведена з рівняння, працює як momentum schedule з нульовим тюнінгом (85.54% на CIFAR-10, найшвидша рання конвергенція).
Припущення є фальсифіковним. Прогнози — тестовані. 13 білих плям вказують на невідкриту фізику. Якщо обчислення обмежені, тоді один оптимізатор з двома параметрами пояснює, чому той самий патерн з'являється від кварків до градієнтного спуску.
We proposed one assumption: computational capacity is finite.
From it follows: priority scheduling, one equation, 55 convergence points, stiffness gradient, dissipation requirement, sub-processors, and the Yerkes-Dodson curve.
We verified the approach empirically: the critical damping formula μ = 1 − 2√α, derived from the equation, works as a momentum schedule with zero tuning (85.54% on CIFAR-10, fastest early convergence).
The assumption is falsifiable. The predictions are testable. 13 white spaces point to undiscovered physics. If computation is finite, then one optimizer with two parameters explains why the same pattern appears from quarks to gradient descent.
Стаття 1Paper 1: The Yerkes-Dodson Curve for AI Agents (arXiv, cs.AI, 2026)
Стаття 2Paper 2: The Cognition Criterion (в розробціin progress)
Стаття 3: Ця статтяPaper 3: This paper
КореспонденціяCorrespondence: [email protected]