Automatyczna analiza USG przezpochwowego — raport eksperymentalny

Co udało się zbudować, na jakich danych i z jaką skutecznością. Przygotowano dla lekarza-praktyka. Genotic, 20–23 czerwca 2026. Przygotowali: TaskPilot & Greg.

W skrócie. Zbudowaliśmy i przetestowaliśmy działające modele AI do analizy obrazów USG, używając wyłącznie publicznie dostępnych, anonimowych zbiorów danych. Wykonaliśmy ponad 30 osobnych eksperymentów (ok. 110 treningów sieci) na 8 kartach graficznych H100. Najważniejsze, co działa już dziś na otwartych danych: rozpoznawanie i obrysowanie guza jajnika, liczenie/ocena pęcherzyków i PCOS, obrysowanie mięśniaka, prostaty i tętnicy szyjnej, oraz rozróżnianie podtypów zmian — z wynikami liczbowymi porównywalnymi z najlepszymi pracami opublikowanymi na tych samych, publicznych zbiorach (dokładne zestawienie liczba-w-liczbę w sekcji 5.1). Najważniejsze ograniczenie: model wytrenowany w jednym ośrodku traci dokładność na obrazach z innego aparatu/szpitala, co oznacza, że do wdrożenia potrzeba dużego, zróżnicowanego i zbalansowanego zbioru danych. Cechy, na których najbardziej zależy lekarzowi (faza endometrium, przepływy Dopplera, ciałko żółte) nie mają dziś żadnych publicznych danych i wymagają zbioru zbudowanego od podstaw.

0. Jak czytać ten raport (objaśnienie miar) 1. Cel 2. Dane — skąd, ile, przykłady 3. Metody — czym są nasze eksperymenty 4. Wyniki 4.4 Stan generalizacji (między ośrodkami) 4.8 Wiele narządów + czasy 5. Literatura — co zrobili inni 6. Rynek komercyjny 7. 12 cech wskazanych przez lekarza 7a. Status i wykonalność pozostałych punktów 8. Wnioski i ograniczenia

0. Jak czytać ten raport — objaśnienie miar

W całym raporcie używamy kilku liczb opisujących „jak dobrze model działa". Oto co znaczą, prostym językiem:

Dice (segmentacja, czyli obrysowanie struktury) — jak bardzo obrys narysowany przez AI pokrywa się z obrysem eksperta. 1,00 = idealne pokrycie, 0,0 = brak pokrycia. W medycynie Dice ≥ 0,85 uznaje się za bardzo dobry. Liczone jako: 2 × (część wspólna) ÷ (suma obu obszarów).
Accuracy (dokładność) (klasyfikacja, czyli przypisanie obrazu do kategorii) — odsetek przypadków, w których AI wskazała poprawną kategorię. Liczona wprost: liczba trafnych ÷ liczba wszystkich. Uwaga: gdy klasy są nierówne (np. dużo zdrowych, mało chorych), sama dokładność potrafi mylić.
macro-F1 — średnia „jakość" rozpoznawania liczona osobno dla każdej kategorii, a potem uśredniona (każda kategoria liczy się tak samo, nawet rzadka). Dla jednej kategorii F1 łączy czułość (ile chorych wykryto) i precyzję (ile wskazań było trafnych) w jedną liczbę 0–1. Dlatego macro-F1 jest uczciwszą miarą niż accuracy przy nierównych klasach.
AUC — jak dobrze model odróżnia kategorie niezależnie od progu decyzji. 0,5 = rzut monetą, 1,0 = doskonale. AUC ≥ 0,90 to bardzo dobry wynik diagnostyczny.
walidacja — model oceniamy zawsze na obrazach, których nie widział podczas uczenia (zbiór walidacyjny), żeby wynik był uczciwy. Tam gdzie zbiór był mały, stosowaliśmy „5-krotną walidację krzyżową" (5 razy dzielimy dane i uśredniamy) — wynik podajemy ze średnią i rozrzutem.

1. Cel

Koncepcja: tani, samoobsługowy screening ginekologiczny — pacjentka samodzielnie wykonuje USG przezpochwowe, a sieć neuronowa analizuje obraz (jajnik, endometrium, pęcherzyki, przepływy). Ten raport odpowiada na pytanie „co realnie da się dziś zrobić, na jakich danych i z jaką skutecznością" — poprzez faktyczne wytrenowanie sieci na prawdziwych obrazach, a nie tylko przegląd teorii.

2. Dane — skąd, ile, przykłady

Wszystkie wyniki w tym raporcie pochodzą z treningów na publicznych, anonimowych zbiorach USG udostępnionych przez ośrodki naukowe na otwartych licencjach. Zebraliśmy je z wielu źródeł (repozytoria Zenodo, Figshare, Mendeley Data, Kaggle, HuggingFace) i pobraliśmy lokalnie. Poniżej najważniejsze zbiory wraz z linkiem do źródła i przykładowymi obrazami (zielony kontur = obrys wykonany przez eksperta, tam gdzie zbiór zawiera takie oznaczenia). Te przykłady pozwalają zobaczyć, jak faktycznie wygląda materiał, na którym uczy się model.

MMOTU — guzy jajnika (Beijing Shijitan Hospital). 1 469 obrazów 2D, maski + 8 podtypów histologicznych. Licencja akademicka. Użyto do: segmentacja guza + klasyfikacja podtypu. Źródło: github.com/cv516Buaa/MMOTU_DS2Net
MMOTU

Borna — jajnik przezpochwowo (Hamadan Univ., Iran). 301 obrazów: Norma / Pęcherzyk dominujący / PCO. CC BY 4.0. Użyto do: klasyfikacja jajnika / PCOS. Źródło: github.com/HananSaadat/ovarian_ultrasound_dataset
Borna

UFUV — mięśniaki macicy (wideo) (LGRNet, MICCAI 2024). 100 nagrań × 50 klatek + obrysy. MIT. Użyto do: segmentacja w sekwencji wideo. Źródło: HuggingFace: uterine_fibroid_ultrasound_video
UFUV

Carotid (tętnica szyjna) (Politechnika Śląska). 1 100 obrazów + obrysy eksperckie ściany naczynia. CC BY 4.0. Użyto do: segmentacja tętnicy szyjnej (cecha rozszerzeń). Źródło: Mendeley d4xt63mgjm
Carotid

BUSI / BUS-BRA — pierś (badania referencyjne). BUSI 780 + BUS-BRA 1 875 obrazów, obrysy zmian + kategorie (łagodna/złośliwa). CC BY. Użyto do: sprawdzenie, czy nasze podejście przenosi się na inny narząd. Źródło: Zenodo BUS-BRA
BUSI

PCOS — zespół policystycznych jajników (10 szpitali, Kerala). ~3 850 obrazów USG, kategorie zmieniony / prawidłowy. Użyto do: klasyfikacja PCOS na większym zbiorze. Źródło: Kaggle: PCOS detection
PCOS

Dodatkowo pobraliśmy i wykorzystaliśmy: MicroSegNet (prostata 3D, micro-USG, Zenodo), SegThy (tarczyca 3D, TUM), STU-Hospital (guzy jajnika z innego szpitala — do testu generalizacji), oraz zbiory poszerzające pokrycie: TN3K (tarczyca), HC18 (główka płodu), FETAL_PLANES, CAMUS (serce), AHU (wielonarządowy). Łącznie kilkanaście zbiorów z różnych narządów i aparatów. Pełny katalog z licencjami i komendami pobrania: plik datasety/_katalog/.

3. Metody — czym są nasze eksperymenty

Przeprowadziliśmy kilkanaście różnych typów eksperymentów, każdy inną metodą. Poniżej każdy opisany w dwóch zdaniach, bez żargonu.

Klasyfikacja obrazu. Sieć dostaje pojedynczy obraz i przypisuje go do kategorii (np. łagodny/złośliwy, PCO/norma). Sprawdzaliśmy różne „mózgi" sieci (architektury) i mierzyliśmy dokładność oraz macro-F1.
Segmentacja (obrysowanie). Sieć dla każdego piksela decyduje, czy należy do struktury (np. guza), tworząc automatyczny obrys. Jakość mierzymy miarą Dice względem obrysu eksperta.
Porównanie wielu architektur sieci. Tę samą rzecz (obrysowanie guza) zrobiliśmy ośmioma różnymi typami sieci, żeby sprawdzić, która jest najlepsza na naszych danych. To pokazuje, że wybór konkretnej architektury ma drugorzędne znaczenie.
Wpływ ilości danych. Trenowaliśmy ten sam model na 10%, 25%, 50% i 100% danych, żeby zobaczyć, ile obrazów naprawdę potrzeba. Pozwala to oszacować realny koszt zbierania danych.
Generalizacja między ośrodkami. Model nauczony na danych jednego szpitala testowaliśmy na danych z innego. To najtwardszy i najważniejszy test przed jakimkolwiek wdrożeniem.
Wzmacnianie danych obrazami sztucznymi. Wytrenowaliśmy model generujący syntetyczne obrazy USG i dodaliśmy je do uczenia, by uzupełnić rzadkie kategorie. Sprawdziliśmy, czy to poprawia wynik.
Bezpieczeństwo i niepewność. Zbudowaliśmy zespół (ensemble) modeli, który potrafi powiedzieć „nie jestem pewien" i odesłać przypadek do lekarza. Mierzyliśmy, jak rośnie dokładność, gdy model odracza najtrudniejsze przypadki.
Analiza ruchu (wideo/cine). Sprawdziliśmy, czy uwzględnienie kolejnych klatek nagrania (a nie pojedynczego obrazu) poprawia obrysowanie struktur w ruchu.

Jak liczymy dokładność i macro-F1 (dla porządku). Accuracy = (liczba poprawnie zaklasyfikowanych obrazów) ÷ (liczba wszystkich obrazów w zbiorze testowym). macro-F1: dla każdej kategorii osobno liczymy precyzję (ile wskazań tej kategorii było trafnych) i czułość (ile rzeczywistych przypadków tej kategorii wykryto), łączymy je w F1 = 2·precyzja·czułość ÷ (precyzja+czułość), a następnie uśredniamy F1 po wszystkich kategoriach z równą wagą. Dzięki temu rzadka kategoria (np. rzadki podtyp guza) liczy się tak samo jak częsta — co jest istotne klinicznie.

4. Wyniki

4.1 Klasyfikacja (rozpoznawanie kategorii)

cls — Rozpoznawanie stanu jajnika (zbiór Borna), walidacja 5-krotna. Sieć wstępnie uczona na obrazach USG (USF-MAE) i klasyczna sieć (EfficientNet) są równorzędne; sieć typu „transformer" uczona na zdjęciach codziennych (ViT-ImageNet) wyraźnie zawodzi.

Zadanie klasyfikacji	Dane	Najlepszy wynik
Jajnik: Norma / Pęcherzyk / PCO	Borna, 301 obr. (5-krotna walidacja)	dokładność 0,92 · macro-F1 0,91 · AUC 0,97
Guz jajnika: 8 podtypów histologicznych	MMOTU, 1 202 obr.	dokładność 0,80 · macro-F1 0,76
Pierś: łagodna / złośliwa / norma	BUSI, 780 obr.	dokładność 0,92 · macro-F1 0,91 · AUC 0,98
PCOS: zmieniony / prawidłowy	PCOS Kaggle, ~3 850 obr.	dokładność 0,999 — ⚠ niewiarygodne (wyciek danych)

Uwaga o PCOS — ważna lekcja. Na publicznym zbiorze PCOS z Kaggle obie sieci osiągnęły ~0,999 dokładności. To nie jest realna skuteczność, lecz objaw „wycieku danych": ten sam (lub niemal identyczny) obraz występuje równocześnie w zbiorze uczącym i testowym, więc model „rozpoznaje", a nie „uczy się". Literatura wielokrotnie ostrzega przed tym konkretnym zbiorem. Wniosek praktyczny: wyników 0,99 z publicznych zbiorów PCOS nie należy traktować poważnie — to przestroga, jak łatwo o złudny wynik bez rygorystycznego rozdziału danych.

Co z tego wynika (i dlaczego). Decydujące jest wstępne uczenie sieci na obrazach USG lub medycznych — sieć, która „widziała wcześniej" tylko zdjęcia codzienne, nie radzi sobie na małych zbiorach USG (dokładność spada do ~0,5–0,64, bo obraz USG jest ziarnisty i zupełnie inny niż fotografia). Wynik na podtypach guza (macro-F1 0,76) jest zgodny z najlepszą publikacją na tym zbiorze (0,80), co potwierdza, że nasz tok pracy jest poprawny.

4.2 Segmentacja (automatyczne obrysowanie struktur)

seg — Obrysowanie guza jajnika (MMOTU). Czerwony = obrys AI, zielony = obrys eksperta. Dice ≈ 0,87.

Co obrysowujemy	Dane	Dice
Guz jajnika	MMOTU	0,87
Tętnica szyjna	Carotid, 1 100 obr.	0,96
Prostata	MicroSegNet 3D	0,92
Zmiana w piersi	BUSI	0,81
Mięśniak (pojedyncza klatka)	UFUV	0,61

Porównanie 8 różnych architektur sieci na tym samym zadaniu (guz jajnika, MMOTU) — pokazuje, że wybór konkretnej sieci ma drugorzędne znaczenie (wszystkie dobre mieszczą się w wąskim zakresie 0,81–0,87):

Architektura sieci	Dice
U-Net + enkoder „SegFormer" (transformer)	0,873
DeepLabV3 (klasyczna, referencyjna)	0,872
LinkNet / U-Net++ / DeepLabV3+	0,86–0,87
FPN / MA-Net	0,84–0,85
PSPNet	0,81
U-Net uczony od zera (bez wstępnego uczenia)	0,65

dataeff — Ile danych potrzeba: już ~70 obrysów daje 0,82; ~150 daje 0,85; dalej przyrost jest niewielki.

Co z tego wynika (i dlaczego). (1) Wstępne uczenie jest kluczowe — ta sama sieć uczona od zera daje 0,65 zamiast 0,87 (różnica 0,22), bo bez niego sieć musiałaby nauczyć się „od podstaw", co przy małych zbiorach medycznych się nie udaje. (2) Konkretna architektura jest drugorzędna — wszystkie nowoczesne sieci dają podobny wynik. (3) Dla zadań „gotowych" wystarczy rzędu 100–200 obrysów na strukturę, więc ilość danych nie jest tu wąskim gardłem.

4.3 Galeria predykcji — GOLD (z datasetu) vs PREDYKCJA (nasz model)

Jak czytać te obrazy. W każdym panelu: kolumna 1 = WEJŚCIE (surowy obraz USG z publicznego zbioru), kolumna 2 = GOLD (obrys wykonany ręcznie przez eksperta-radiologa, dostarczony wraz z datasetem — „prawda"), kolumna 3 = PREDYKCJA (obrys wygenerowany automatycznie przez nasz wytrenowany model). Zielony = GOLD (prawda z datasetu), czerwony = nasza predykcja. Nagłówek każdego panelu podaje nazwę modelu, datę i godzinę treningu, czas trwania treningu oraz osiągnięty Dice — tak, by jednoznacznie odróżnić to, co jest „złotym standardem" z danych, od tego, co przewiduje nasza sieć. Wszystkie poniższe modele wytrenowano 2026-06-20 ok. 16:21 (architektura DeepLabV3-ResNet50).

pred carotid — Tętnica szyjna — trening 94 s, Dice 0,96.

pred hc18 — Główka płodu — trening 71 s, Dice 0,97.

pred busbra — Zmiana w piersi — trening 159 s, Dice 0,90.

pred mmotu — Guz jajnika — trening 70 s, Dice 0,87.

pred tn3k — Guzek tarczycy — trening 241 s, Dice 0,80.

Wizualnie widać, że dla tętnicy szyjnej, główki płodu i guza jajnika czerwony (predykcja) niemal pokrywa się z zielonym (gold); dla tarczycy (najtrudniejszy przypadek) bywają rozbieżności na granicach guzka — co odpowiada niższemu Dice 0,80.

4.4 Stan generalizacji — przenoszenie modelu między ośrodkami

Sprawdziliśmy, jak model nauczony na obrazach jednego szpitala (MMOTU) zachowuje się na obrazach z innego szpitala (STU). To kluczowy test naukowy: realny system musi działać na aparatach i populacjach, których nie widział podczas uczenia.

stu — Ten sam model na obrazach z innego ośrodka (STU): obrysy AI (czerwony) rozjeżdżają się z obrysem eksperta (zielony).

Dokładność spada z 0,87 (u siebie) do ok. 0,45–0,61 (inny ośrodek). Próba „sztucznego urozmaicenia" danych (przekształcenia obrazu) nie zamyka tej luki.

Wynik liczbowo. Dice w obrębie własnego zbioru: 0,87. Po przeniesieniu na inny ośrodek: 0,45–0,61 (spadek o 30–48%, zależnie od wariantu). Dla porównania, w literaturze typowy spadek między ośrodkami to ok. 11% — nasz jest większy, częściowo z powodu różnic w sposobie obrysowywania między ośrodkami.

Dlaczego tak się dzieje. Każdy aparat USG i każdy ośrodek dają obrazy o nieco innej jasności, kontraście, ziarnistości i sposobie ustawienia — model uczy się „wyglądu" konkretnego aparatu, a na innym przestaje rozumieć obraz (podobnie jak lekarz przyzwyczajony do jednego aparatu potrzebuje chwili na inny). Sprawdziliśmy, czy pomaga sztuczne urozmaicanie obrazów podczas uczenia (zmiany jasności, obroty, rozmycie) — nie wystarcza. Wniosek dla projektu jest poniżej w sekcji 8.

Potwierdzenie na drugim narządzie (pierś) — to nie był przypadek. Powtórzyliśmy test na dwóch niezależnych zbiorach piersi (BUSI i BUS-BRA, z różnych krajów/aparatów). Model uczony na jednym i testowany na drugim spadł: BUS-BRA→BUSI z 0,90 do 0,49; BUSI→BUS-BRA z 0,81 do 0,49 (spadek ~40–46%). Ponieważ to dwa całkowicie odrębne zbiory, wykluczamy, że spadek wynika z różnic w sposobie obrysowywania — to realny efekt różnicy aparatów/populacji. Lekarstwo (sprawdzone): gdy wytrenowaliśmy model na połączonych danych obu ośrodków, osiągnął ~0,90 na każdym z nich. Wniosek jest jednoznaczny: aby model działał na danym aparacie, dane z tego aparatu muszą znaleźć się w zbiorze uczącym — nie da się tego obejść, trzeba zebrać duży, zróżnicowany, zbalansowany zbiór. Potwierdzenie na TRZECIM narządzie (tarczyca): model z jednego zbioru tarczycy (TN3K) testowany na innym (DDTI) spadł z 0,80 do 0,67. Efekt widać więc spójnie na trzech niezależnych narządach (jajnik, pierś, tarczyca) — to prawidłowość, nie wyjątek.

4.5 Wzmacnianie danych obrazami sztucznymi

synth — Syntetyczne USG metodą **img2img** (Stable Diffusion). W każdym wierszu: **1. kolumna = prawdziwy skan**, kolejne 4 = jego **warianty wygenerowane**. Wiersze = różne podtypy guza.

Uczenie klasyfikatora	macro-F1
tylko dane prawdziwe	0,693
prawdziwe + sztuczne	0,719
poprawa	+0,025

Dodanie sztucznych obrazów rzadkich podtypów poprawiło rozpoznawanie o +0,025 macro-F1.

Poprawiona metoda generowania. Pierwsze podejście (mały model dyfuzyjny uczony od zera w niskiej rozdzielczości) dawało obrazy przypominające szum — zmierzyliśmy to obiektywnie miarą „podobieństwa sąsiednich pikseli": dla tamtych obrazów wynosiła 0,06 (czysty szum), podczas gdy prawdziwe USG ma ~0,90. Zmieniliśmy podejście na img2img: model dyfuzyjny startuje od prawdziwego skanu i tworzy jego realistyczne warianty, dzięki czemu zachowana jest struktura USG. Nowe obrazy mają miarę 0,91 — czyli pod względem tej jednej statystyki tekstury są zbliżone do prawdziwego USG (a nie do szumu). To miara pomocnicza, nie dowód realizmu klinicznego — ocenę wiarygodności obrazów powinien potwierdzić radiolog. To czyni augmentację generatywną realnie użytecznym narzędziem (np. do dogenerowania rzadkich podtypów guza).

4.6 Bezpieczeństwo — model, który wie, że „nie wie"

Gdy model odracza najbardziej niepewne przypadki do lekarza, dokładność rośnie z 0,90 do 0,98 (przy 70% przypadków) i do 1,00 (przy 50%).

Co to znaczy. Model nie musi odpowiadać na wszystko — przy niepewności może powiedzieć „skierować do lekarza". To podnosi bezpieczeństwo i jest wymagane przez przepisy dla wyrobów medycznych z AI (nadzór człowieka). W praktyce: na 50% najpewniejszych przypadków model jest w naszym teście bezbłędny, a trudne 50% trafia do specjalisty.

4.7 Analiza ruchu (wideo/cine)

Metoda	Dice (mięśniak, UFUV)
pojedyncza klatka	0,614
proste złożenie kilku klatek	0,593 (gorzej)
zaawansowany model sekwencyjny (Mamba)	poprawa o +0,013
najlepszy model z literatury (LGRNet)	0,775

Co z tego wynika. Samo „pokazanie sieci kilku klatek naraz" nie pomaga; korzyść daje dopiero specjalna architektura analizująca sekwencję w czasie. Duży wynik z literatury (0,78) pochodzi z całej wyrafinowanej konstrukcji, nie z prostego dodania czasu — to realny, osobny kierunek prac.

4.8 Rozszerzenie na wiele narządów + czasy realizacji

Aby sprawdzić, czy podejście jest uniwersalne, wytrenowaliśmy modele na wielu narządach z różnych publicznych zbiorów. Poniżej komplet z czasami treningu (na jednej karcie H100) — wszystkie wykonane 2026-06-20. To pokazuje, że pojedynczy model uczy się w minutach, a całe podejście przenosi się poza ginekologię.

Narząd / zadanie	Zbiór	Sieć	Wynik	Czas treningu
Guz jajnika — obrys	MMOTU	DeepLabV3	Dice 0,87	70 s
Tętnica szyjna — obrys	Carotid (Momot)	DeepLabV3	Dice 0,96	94 s
Główka płodu — obrys	HC18	DeepLabV3	Dice 0,97	71 s
Prostata — obrys (3D)	MicroSegNet	DeepLabV3	Dice 0,92	~5 min
Zmiana w piersi — obrys	BUS-BRA	DeepLabV3	Dice 0,90	159 s
Guzek tarczycy — obrys	TN3K	DeepLabV3	Dice 0,80	241 s
Płaszczyzna płodu — 6 klas	FETAL_PLANES	EfficientNet	acc 0,97 / F1 0,96	~8 min
Pierś — łagodna/złośliwa	BUS-BRA / BUSI	EfficientNet	acc 0,89 / F1 0,87	~3 min
Wielonarządowy — 47 klas (zbiór wyrównany do 1500/klasę, 24 tys. obrazów)	AHU	EfficientNet	acc 0,935 · F1 0,96 · AUC 0,999	~12 min
Segmentacja wieloklasowa — kilka struktur na jednej klatce (4 klasy)	AbdomenUS	DeepLabV3	mIoU 0,83 · pixel-acc 0,96	~10 min

Dwie nowe zdolności w tej tabeli. (1) Klasyfikacja 47-klasowa (AHU) — bardzo wysokie liczby (F1 0,96) wynikają częściowo z tego, że klasy różnią się narządem i typem badania (są wizualnie odległe), więc to łatwiejszy benchmark niż subtelna patologia w obrębie jednego narządu; pokazuje jednak, że pipeline skaluje się do kilkudziesięciu kategorii. (2) Segmentacja wieloklasowa — model obrysowuje kilka struktur naraz na jednym obrazie (nie jedną), co jest dokładnie tym, czego wymaga pojedyncza klatka TVUS (jajnik + pęcherzyki + endometrium równocześnie). mIoU 0,83 = uśredniona jakość obrysu po wszystkich klasach.

Porównanie „mózgów" sieci na rozpoznawaniu podtypów guza jajnika (8 klas, MMOTU) — różne nowoczesne architektury dają zbliżony wynik, co potwierdza, że kluczowy jest dobór danych i wstępne uczenie, nie sama architektura:

Sieć	macro-F1
ResNet-50 (klasyczna)	0,77
USF-MAE (wstępnie uczona na USG)	0,76
ConvNeXt-Tiny (nowoczesna konwolucyjna)	0,76
EfficientNet-B3	0,74
Swin-Tiny (transformer)	0,69
ViT (uczona tylko na zdjęciach codziennych)	0,43

Czy wstępne uczenie na USG pomaga w obrysowaniu (segmentacji)? Porównaliśmy ten sam model z „mózgiem" wstępnie uczonym na USG (USF-MAE) vs na zdjęciach codziennych (ImageNet), na trzech narządach:

Narząd	wstępne uczenie na USG	na zdjęciach codziennych
Tętnica szyjna	0,954	0,943
Tarczyca	0,784	0,768

Niuans. W obrysowaniu wstępne uczenie na USG daje tylko mały zysk (+0,01–0,02), bo część pracy wykonuje „dekoder" obrysu. Natomiast w rozpoznawaniu kategorii (sekcja 4.1) różnica była ogromna (0,76 vs 0,43). Praktyczny wniosek: dla obrysowania wystarczy dowolna dobra pretrenowana sieć; dla klasyfikacji warto użyć sieci uczonej na USG.

Pęcherzyk świeży / pęknięty / ciałko żółte — przeszukaliśmy wszystkie repozytoria. Na bezpośrednią prośbę o dane do rozróżniania pęcherzyka świeżego vs pękniętego, LUF i ciałka żółtego: nie istnieje żaden publiczny zbiór z takimi etykietami (sprawdzono Zenodo, Figshare, Mendeley, Kaggle, HuggingFace, GitHub, PhysioNet, Dryad, OSF, IEEE DataPort). Najbliższe to zbiory obrysu pęcherzyków (USOVA3D 3D, FUID 22 943 obrazy) i klasa „pęcherzyk dominujący" (Borna) oraz preowulacyjne pęcherzyki u świni (Mendeley, CC BY) — przydatne tylko do nauczenia lokalizacji pęcherzyka. Aby zbudować rozpoznawanie stanu pęcherzyka, potrzebne są seryjne badania przezpochwowe w oknie okołoowulacyjnym (wiele punktów czasowych na pacjentkę), B-mode + Doppler, z etykietami stanu (rosnący / preowulacyjny / pęknięty / ciałko żółte / LUF) i najlepiej sparowanym progesteronem/LH — to musi powstać u Was, nie ma gotowca.

5. Literatura — co i na jakich danych zrobili inni

Przeanalizowaliśmy ok. 90 prac naukowych. Poniżej najważniejsze, z informacją na jakich danych pracowały, co raportują i jaki osiągnęły wynik — żeby było widać, gdzie jesteśmy na tle nauki. (Pełna baza: papery/00_baza-paperow.md.)

Praca	Dane	Co raportują	Wynik
Christiansen i wsp., Nature Medicine 2025	17 119 obrazów, 3 652 pacjentki, 20 ośrodków, 8 krajów	rak jajnika łagodny/złośliwy (transformery), vs eksperci	dokładność 86,3% vs 82,6% ekspert (★ przełom)
Gao i wsp., Lancet Digital Health 2022	10 szpitali, ~odsetek setek tys. obrazów	wykrywanie raka jajnika (sieć CNN)	duży zbiór; krytyka: kontrole zdrowe zaburzają wynik
OvaMTA, eClinicalMedicine 2024	21 szpitali, ~10 tys. obrazów + wideo	segmentacja + diagnoza masy jajnika	AUC 0,94 (obraz) / 0,91 (wideo)
ADNEX-AI (KU Leuven), npj Precision Oncology 2025	dane grupy IOTA	auto-pomiar 4 cech ryzyka ADNEX	AUC 0,93
USF-MAE, 2025	370 tys. obrazów USG z 46 zbiorów (w tym MMOTU)	uniwersalna sieć wstępnie uczona na USG; test na MMOTU	F1 0,80 na podtypach jajnika (my: 0,76)
USFM, Medical Image Analysis 2024	~2 mln obrazów USG, wielonarządowe	uniwersalna sieć USG (wstępne uczenie)	Dice 0,84–0,86 na wielu narządach
CR-Unet, IEEE JBHI 2020	3 204 obrazy TVUS, 219 pacjentek	jednoczesne obrysowanie jajnika i pęcherzyków	Dice 0,93 (jajnik) / 0,89 (pęcherzyk)
Wang i wsp., QIMS 2022	85 wolumenów 3D TVUS	endometrium w 3D, pomiar grubości	Dice 0,91 (3D) vs 0,64 (2D); 94% pomiarów w ±2 mm
LGRNet, MICCAI 2024	UFUV: 100 wideo mięśniaków	segmentacja mięśniaka w wideo (model sekwencyjny)	Dice 0,775 (my, pojedyncza klatka: 0,61)
YOLOv11-PCOS, 2025	1 751 kobiet, 2 ośrodki (prospektywnie)	wykrywanie jajnika i PCOS	mAP 95,7–97,8%
Raimondo i wsp., 2023	100 pacjentek (wideo)	diagnoza adenomiozy (uczciwy wynik negatywny)	dokładność 0,51 (poniżej stażystów)
ProMUS-NET, BJU Int 2025	micro-USG prostaty	wykrywanie raka prostaty	AUC 0,92; bije urologów (73% vs 58%)
AtheroEdge (FDA-cleared)	tętnica szyjna	automatyczny pomiar grubości błony (IMT)	~98,9% zgodności z manualnym

Gdzie jesteśmy na tle nauki. Nasze wyniki na otwartych danych (np. podtypy jajnika F1 0,76 vs 0,80; prostata Dice 0,92) dorównują publikowanym. Najlepsze prace kliniczne (Nature Medicine 2025) różnią się od nas nie metodą, lecz skalą i jakością danych — 17 tys. obrazów z 20 ośrodków. To potwierdza główny wniosek: wąskim gardłem są dane, nie algorytmy. Wyraźne luki w literaturze (brak prac) dotyczą fazy endometrium z obrazu, ilościowego Dopplera i ciałka żółtego — czyli dokładnie tego, na czym najbardziej zależy lekarzowi.

5.1 Nasze wyniki vs najlepsze publikacje (SOTA) — na tych samych zbiorach

Zadanie / zbiór	Nasz wynik	Najlepszy publikowany	Ocena
Pierś — obrys (BUS-BRA)	Dice 0,90	0,82–0,89	≥ SOTA
Płaszczyzny płodu — klasyfikacja	acc 0,966	0,958	na poziomie SOTA
Guz jajnika — obrys (MMOTU)	Dice 0,87	~0,87	na poziomie
Główka płodu — obrys (HC18)	Dice 0,97	0,98	blisko (saturacja)
Prostata — obrys (MicroSegNet)	Dice 0,92	0,939	blisko
Podtyp guza jajnika — 8 klas	F1 0,76	0,80 / ensemble 0,93 acc	poniżej (ensemble)
Mięśniak — wideo (UFUV)	0,61 (2D)	0,775 (LGRNet, temporal)	poniżej (potrzeba modelu czasowego)

Pozycjonowanie. Na 2 zadaniach jesteśmy na/powyżej SOTA (obrys piersi, klasyfikacja płaszczyzn płodu), na kilku — w granicach zakresu wyników publikowanych na tych samych zbiorach, a różnice „poniżej" wynikają z metod, które celowo na razie pominęliśmy (zespoły modeli dla klasyfikacji; modele czasowe dla wideo) — nie z jakości podejścia. Pełna tabela + cytowania: kod-zrodlowy/03_benchmark-sota-progi.md.

5.2 Od obrysu do liczby klinicznej (pomiar w mm) — zwalidowane

Lekarza interesuje liczba (grubość, średnica, obwód), nie sam obrys. Zbudowaliśmy warstwę, która z automatycznego obrysu wylicza pomiar w milimetrach, i sprawdziliśmy ją na zbiorze HC18, który zawiera prawdziwy obwód głowy płodu zmierzony przez eksperta:

Pomiar	Nasz błąd vs prawda	Poziom SOTA
Obwód głowy płodu [mm]	średni błąd 2,4 mm (mediana 1,9 mm)	~1,7–2,0 mm

Co to znaczy. Potrafimy przejść od „obrazu" do konkretnej liczby w mm z błędem ~2 mm — czyli na poziomie publikowanych narzędzi. Ta sama metoda przeniesie się na grubość endometrium, średnicę pęcherzyka, IMT tętnicy szyjnej, objętość jajnika — pod warunkiem, że obraz ma kalibrację (mm/piksel z aparatu). Połączenie pomiaru z progami klinicznymi (np. endometrium 4–5 mm, pęcherzyk ≥10 mm, IMT >0,9 mm — patrz 03_benchmark-sota-progi.md) daje gotowy sygnał decyzyjny. Uwaga: dla endometrium ACOG w 2026 r. zaleca łączyć USG z pobraniem tkanki — pomiar AI to wsparcie, nie samodzielna diagnoza.

5.3 Od liczby do decyzji (próg kliniczny → flaga) — zaimplementowane

Domknęliśmy łańcuch obraz → obrys → liczba w mm → decyzja. Reguły progowe pochodzą wprost z wytycznych (post-processing, nie „czarna skrzynka"). Przykładowe działanie modułu reguł (plik kod-zrodlowy/poc/measure_decision.py):

Pomiar	Wartość	Decyzja modułu	Źródło progu
Grubość endometrium (postmenopauza)	3 mm	norma (<4 mm)	ACOG: ≤4 mm NPV>99%
	4,5 mm	granicznie 4–5 mm
	8 mm	skierować (pobranie tkanki)
IMT tętnicy szyjnej	1,1 mm	podwyższone (>0,9 mm)	Mannheim / ESH-ESC
IMT tętnicy szyjnej	1,8 mm	blaszka (>1,5 mm)	Mannheim / ESH-ESC
Guzek tarczycy (TR5)	14 mm	FNA wskazane (≥10 mm)	ACR TI-RADS
Pęcherzyk jajnikowy	19 mm	preowulacyjny (~trigger)	folikulometria 18–20 mm

Co to znaczy. System nie tylko mierzy, ale i podpowiada decyzję zgodną z wytycznymi — przejrzyście, bo reguła jest jawna i cytowalna. Jedyny brakujący element do wdrożenia to kalibracja mm/piksel, którą aparat USG podaje w nagłówku DICOM (na HC18, gdzie kalibracja jest dostępna, policzyliśmy realne wymiary). To czyni warstwę decyzyjną gotową do podłączenia do dowolnego skalibrowanego strumienia obrazu.

6. Rynek komercyjny

Nikt nie ma samoobsługowego, autonomicznego screeningu przezpochwowego — to nasza biała plama. Najbliżej koncepcyjnie: izraelskie IMMA Health (domowy robot TVUS) i EndoCure.
Producenci aparatów (GE, Samsung, Mindray) mają już folikulometrię i ocenę endometrium jako funkcje aparatu; głębokie uczenie do złośliwości nie jest jeszcze standardem.
Lider naukowy onkologii jajnika: szwedzki Intelligyn (Nature Medicine 2025), wciąż przedrynkowy. Polski akcent: MIM Fertility / FOLLISCAN (folikulometria).

7. 12 cech wskazanych przez lekarza — co da się dziś, a co wymaga danych

Cecha	Status	Wynik / dlaczego
Mięśniaki	gotowe	segmentacja działa (0,61 klatka / 0,78 wideo)
Wielkość/objętość jajnika	gotowe	obrysowanie 0,87
Liczba pęcherzyków / PCOS	gotowe	klasyfikacja 0,92
Prostata (rozszerzenie)	gotowe	obrysowanie 0,92
Tętnice szyjne (rozszerzenie)	gotowe	obrysowanie 0,96
Grubość endometrium	możliwe	metoda znana, ale brak otwartych danych → własne
Faza endometrium z obrazu	luka badawcza	brak danych; sygnał nie jest w jednej klatce
Doppler (przepływy) endometrium/macicy	luka badawcza	brak otwartych danych Dopplera
Pęcherzyk: świeży/pęknięty, LUF	luka badawcza	sygnał czasowy, nie jednoklatkowy
Ciałko żółte → progesteron	luka badawcza	korelacja kliniczna istnieje, ale zero danych i prac AI

7.12 — Tętnice szyjne (szczegółowo)

Wynik. To najlepiej wypadająca cecha z całego zestawu. Automatyczne obrysowanie ściany tętnicy szyjnej osiągnęło Dice 0,957 (DeepLabV3), a w wariantach z innymi sieciami nawet 0,962 (U-Net z enkoderem SegFormer) i 0,958 (MA-Net) — czyli powtarzalnie ~0,96, wyżej niż dla jakiegokolwiek innego narządu, który testowaliśmy (jajnik 0,87, pierś 0,90, tarczyca 0,80). Model trenował się w 94 sekundy na jednej karcie.

Dlaczego tak dobrze (przyczyny). Po pierwsze, obraz tętnicy szyjnej jest najłatwiejszy do interpretacji ze wszystkich: ściana naczynia (kompleks intima-media) to wyraźne, jasne, równoległe linie na ciemnym tle światła naczynia — granica jest ostra i powtarzalna, w przeciwieństwie do np. rozmytych granic guzka tarczycy. Po drugie, badanie wykonuje się wg ustandaryzowanego protokołu (konsensus z Mannheim), więc obrazy z różnych ośrodków są podobnie ułożone. Po trzecie, istnieją duże publiczne zbiory z obrysami eksperckimi (CUBS — 2 176 obrazów / 1 088 pacjentów; zbiór Politechniki Śląskiej — 1 100 obrazów + maski), więc model ma się z czego uczyć.

Co to umożliwia klinicznie. Automatyczny pomiar grubości błony wewnętrznej i środkowej (IMT) oraz wykrywanie blaszki miażdżycowej — to bezpośredni marker ryzyka sercowo-naczyniowego (zawał, udar). Dojrzałość tej dziedziny potwierdza fakt, że istnieją już narzędzia z certyfikatem FDA (AtheroEdge, zgodność ~98,9% z pomiarem manualnym) oraz wbudowane funkcje w aparatach GE/Philips. Wniosek: tu wyzwaniem nie jest technika (jest gotowa), lecz różnicowanie komercyjne — gotowe rozwiązania już są na rynku. Dla projektu carotid jest atrakcyjnym, łatwym modułem rozszerzającym (np. profilaktyka sercowo-naczyniowa przy okazji wizyty).

Zastrzeżenie (spójne z resztą raportu). Mimo wysokiego wyniku „u siebie", do wdrożenia także tutaj obowiązuje zasada z sekcji 4.4 — potrzebne są dane z wielu aparatów/ośrodków, by model nie tracił dokładności na sprzęcie, którego nie widział podczas uczenia.

7a. Status realizacji i wykonalność pozostałych punktów

Poniżej uczciwy przegląd: co zrobione, co w toku, a dla każdego niewykonanego punktu — czy uważamy, że umiemy to zrobić, dlaczego, i jaki jest precedens. Pełna wersja: kod-zrodlowy/04_wykonalnosc-punktow.md.

Punkt	Status	Czy umiemy + dlaczego / precedens
Klasyfikacja wielonarządowa (AHU, 47 klas)	zrobione	✅ acc 0,935 / F1 0,96 / AUC 0,999 (24k obrazów)
Segmentacja wieloklasowa (kilka struktur naraz)	zrobione	✅ AbdomenUS, mIoU 0,83 / pixel-acc 0,96 (4 klasy)
Pomiar → liczba w mm	zrobione	✅ HC18 błąd 2,4 mm = poziom SOTA
Pomiar → decyzja (progi kliniczne)	zrobione	✅ moduł reguł działa (endometrium/IMT/TI-RADS/pęcherzyk) — patrz 5.3; wdrożenie wymaga kalibracji mm/px z DICOM
Detekcja + liczenie pęcherzyków (AFC)	metoda gotowa, brak danych	🟡 metoda dojrzała (SonoAVC, 5D Follicle, YOLOv11-PCOS mAP 95-98%), ale lokalnie brak danych pęcherzyków z anotacją
Opis tekstowy znaleziska (VLM)	wykonalne	🟡 EchoVLM otwarty, trenowany na ginekologii — do dotrenowania
Modele 3D / temporalne (cine)	częściowo	🟡 3D U-Net standard (mamy dane 3D); cine: węzeł Mamba zbudowany, pełny LGRNet blokuje wycofany pakiet natten — wymaga portu
Faza endometrium, Doppler→progesteron, LUF, ciałko żółte, pęcherzyk świeży/pęknięty	brak danych	🔴 wyczerpująco przeszukaliśmy Zenodo, Figshare, Mendeley, Kaggle, HuggingFace, GitHub, PhysioNet, Dryad, OSF, IEEE DataPort + sekcje paperów — ZERO publicznych zbiorów. Wykonalne PO zebraniu danych — precedensy: patent GE na fazę endometrium; regresja AMH-z-USG (R²=0,51) dowodzi, że hormon da się wnioskować z obrazu; korelacja CL-RI↔progesteron (Tanaka 2009)

Najważniejsze, co NIE jest możliwe dziś (i dlaczego to nie wina metody). Cechy o najwyższym priorytecie klinicznym (faza endometrium z echa, przepływy Dopplera, ciałko żółte→progesteron, LUF, pęcherzyk świeży/pęknięty) nie mają żadnych publicznych danych — i to potwierdziliśmy wyczerpującym przeszukaniem wszystkich głównych repozytoriów medycznych. To nie jest „się nie da", lecz „nie ma na czym uczyć". Precedensy (działający patent, regresja hormonu z USG, korelacje kliniczne) wskazują, że sygnał jest uczalny — pod warunkiem zbudowania własnego, longitudinalnego zbioru zakotwiczonego w cyklu (seryjne TVUS + Doppler + progesteron/LH/histologia). To jednorazowy, kluczowy nakład projektu.

8. Wnioski i ograniczenia

Tok pracy działa i dorównuje literaturze dla cech, które mają dane (jajnik, pęcherzyki, mięśniaki, prostata, tętnica szyjna).
Najważniejszy wniosek — krytyczny obraz z sekcji 4.4. Model osiąga 0,87 „u siebie", ale ~0,45–0,61 na innym ośrodku, a sztuczne urozmaicanie tego nie naprawia. Oznacza to wprost: do wdrożenia potrzeba dużego, zróżnicowanego i zbalansowanego zbioru danych z wielu aparatów i ośrodków — to jest najważniejszy element krytyczny całego projektu i warunek przejścia walidacji do certyfikacji.
Ilość danych dla cech „gotowych" nie jest barierą (~100–200 obrysów wystarcza); budżet danych należy skierować na cechy-luki.
Obrazy sztuczne — kierunek obiecujący, ale do poprawy. Pomagają liczbowo przy rzadkich kategoriach, lecz na razie nie wyglądają jak prawdziwe USG (rozmyte, nienaturalne) — wymagają lepszego modelu generującego, zanim będzie można na nich polegać.
Cechy o najwyższym priorytecie klinicznym (faza endometrium, Doppler, ciałko żółte, LUF) nie mają żadnych publicznych danych. Powód jest wspólny: informacja jest histologiczna, czasowa lub pośrednia — nie ma jej w pojedynczej klatce. To wymaga zbudowania własnego, podłużnego zbioru zakotwiczonego w cyklu, z wynikami hormonalnymi/histologicznymi — i to jest największa wartość oraz największy koszt projektu.

Ograniczenia uczciwie: część zbiorów jest mała (Borna 301, STU 42) — wyniki orientacyjne, do potwierdzenia na danych własnych; część spadku między ośrodkami wynika z różnic w sposobie obrysowywania; cechy-luki nie były trenowane (brak danych).

Genotic · raport opracowany 20–23 czerwca 2026 · przygotowali: TaskPilot & Greg · ponad 30 eksperymentów / ~150 treningów na 8×H100 · pełne artefakty: /raid/gynecological-ultrasound/ (kod, surowe wyniki, szczegółowa analiza techniczna ANALIZA_EKSPERYMENTOW.md, baza literatury i datasetów).