metodologia Systemu Fact Check AI

Dowiedz się jak działa nasz 4-etapowy system anty-fake-news oraz poznaj kluczowe statystyki.

Pełne statystyki

324

Sprawdzeń faktów

25

Zapytań użytkowników

10

Wydawców

2

Języków

Przegląd architektury

Nasz system składa się z interfejsu webowego (Flask + Bootstrap), kolejki zadań działającej w oddzielnym wątku oraz czteroetapowego pipeline'u, który zapisuje wyniki do bazy SQLite i udostępnia je w interfejsie użytkownika.

UŻYTKOWNIK → Flask API → Kolejka zadań → 4-etapowy pipeline → SQLite → UI
  1. Użytkownik wybiera interesujący go fact-check i modele AI.
  2. Aplikacja tworzy analysis ID i uruchamia pipeline w tle.
  3. Pipeline wykonuje kolejno etapy 1-4 opisane poniżej.
  4. Każdy etap zapisuje odrębne rekordy w tabelach ai_*.
  5. UI odpyta endpoint /analysis-status/<id> aby wyświetlić postęp.

Czteroetapowa analiza

Etap Funkcja Wejście Wyjście
1 – Analiza Ślepa analyze_claim_blind Claim text Ocena AI + pewność + uzasadnienie
2 – Analiza Internetowa analyze_claim_with_internet Claim text + wynik etapu 1 Ocena z kontekstem + 8 źródeł + wpływ kontekstu
3 – Ewaluacja Ślepa vs Google analyze_claim_informed (analysis_type='blind') Wynik etapu 1 + ocena Google Porównanie + accuracy-score
4 – Ewaluacja Internet vs Google analyze_claim_informed (analysis_type='internet') Wynik etapu 2 + ocena Google Porównanie + accuracy-score

Takie podejście pozwala mierzyć zarówno naturalną wiedzę modeli, jak i wpływ dodatkowego kontekstu internetowego.

Struktura bazy danych

Dla każdego etapu istnieje dedykowana tabela (ai_blind_analysis, ai_internet_analysis, ai_informed_analysis, ai_internet_informed_analysis). Dzięki temu możemy szybko wykonywać zapytania analityczne bez obciążania głównej tabeli fact-checków.

Najważniejsze metryki

  • confidence (0-1) – pewność modelu co do własnej oceny.
  • accuracy_score (0-1) – zgodność wyniku AI z oceną Google.
  • context_influence – opis jak znalezione źródła wpłynęły na decyzję.
  • search_results_count – liczba źródeł przekazanych do promptu (≤ 8).

Korzyści biznesowe i naukowe

Biznesowo nasz system pozwala szybko ocenić wiarygodność treści i automatycznie monitorować trendy dezinformacji. Naukowo oferuje bogaty zbiór danych do badań nad jakością modeli językowych, wpływem kontekstu i skutecznością mechanizmów fact-checking.

Dlaczego ten system ma prawo działać?

Skuteczność rozwiązania wynika z połączenia trzech filarów:

  1. Solidnej bazy prawdy – punktem odniesienia są zweryfikowane oceny Google Fact Check Tools, dzięki czemu pipeline opiera się na zewnętrznym ground-truth a nie na samopowielającym się feedbacku modeli.
  2. Wielowarstwowej ewaluacji – ten sam claim przechodzi przez cztery etapy, które izolują różne czynniki (wiedza wbudowana w model, wpływ kontekstu, zdolność krytycznej samo-oceny). Pozwala to zobaczyć skąd bierze się poprawna odpowiedź, a nie tylko czy była poprawna.
  3. Ścisłych metryk – system zapisuje każdą próbkę z dokładnym stemplem czasu, liczbą tokenów, confidence, accuracy_score oraz szczegółowymi danymi o promptach. Taka granularność umożliwia zarówno analizę ilościową (statystyki) jak i jakościową (studia przypadku).

Wartość naukowa

Framework jest przydatny dla badaczy NLP, mis- i disinformation studies oraz AI ethics z kilku powodów:

  • Porównywalność modeli – identyczny zestaw claimów, promptów i metryk pozwala rzetelnie benchmarkować modele (GPT-4o, Claude-Opus, DeepSeek i inne) w neutralnych warunkach.
  • Mierzenie wpływu kontekstu internetowego – etap 2 dokładnie kwantyfikuje poprawę (lub pogorszenie) po dołączeniu źródeł, co jest kluczowe dla badań nad retrieval-augmented generation.
  • Dane do analizy longitudinalnej – architektura rejestruje wyniki w czasie, co umożliwia śledzenie "starzenia się" modeli i pojawiania się nowych wzorców dezinformacji.
  • Transparentność prompt engineering – pełne logi promptów oraz surowych odpowiedzi można pobrać (CSV/JSON), co spełnia wymogi replikowalności badań.
  • Ekonomia obliczeń – zapisywane są koszty tokenowe, co pozwala badać kompromis między kosztami a dokładnością algorytmów fact-checkingowych.