User Tools

Site Tools


spokesbiz_search_engine

Nowe narzędzia analizy akustycznej w korpusie „Spokes"

Nowe narzędzia dostępne w korpusie „Spokes“ umożliwiają automatyczne pomiary akustyczne oraz tworzenie podsumowań wyników wyszukiwań, przydatnych w wielu typach analiz fonetycznych. Rozszerzenia obejmują kilka poziomów struktury wypowiedzi.

Pojedyncza wypowiedź mówiącego

  • Automatyczne pomiary akustyczne są zbliżone do tych, które oferuje funkcja „voice report” w Praacie.
  • Wyniki można pobrać w formacie CSV i łączyć je z metadanymi dotyczącymi tekstu i mówiącego, dostępnymi w dodatkowym pliku CSV.
  • Oprócz pliku dźwiękowego dla większości wypowiedzi dostępny jest również plik TextGrid z dopasowaniem na poziomie słów i fonemów, co ułatwia ręczną i zautomatyzowaną analizę w Praacie.

Indywidualne słowa z pojedynczej wypowiedzi mówiącego

  • Automatyczne pomiary akustyczne obejmują różne cechy F0 i intensywności.
  • Wyniki można pobrać w formacie CSV i łączyć je z metadanymi dotyczącymi tekstu i mówiącego, dostępnymi w osobnym pliku CSV.
  • W wygenerowanym archiwum ZIP dostępne są także pliki dźwiękowe dla wszystkich wyodrębnionych słów.

Indywidualne fonemy z pojedynczej wypowiedzi mówiącego

  • Automatyczne pomiary akustyczne obejmują różne cechy spektralne oraz wartości formantów (dla samogłosek).
  • Wyniki można pobrać w formacie CSV i łączyć je z metadanymi dotyczącymi tekstu i mówiącego oraz z informacją o kategorii fonemicznej.
  • W wygenerowanym archiwum ZIP dostępne są również pliki dźwiękowe dla wszystkich wyodrębnionych fonemów.

Wyszukiwane słowo/fraza

Analiza spektralna (Spectral analysis)

  • Generowane są „uśrednione spektrogramy“ dla wybranej liczby przykładów, z normalizacją czasu (interpolacja biliniowa) i opcjonalną normalizacją głośności (z-score). Możliwy jest także wybór bardziej szczegółowych parametrów, takich jak zakres dynamiczny, schemat kolorów czy długość okna analizy.
  • Automatyczne pomiary akustyczne obejmują różne cechy spektralne.
  • Wyniki można pobrać w formacie CSV i łączyć je z metadanymi dotyczącymi tekstu i mówiącego, dostępnymi w osobnym pliku CSV.
  • W wygenerowanym archiwum ZIP dostępne są również pliki dźwiękowe dla wszystkich wyodrębnionych fraz.

Analiza częstotliwości podstawowej (Pitch analysis)

  • Generowany jest obraz z „uśrednionym przebiegiem F0” dla wybranej liczby przykładów, z normalizacją czasu (interpolacja liniowa). Dodatkowe opcje obejmują:
    • normalizację do z-scores niwelującą osobnicze cechy głosu,
    • regulację stopnia wygładzenia uśrednionego przebiegu,
    • wyświetlanie pasma pokrycia (coverage band),
    • wyświetlanie wszystkich indywidualnych konturów F0 w próbie.
  • Pomiary „uśrednionego przebiegu F0“ oraz wszystkich indywidualnych konturów F0 można pobrać w formacie CSV i łączyć je z metadanymi dotyczącymi tekstu i mówiącego, dostępnymi w osobnym pliku CSV.
  • W archiwum ZIP dostępne są również pliki dźwiękowe dla wszystkich wyodrębnionych fraz.

Klasteryzacja konturów częstotliwości podstawowej (Pitch clustering)

  • Analiza umożliwia wykrywanie typowych wzorców intonacyjnych wśród wyszukanych fraz. Przy użyciu algorytmu k-means z metryką Dynamic Time Warping (DTW) generowany jest obraz z uśrednionymi konturami F0 dla wybranej liczby klastrów, z normalizacją czasu (interpolacja liniowa). Dodatkowe opcje obejmują:
    • normalizację do z-scores niwelującą osobnicze cechy głosu,
    • regulację stopnia wygładzenia uśrednionych konturów,
    • wyświetlanie pasma pokrycia (coverage band),
    • wyświetlanie wszystkich indywidualnych konturów F0 w próbie, z ich przypisaniem do klastrów oznaczonym kolorami.
  • Pomiary uśrednionych konturów F0 dla wybranej liczby klastrów oraz wszystkich indywidualnych konturów F0 można pobrać w formacie CSV i łączyć je z metadanymi dotyczącymi tekstu i mówiącego, dostępnymi w osobnym pliku CSV.
  • Dostępna jest również „analiza łokciowa” (Elbow analysis) pokazująca zmiany w wariancji wewnątrz grup przy różnych wartościach „k“. Pozwala ona ustalić optymalną ilość klastrów dla danej próby.
  • W archiwum ZIP dostępne są również pliki dźwiękowe dla wszystkich wyodrębnionych fraz.
spokesbiz_search_engine.txt · Last modified: by pezik