Co się dzieje, gdy naukowcy danych przełamują trzy stulecia Robinsona Crusoe?

Zeitgeist Addendum [Full Movie] (Lipiec 2019).

Anonim

Od czasu opublikowania przez Daniela Defoe'a wrakowej opowieści "Robinson Crusoe" po raz pierwszy prawie 300 lat temu opublikowano tysiące wersji i wersji spinoff, w setkach języków.

Zespół badawczy prowadzony przez Grant Glass, Ph.D. student w języku angielskim i literatura porównawcza na Uniwersytecie Karoliny Północnej w Chapel Hill, chciał wiedzieć, jak zmieniła się historia, kiedy przechodziło przez różne edycje, imitacje i tłumaczenia, i zobaczyć, które części przetrwały próbę czasu.

Przeczytanie ich wszystkich w tempie jednego dnia zajęłoby lata. Zamiast tego naukowcy szkolą komputery, aby zrobić to za nich.

Tego lata zespół Glassa w letnim programie badawczym Data + wykorzystał algorytmy komputerowe i techniki uczenia maszynowego do przeskanowania 1, 482 pełnotekstowych wersji Robinsona Crusoe, skompilowanych z archiwów online.

"Wiele razy myślimy o książce osadzonej w kamieniu" - powiedział Glass. "Ale taki projekt pokazuje, że jest brudny. Jest w nim wiele wariacji."

"Kiedy podnosisz książkę, ważne jest, aby wiedzieć, jaka to kopia, ponieważ może to wpłynąć na sposób myślenia o tej historii" - powiedział Glass.

Po prostu przeniesienie tekstów do formy, którą komputer mógłby przetworzyć, stanowiło połowę bitwy, powiedział członek orkiestry, Orgil Batzaya, dwukrotny major duke z matematyki i informatyki.

Książki zostały już zeskanowane i opublikowane online, więc uczniowie korzystali z oprogramowania do pobierania skanów z Internetu za pomocą procesu zwanego "skrobaniem". Jednak przetwarzanie zeskanowanych stron starych drukowanych książek, z których niektóre miały smugi, plamki lub zużyty typ, i przekształcenie ich w format czytelny dla komputera, okazały się trudniejsze, niż sądzili.

Oprogramowanie starało się rozszyfrować dziwne pisownię ("dostarczyć", "życzenie", "perswazja", "brzeg" a "szum"), różne kroje pisma między wydaniami i inne dziwactwa.

Specjalne postacie unikalne dla XVIII-wiecznych czcionek, takie jak ciekawa wersja litery "s" w kształcie litery "F" sprawiają, że nawet ludzie czytają "dygresja" i "poffible" z psychicznym seplenieniem.

Pierwsze próby wyszły z łobuzów. "Uzyskane optyczne rozpoznawanie znaków było kompletnie bezużyteczne", powiedział członek zespołu i Duke senior Gabriel Guedes.

Na sierpniowej sesji "Data +", Guedes, Batzaya oraz historia i informatyka podwójnie ważna Lucian Li zaprezentowali swoje początkowe wyniki: zbiór kolorowych wykresów punktowych, map, schematów blokowych i wykresów liniowych.

Guedes wskazał na kilka kropek na wykresie sieci. "Tutaj czerwone wydania są amerykańskie, a niebieskie - z Wielkiej Brytanii" - powiedział Guedes. "Wykres sieci rozpoznaje podobieństwo między wszystkimi tymi edycjami i grupuje je razem."

Po zeskanowaniu zeskanowanych stron do tekstów nadających się do odczytu maszynowego zespół wprowadził ich do algorytmu uczenia maszynowego, który mierzy podobieństwo między dokumentami.

Algorytm przyjmuje fragmenty zdań-zdań, akapitów, a nawet całych powieści - i konwertuje je do wektorów wielowymiarowych.

Stworzenie tej numerycznej reprezentacji każdej książki, jak powiedział Guedes, umożliwiło wykonywanie na nich operacji matematycznych. Dodawali wektory dla każdej książki, aby znaleźć ich sumę, obliczyć średnią i sprawdzili, która edycja jest najbliższa "średniej" edycji. Okazało się, że jest to wersja Robinsona Crusoe opublikowana w Glasgow w 1875 roku.

Analizowali także znaczenie określonych punktów fabuły w określaniu zbliżenia danej edycji do wydania "przeciętnego": co z chwilą, gdy Crusoe dostrzega ślad na piasku i zdaje sobie sprawę, że nie jest sam? A może czas, kiedy Crusoe i piątek, po opuszczeniu wyspy, walczą z głodnymi wilkami w Pirenejach?

Wyniki zespołu mogą być niepokojące dla tych, którzy nie są przyzwyczajeni do tego, że 300 lat publikacji zostało zredukowane do wykresu słupkowego. Ale używając komputerów do porównywania tysięcy książek w tym samym czasie, uczeni "humanistyki cyfrowej" mówią, że możliwe jest śledzenie wielkoskalowych wzorców i trendów, które nie są możliwe dla ludzi grzebiących nad poszczególnymi książkami.

"To naprawdę jest coś, co może zrobić tylko komputer", powiedział Guedes, wskazując na mapę poklatkową pokazującą, jak historia Crusoe rozprzestrzenia się na całym świecie, zbudowana z danych dotyczących miejsca i daty publikacji w 15 000 wydaniach.

"To forma" dalekiego czytania "- powiedział Guedes. "Korzystasz z ogromnej ilości informacji, aby wyciągnąć wnioski na temat historii publikacji, przepływu pomysłów i wiedzy w czasie".

menu
menu