som Beskriver Ord
ideen for å Beskrive Ord motoren kom da jeg var å bygge motoren for Relaterte Ord (det er som en synonymordbok, men gir deg et mye bredere sett av beslektede ord, heller enn bare synonymer). Mens du spiller rundt med ord vektorer og «HasProperty» API for conceptnet, jeg hadde en bit av moro å prøve å få adjektiver som vanligvis beskrive et ord. Til slutt innså jeg at det er en mye bedre måte å gjøre dette på: analysere bøker!,
Project Gutenberg var den første corpus, men parser fikk greedier og greedier og jeg endte opp med å mate den et sted rundt 100 gigabyte av tekst filer – hovedsakelig er fiksjon, inkludert mange moderne verk. Parseren bare ser gjennom hver bok og trekker ut de ulike beskrivelser av substantiv.,
Forhåpentligvis er det mer enn bare en nyhet, og noen mennesker vil faktisk finne at det er nyttig for sin skriving og brainstorming, men en pen liten ting å prøve på er å sammenligne to substantiv som er like, men forskjellige i noen betydelig måte – for eksempel kjønn er interessant: «kvinne» versus «mann» og «gutt» versus «jente». På en første rask analyse ser det ut til at forfattere av skjønnlitteratur er minst 4x mer sannsynlig å beskrive kvinner (i motsetning til menn) med beauty-begreper om deres vekt, funksjoner og generell attraktivitet)., Faktisk, «vakker» er muligens den mest brukte adjektiv for kvinner i alle verdens litteratur, som er helt i tråd med den generelle unidimensional representasjon av kvinner i mange andre medier former. Hvis noen ønsker å gjøre mer forskning på dette, gi meg beskjed og jeg kan gi deg en mye mer data (for eksempel, det er ca 25000 ulike oppføringer for «kvinne» – for mange til å vise her).
blueness av resultatene representerer deres relative frekvens. Du kan holde musepekeren over et element for en andre og frekvens score skulle dukke opp., Den «unike» sortering er standard, og takk til min Komplisert Algoritme™, det ordner dem av adjektiv’ unike til en bestemt substantiv i forhold til andre substantiv (det er faktisk veldig enkelt). Som du forventer, kan du klikke på «Sorter Etter Bruk Frekvens» – knappen for å adjektiver ved bruk av frekvens for at substantiv.