Not logged in : Login

About: Letter frequency     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : yago:Database106637824, within Data Space : ods-qa.openlinksw.com:8896 associated with source document(s)

Letter frequency is the number of times letters of the alphabet appear on average in written language. Letter frequency analysis dates back to the Arab mathematician Al-Kindi (c. 801–873 AD), who formally developed the method to break ciphers. Letter frequency analysis gained importance in Europe with the development of movable type in 1450 AD, where one must estimate the amount of type required for each letterform. Linguists use letter frequency analysis as a rudimentary technique for language identification, where it is particularly effective as an indication of whether an unknown writing system is alphabetic, syllabic, or ideographic.

AttributesValues
type
sameAs
wasDerivedFrom
dbpedia-owl:abstract
  • Die Buchstabenhäufigkeit (Graphemhäufigkeit) ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen in Betracht zu ziehen sind. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar. Für manche Zwecke ist es auch interessant, wie häufig ein Buchstabe am Wortanfang oder am Wortende vorkommt.
  • El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: * El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R". * El vocabulario específico del documento. Si se habla de ríos, habrá muchas íes. * El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos. * En el diccionario de la RAE, comunmente usada en nombres propios es la letra[A]. * Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, estos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes. * La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma y el punto, por ejemplo, son más frecuentes que más de la mitad de las letras. Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.
  • Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning. Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter. Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt. * Spanska bokstavsfrekvenser. * Relativa bokstavsfrekvenser i engelsk text.
  • 字母频率(frequency of letters; character frequencies),指的是各个字母在文本材料中出现的频率。常被应用于密码学,尤其是可破解古典密码的频率分析。在英语中最常见的字母是e。而在铅字印刷时代,人们已根据经验在Linotype排字机上将字母按常用与否排列成 cmfwyp vbgkjq xz 。还有,摩斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq。数据压缩技术中也有相似的方法,如霍夫曼编码就是按来源符号出现的机率大小去编码。
  • L'anàlisi de freqüència de les lletres consisteix a comptar, per a cada lletra diferent, quin percentatge d'aparició té en un text respecte al total. La freqüència varia més si es compara entre textos curts, mentre que tendeix a estabilitzar-se entre textos quan s'amplia la llargària d'aquests. Aquesta freqüència estabilitzada és molt variable entre diferents idiomes. Tant la freqüència de lletres en un text com en el conjunt de paraules d'un diccionari segueixen una distribució similar a la descrita en la Llei de Zipf, i més acuradament, en la Distribució de Yule-Simon.
  • La fréquence d'apparition des lettres est une donnée statistique utilisée en linguistique, en typographie et en cryptographie liée au fait que les utilisateurs de la langue écrite n'utilisent pas les lettres disponibles au hasard, mais selon l'ordonnancement de la langue, du langage et de la parole. Bien que l'alphabet ne soit pas hiérarchisé, les lettres écrites ne sont pas utilisées à la même fréquence, en français comme dans les autres langues. Ainsi, si l'on prend un texte en français composé de 100 lettres, on n'aura pas 100 lettres différentes mais environ 12 fois la lettre E, 7 fois la lettre A, 7 fois la lettre I, 7 fois la lettre S, etc., selon une loi de distribution qui n'est pas facile à déterminer.
  • Literofteco estas la ofteco de la diversaj literoj de la alfabeto en teksto. Tia ofteco ege varias — unue de litero al litero ene de la apliko de specifa alfabeto por specifa lingvo, due la literoftecoj range malsamas de lingvo al lingvo. Ekzemple en Esperantaj tekstoj la plej ofta litero estas A. Tre malofta estas aliflanke la litero Ĥ. Kontraste, en Anglaj kaj Francaj tekstoj la plej ofta litero estas E. Do oni devas pritrakti literoftecon por ĉiu lingvo aparte.
  • Letter frequency is the number of times letters of the alphabet appear on average in written language. Letter frequency analysis dates back to the Arab mathematician Al-Kindi (c. 801–873 AD), who formally developed the method to break ciphers. Letter frequency analysis gained importance in Europe with the development of movable type in 1450 AD, where one must estimate the amount of type required for each letterform. Linguists use letter frequency analysis as a rudimentary technique for language identification, where it is particularly effective as an indication of whether an unknown writing system is alphabetic, syllabic, or ideographic. The use of letter frequencies and frequency analysis plays a fundamental role in cryptograms and several word puzzle games, including Hangman, Scrabble, Wordle and the television game show Wheel of Fortune. One of the earliest descriptions in classical literature of applying the knowledge of English letter frequency to solving a cryptogram is found in Edgar Allan Poe's famous story The Gold-Bug, where the method is successfully applied to decipher a message giving the location of a treasure hidden by Captain Kidd. Herbert S. Zim, in his classic introductory cryptography text "Codes and Secret Writing", gives the English letter frequency sequence as "ETAON RISHD LFCMU GYPWB VKJXZQ", the most common letter pairs as "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HI AS TO", and the most common doubled letters as "LL EE SS OO TT FF RR NN PP CC". Different ways of counting can produce somewhat different orders. Letter frequencies also have a strong effect on the design of some keyboard layouts. The most frequent letters are on the bottom row of the Blickensderfer typewriter, and the home row of the Dvorak keyboard layout.
  • A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq. Ideias semelhantes são utilizadas em modernas técnicas de compressão de dados, tais como a Codificação de Huffman. Análises mais recentes mostram que as frequências de letras, da mesma forma que as frequências de palavras, tendem a variar, tanto pelo escritor quanto pelo assunto. Não se pode escrever um ensaio sobre raios-x sem uso frequente de letras Xs, e a redação terá uma frequência de letras especialmente estranha se o ensaio é sobre o uso frequente de raios-x para o tratamento de zebras no Qatar. Diferentes autores têm hábitos que podem ser refletidos no uso das letras. O estilo de escrita de Hemingway, por exemplo, é visivelmente diferente do estilo de Faulkner. Letras, , trigramas, as frequências de palavras, o comprimento das palavras, e o comprimento das sentenças podem ser calculados por autor específico, e usados para provar ou negar a autoria dos textos, mesmo para os autores cujos estilos não são tão divergentes. Uma média precisa de frequências de letras só pode ser adquirida através da análise de uma grande quantidade de textos representativos. Com a disponibilidade da computação moderna e coleções de grandes corpora de texto, esses cálculos são feitos facilmente. , em seu clássico texto introdutório de criptografia"Codes and Secret Writing", dá a sequência da frequência de letras em Inglês como sendo "ETAON RISHD LFCMU GYPWB VKXJQ Z", os pares de letras mais comuns como sendo "TH HE AN RE ER IN ON AT ND ST ES EN OF TE ED OR TI HIAS TO", e as letras dobradas mais comuns como sendo "LL EE SS OO TTFF RR NN PP CC". As doze letras mais frequentes incluem cerca de 80% do uso total.As oito letras mais frequentes incluem cerca de 65% do uso total.Um espião com a ou alguma outra cifra baseada em um tabuleiro de xadrez straddling normalmente utiliza um mnemônico, como "a sin to err" (deixando de lado o segundo "r") para lembrar as 8 letras (a,s,i,n,t,o,e,r) mais frequentes (neste exemplo, em inglês). A utilização das frequências das letras e análise de frequência desempenha um papel fundamental em vários jogos, incluindo jogo da forca, palavras cruzadas(Scrabble), e criptogramas, entre outros. Frequências de letras tem um forte impacto no projeto de alguns teclados.As letras mais frequentes ficam na linha superior do teclado AZERTY.As letras mais frequentes ficam na linha inferior do teclado Blickensderfer.As letras mais frequentes ficam na linha central do teclado Simplificado Dvorak.
  • Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. Расчёт частотности слов осуществляется по формуле: где Freqx — частотность слова «x», Qx — количество слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д. Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка. Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров. Не следует путать термины частотность и частота.
dbpedia-owl:thumbnail
dbpedia-owl:wikiPageExternalLink
dbpedia-owl:wikiPageID
dbpedia-owl:wikiPageRevisionID
comment
  • Letter frequency is the number of times letters of the alphabet appear on average in written language. Letter frequency analysis dates back to the Arab mathematician Al-Kindi (c. 801–873 AD), who formally developed the method to break ciphers. Letter frequency analysis gained importance in Europe with the development of movable type in 1450 AD, where one must estimate the amount of type required for each letterform. Linguists use letter frequency analysis as a rudimentary technique for language identification, where it is particularly effective as an indication of whether an unknown writing system is alphabetic, syllabic, or ideographic.
  • El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.
  • Die Buchstabenhäufigkeit (Graphemhäufigkeit) ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen in Betracht zu ziehen sind. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar. Für manche Zwecke ist es auch in
  • A frequência de letras em um texto tem sido frequentemente estudada para uso em criptografia e análise de frequência em particular. Nenhuma distribuição de frequência de letras exata é subjacente a uma determinada língua, uma vez que todos os escritores escrevem um pouco diferente. As máquinas de linotipo classificaram as frequências das letras, como etaoin shrdlu cmfwyp vbgkqj xz com base na experiência e costume dos escritores manuais na língua inglesa. Da mesma forma, o moderno código Morse Internacional codifica as letras mais frequentes com o menor número de símbolos, organizando o alfabeto Morse em grupos de letras que exigem quantidades iguais de tempo para transmitir, e, em seguida, classificando os grupos em ordem crescente, resultando em uma ordem e it san hurdm wgvlfbk opjxcz yq
  • Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning. * Spanska bokstavsfrekvenser. *
  • Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. Расчёт частотности слов осуществляется по формуле:
  • 字母频率(frequency of letters; character frequencies),指的是各个字母在文本材料中出现的频率。常被应用于密码学,尤其是可破解古典密码的频率分析。在英语中最常见的字母是e。而在铅字印刷时代,人们已根据经验在Linotype排字机上将字母按常用与否排列成 cmfwyp vbgkjq xz 。还有,摩斯电码中越常用的字母,其编码符号就越短;而发出各字母的用时由快到慢顺序是e it san hurdm wgvlfbk opjxcz yq。数据压缩技术中也有相似的方法,如霍夫曼编码就是按来源符号出现的机率大小去编码。
  • L'anàlisi de freqüència de les lletres consisteix a comptar, per a cada lletra diferent, quin percentatge d'aparició té en un text respecte al total. La freqüència varia més si es compara entre textos curts, mentre que tendeix a estabilitzar-se entre textos quan s'amplia la llargària d'aquests. Aquesta freqüència estabilitzada és molt variable entre diferents idiomes. Tant la freqüència de lletres en un text com en el conjunt de paraules d'un diccionari segueixen una distribució similar a la descrita en la Llei de Zipf, i més acuradament, en la Distribució de Yule-Simon.
  • Literofteco estas la ofteco de la diversaj literoj de la alfabeto en teksto. Tia ofteco ege varias — unue de litero al litero ene de la apliko de specifa alfabeto por specifa lingvo, due la literoftecoj range malsamas de lingvo al lingvo. Ekzemple en Esperantaj tekstoj la plej ofta litero estas A. Tre malofta estas aliflanke la litero Ĥ. Kontraste, en Anglaj kaj Francaj tekstoj la plej ofta litero estas E. Do oni devas pritrakti literoftecon por ĉiu lingvo aparte.
  • La fréquence d'apparition des lettres est une donnée statistique utilisée en linguistique, en typographie et en cryptographie liée au fait que les utilisateurs de la langue écrite n'utilisent pas les lettres disponibles au hasard, mais selon l'ordonnancement de la langue, du langage et de la parole.
label
  • Bokstavsfrekvens
  • Buchstabenhäufigkeit
  • Frecuencia de aparición de letras
  • Frequência de letras
  • Freqüència de les lletres
  • Fréquence d'apparition des lettres
  • Letter frequency
  • Literofteco
  • Частотность
  • 字母频率
dbpprop:wikiPageUsesTemplate
described by
topic
Faceted Search & Find service v1.17_git55 as of Mar 01 2021


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 08.03.3322 as of Mar 14 2022, on Linux (x86_64-generic-linux-glibc25), Single-Server Edition (7 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software