Indexe com orgulho o tópico php desenvolvido por smf. Lição três. Nós mesmos coletamos os melhores bancos de dados. Resolvendo problemas ao instalar mods que não suportam o idioma russo
Vamos começar imediatamente com o código do script principal:
#!/usr/bin/perl
# script which-forum.pl
# (c) 2010 Alexandr A Alexeev, http://site/
use estrito;
# linhas comentadas - para rigor
# se a tarefa for coletar estatísticas do motor, deixe como está
# se você fizer uma lista de fóruns - remova o comentário
meus $dados;
$dados .= $_while (<>
)
;
# verifica quanto foi Powered by phpBB sem link no rodapé Você encontrará este e outros scripts mencionados na postagem neste arquivo. Roteiro qual-forum.pl examina o código da página HTML para ver se contém assinaturas do mecanismo do fórum. Usamos uma técnica semelhante ao definir WordPress e Joomla, mas existem algumas diferenças. Em primeiro lugar, o script em si não carrega o código da página, mas o lê em stdin ou em um arquivo passado como argumento. Isso permite baixar a página uma vez, por exemplo, usando o wget, e depois executá-la em vários analisadores, se tivermos mais de um. Em segundo lugar, neste script a presença de uma assinatura é 100% um sinal do motor. Da última vez, a presença da assinatura apenas acrescentou peso ao motor correspondente e o motor com maior peso “ganhou”. Decidi que, neste caso, tal abordagem apenas complicaria desnecessariamente o código. Para testar o script, fiz algumas pesquisas. Compilei uma lista de vários milhares de fóruns e executei cada um deles através do meu script, determinando assim a porcentagem de respostas do programa e a popularidade de vários mecanismos. Para obter a lista de fóruns, usei meu analisador do Google. Consultas como esta foram enviadas para o mecanismo de pesquisa site:forum.*.ru e assim por diante. Você encontrará o código completo do gerador de consulta no arquivo gen-forumsearch-urls.pl. Além de zone.ru, .su .ua .kz e .by também foram usados. Da última vez, foi difícil realizar tal estudo, pois os sites WordPress e Joomla não possuem tais assinaturas na URL. Catálogos como cmsmagazine.ru/catalogue/ não fornecem um tamanho de amostra suficiente. O que são 600 sites Drupal? Devo admitir que os resultados do experimento me decepcionaram. Dos 12.590 locais estudados, o motor foi identificado com sucesso em apenas 7.083, ou seja, apenas em 56% dos casos. Talvez eu não tenha levado em consideração algum motor? Era mesmo verdade que metade dos fóruns tinham o Bitrix instalado? Ou deveria ter passado mais tempo procurando assinaturas? Em geral, pesquisas adicionais são necessárias aqui. Entre os 56% dos motores identificados com sucesso, os mais populares, como esperado, foram IPB (31%), phpBB (26,6%) e vBulletin (26,5%) Eles são seguidos com grande defasagem por SMF (5,8%) e DLEForum (5,3%). Meu punBB favorito ficou apenas em 6º lugar (1,64%). Eu não recomendaria confiar muito nesses números (eles dizem que um em cada três fóruns no RuNet roda em IPB), mas certas conclusões podem, é claro, ser tiradas. Por exemplo, se você pretende criar um site em um mecanismo de fórum e planeja modificar o fórum, digamos, pagar aos usuários US$ 0,01 por cada mensagem com retirada automática de fundos uma vez por semana, então você deve escolher um dos três mecanismos mais populares. Quanto mais popular for o fórum, maiores serão as chances de encontrar um programador que o conheça bem. Se nenhuma mudança significativa for esperada no mecanismo, pode fazer sentido escolher um mecanismo menos popular, por exemplo, SMF ou punBB. Isso reduzirá o número de ataques de hackers ao seu fórum e a quantidade de spam enviado automaticamente para ele. Scripts para pesquisar/identificar fóruns também podem encontrar muitas aplicações práticas. A primeira coisa que me veio à mente foi classificar os fóruns identificados por TIC e postar nos primeiros cem posts com links para um dos meus sites. No entanto, centenas de links dofollow do fórum não afetaram o TCI de forma alguma (já se passaram 2 atualizações), então é melhor não perder tempo aqui, a menos que você não esteja interessado em transições. É claro que o mencionado uso de scripts está longe de ser o único. Acho que você pode facilmente descobrir de que outra forma pode usá-los. Organizado pelo Botmaster Labs, não planejado. Não tenho tempo, o vídeo é necessário para uma competição, como uma tendência moderna, embora tudo possa ser explicado mais facilmente com boas capturas de tela (meu IMHO), e eu realmente não quero filmar nada. Restam muito poucos tópicos lucrativos, spam estúpido não governa mais, você precisa pensar aqui e ninguém vai atirar em tópicos, a menos que você tente colocar os desatualizados em uma embalagem bonita e pulverizá-los um pouco. :) Mas isso não é sobre nós. Em geral, penso que estes 3 “não fazer” basicamente tornaram-se barreiras à participação na competição para a maioria dos potenciais participantes. É como consertar um carro entre três: barato, de alta qualidade, rápido - o serviço só pode cumprir 2 condições ao mesmo tempo. sente-se e escolha o que está mais perto de você. :) É a mesma coisa com a competição: tenho tempo, sei fazer vídeo, mas não tem assunto, ou sei fazer vídeo, tem assunto, mas não tenho tempo tudo, ou tenho tempo livre e tem um assunto pequeno, mas o vídeo dá medo. Mas isso é bom se duas condições forem atendidas ao mesmo tempo. Bem, ok, vamos descartar a letra. Vou continuar sozinho. Não planejei, ou seja, participei do concurso, até escolhi em qual artigo votaria. O que quer que você diga, Doz conhece o software muito bem e sabe como usá-lo de forma muito inteligente. Mas hoje descobri que apareceu intriga na competição. Acontece que não poderei votar, e apenas os recém-chegados que compraram o software em 2011 poderão fazê-lo, e a competição foi projetada para eles. Fiquei um pouco surpreso, mas o dono é um cavalheiro. A competição é uma campanha publicitária e Alexander sabe melhor como realizá-la. No geral, resolvi então postar um artigo, é um pouco mais fácil de escrever quando fica claro para quem, para toda a fazenda coletiva, na verdade, é impossível fazer isso. Desenvolvido por php-Fusion Na versão Khrumer 7.07, o programa é treinado em vários novos motores: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz, etc. phpBB-fr.com, tema Solaris phpBB E o processo de aprender coisas novas é contínuo. "Desenvolvido por SMF 1.1.2" "Desenvolvido por SMF 1.1.3" "Desenvolvido por SMF 1.1 RC2" "Desenvolvido por SMF 1.1.4" "Desenvolvido por SMF 1.1.8" "Desenvolvido por SMF 1.1.7" "2006-2008, Máquinas Simples LLC" E isso não é tudo. Ao coletar versões do motor, em alguns fóruns do SMF encontramos a legenda “2001-2006, Lewis Media” no rodapé. Estamos verificando este pedido, também nos satisfaz plenamente. Encontramos um pedido semelhante: "2001-2005, Lewis Media". Olhando mais adiante nos rodapés encontramos a seguinte solicitação: “SMFone design by A.M.A, portated to SMF 1.1”. Nós verificamos - ótimo. E assim por diante. Meia hora de trabalho e você terá um banco de dados maravilhoso de consultas para o mecanismo, e o Google irá bani-lo dessas consultas com muito menos frequência do que se você usar operadores nelas. E ao mesmo tempo, seu banco de dados ficará muito mais limpo do que se você usar consultas como “index.php?topic=", porque aqui o Google fornecerá não apenas os fóruns que precisamos, mas também muitos recursos de esquerda onde for possível deixe um link para o tópico do fórum. Você pode objetar, o que há de errado nisso? Outros deixaram um link, então nós também podemos. Mas! Os links podem ser deixados não apenas pelo Khrumer, mas também por outros programas. Além disso, podem ser especialmente adaptados para deixar comentários sobre um determinado recurso, o chamado software altamente especializado, e esses links podem ser deixados à mão. Mais uma vez, repito, não é a quantidade de lixo que importa para nós, mas a qualidade com que coletaremos o banco de dados com as solicitações corretas. A vantagem deste método é que praticamente não será necessário configurar peneira -filtro
Melhor - Viagra 吉他 – guitarra 其他 - descanso 保险公司 - seguro Coloque estes códigos de substituição no arquivo Words: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 Se você está promovendo um site de seguros, coloque um link em seu perfil em um fórum temático (!) até mesmo chinês encontrado mediante solicitação " Fórum SMF" 保险公司 será muito bom.
imprima "phpbb \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/i ou
# $data =~ /viewforum\.php\?[^""]*f=\d+/i ou
$dados =~ /phpBB\-SEO/i ou
$dados =~ /)
;
imprima "ipb \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
ou
$dados =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/i ou
$dados =~ /
$dados =~ /index\.php\?[^""]*showforum=\d+/i)
;
imprimir "vbulletin \n"
if ($dados =~ /Desenvolvido por:?[^<]+vBulletin[^<]+(?:Version)?/i
ou
$dados =~ /)
;
imprima "smf \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>Desenvolvido por SMF/i ou
$dados =~ /index\.php\?[^""]*placa=\d+\.0/i)
;
imprima "punbb \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i) ; #ou
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
imprima "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i ou
if ($dados =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
imprima "exbb \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ; # ou
# $dados =~ /forums\.php\?[^""]*forum=\d+/i);
imprima "yabb \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i ou
$dados =~ /YaBB\.pl\?[^""]*num=\d+/i );
imprima "dleforum \n"
if ($dados =~ /\(Desenvolvido pelo Fórum DLE\)<\/title>/eu ou
$dados =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">Fórum DLE<\/a>/eu)
;
imprimir "ikonboard \n"
if ($dados =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/i ou
$dados =~ /\n"
if ($dados =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i ou
# $data =~ /topic\.php\?fid=\d+/i ou
if ($dados =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
imprima "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i ou
if ($dados =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
imprima "pódio \n"
# if($data =~ /topic\.php\?t=\d+/i ou
if ($dados =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
imprima "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i ou
if ($dados =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
imprima "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i ou
if ($dados =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
print "aindaoutrofórumnet \n"
if ($data =~ /Mais um fórum\.net/i ou
$dados =~ /default\.aspx\?g=postagens&t=\d+/i)
;
site:talk.*.ru
site:board.*.ru
site:smf.*.ru
site:phpbb.*.ru
....
A longa introdução acabou, agora vamos direto ao ponto.
O que um iniciante precisa quando compra uma super colheitadeira, que é o complexo Xrumer + Hrefer? Isso mesmo, aprenda como trabalhar nisso e descarte a ilusão de que você pode ganhar dinheiro começando a enviar spam para planilhas. Se você pensa assim, é melhor doar seu dinheiro para instituições de caridade imediatamente. Você precisa aprender a usar as ferramentas do complexo, de preferência afiando-as você mesmo. O tempo de “pegar mais – jogar mais longe” acabou. A quantidade dá lugar à qualidade. Isso significa que montaremos uma base para nós mesmos; se você não aprender como fazer isso, ficará para trás no trem. Naturalmente, Khrefer nos ajudará nisso. Se você planeja promover seus recursos no Google, também precisamos pesquisar sites doadores por meio do Google. Acho que isso é compreensível e lógico. Mas o Google, como a dona da montanha de cobre, não distribui sua riqueza a todos. Você precisa de uma abordagem para isso. Gostaria de dizer desde já que não espere que com base nos sinais que encontrar no público consiga arrecadar alguma coisa. A razão pela qual estão disponíveis em público é porque não têm valor. Não vou desenvolver mais o tema. É melhor te dizer como montá-lo corretamente para que você possa ver o resultado, você mesmo pode resolver o resto, o principal é entender o princípio. Precisamos coletar os corretos com base nas características dos mecanismos específicos de que precisamos, e não nas características dos fóruns em geral. Este é o principal erro dos iniciantes - não se concentrar em algo específico, mas tentar cobrir tudo na íntegra. E também, se você quiser analisar um banco de dados mais ou menos normal, pare de usar operadores nas consultas. Não há "inurl:", "site:", "título" etc. O Google banirá usuários como você instantaneamente. Portanto, estudamos cuidadosamente os motores com os quais Khrumer está trabalhando atualmente:
Em geral, precisamos preparar as consultas corretas para análise pelo Hrefer. Tomemos o fórum dizhok como exemplo. Fóruns SMF. E vamos começar a desmontá-lo em partes para análise. Nosso querido Google nos ajudará nisso. Insira uma consulta no Google Fóruns SMF- há muito lixo nos resultados da pesquisa, voltamos para a 13ª página e selecionamos qualquer link. Me deparei com este: http://www.volcanohost.com/forum/index.php?topic=11.0. Vamos abri-lo e estudá-lo. Precisamos encontrar algo característico na página que possa ser aplicado à busca de outras páginas neste mecanismo. No rodapé notamos a seguinte inscrição Desenvolvido por SMF 1.1.14, citá-lo e inseri-lo no Google, mostra-nos que para esta consulta conhece cerca de 59 milhões de opções. Examinamos rapidamente os links e adicionamos mais algumas opções a esta palavra-chave, por exemplo, Álamo "Powered by SMF 1.1.14" ou Viagra "Powered by SMF 1.1.14". Garantimos que a solicitação seja ótima, os resultados sejam apenas fóruns e quase nenhum lixo.
Além disso, não nos interessa a quantidade, mas sim a qualidade, como disse acima. Vá em frente. Do mesmo fórum pegamos outra frase do rodapé: , também o citamos e fornecemos ao Google. Em resposta, ele revela que conhece mais de 13 milhões de resultados. Novamente, examinamos rapidamente os resultados, adicionamos palavras adicionais e verificamos os resultados com elas. Garantimos que a solicitação seja excelente e que quase não haja lixo. Em geral, já existem 2 pedidos de ferro. Sugiro deixar o primeiro fórum sozinho por enquanto e continuar coletando solicitações de outros fóruns. Felizmente, temos o Google aberto mediante solicitação. 2006-2008, Máquinas Simples LLC. Tiramos dos resultados da pesquisa, por exemplo, estes fóruns: http://www.snowlinks.ru/forum/index.php?topic=1062.0 e http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 nos rodapés tiramos as seguintes consultas deles: “Powered by SMF 1.1.7” e “Powered by SMF 1.1.10” (eu sempre recomendo inserir as consultas para Hrefer entre aspas, porque precisamos de qualidade antes de mais nada). todos). Acho que está claro o que estamos fazendo, no final teremos um determinado banco de dados de consultas para busca de fóruns no motor SMF (foi escolhido como exemplo, o mesmo com outros motores).
Vai parecer algo assim:
Acho que aprender a usar o Khrumer corretamente no estágio inicial é muito importante, porque depois de aprender isso, você sempre poderá encontrar uma utilidade para o Khrumer, não importa como a situação mude. As proteções estão se tornando mais complicadas, e se em alguns tipos de motores a proteção foi reforçada e o Khrumer não consegue lidar com isso no momento, então não faz sentido gastar recursos na coleta desses links e depois trabalhar neles com o Khroomer, é é melhor concentrar forças naquilo que dá resultados. E, ao mesmo tempo, se a equipe do Botmaster Labs ensinou algo novo ao Khroomer, você pode dissecar rapidamente um novo paciente e preparar a base para o Khroomer enquanto o paciente ainda está quente. Tempo é dinheiro; o recurso pode não ser mais relevante quando você compra a base. coletado por alguém. Além disso, a coleta correta de bases para você expande significativamente o uso “branco” do Khrumer. E é exatamente aqui que tudo está se movendo, gostemos ou não, e o processo de embranquecimento ou envelhecimento está em andamento. Lençóis pretos estão se tornando coisa do passado de todas as maneiras possíveis.
Todos os outros aspectos técnicos do trabalho com o Hrefer podem ser visualizados na ajuda e não faz sentido insistir neles; todos os objetivos, pontos e segundos são definidos experimentalmente para cada carro individualmente;
Como bônus, vou postar aqui um template para análise do buscador chinês Baidu, outro dia me perguntaram sobre isso, então fiz casualmente, desculpe o trocadilho. :)
Nome do host = http://www.baidu.com
Consulta=s?wd=
Máscara de Links=
Total de páginas = 100
Próxima página=
PróximaPágina2=
CaptchaURL =
CaptchaImage=
CampoCaptcha=
Tentei testá-los para analisá-los, não houve proibição, Khrefer coletou recursos rapidamente, todas as consultas para análise eram semelhantes às do Google, mas havia muitos recursos chineses, com alto PR, e além disso, havia muitos lugares onde não europeu já havia posto os pés. É melhor analisar as consultas chinesas. O Google Translate ajudará nisso, digite uma lista de palavras-chave em russo e traduza para o chinês. A verdade em " Palavras"As palavras Hrefer não podem ser adicionadas em chinês, elas precisam ser recodificadas.
Em vez de chinês:
Concluindo, gostaria de dizer que nunca entendi as pessoas que reclamaram que os Khrefers eram mal ou mal cozidos em resposta a isso, sempre quis dizer, você simplesmente não sabe cozinhá-los; Nenhum analisador pode coletar resultados melhor do que um referenciador; as solicitações apenas precisam estar corretas. Hrefer é um carro: bom, sólido, feito na Alemanha, mas é dirigido por uma pessoa e tudo depende de quão bem ele é dirigido, você não pode forçar o carro a dirigir para a direita e para a esquerda ao mesmo tempo;
Um tópico separado é a limpeza de bancos de dados. Certa vez, fiz isso há 3 anos para uma competição anterior. Na maior parte, tudo ainda é relevante lá, mas agora você pode se recusar a verificar 200 OK, eu realmente não gostei desse processo, houve erros muito grandes, muitas coisas desnecessárias foram filtradas. Agora, isso pode ser feito quase automaticamente durante a operação do Khrumer, embora este processo não seja um análogo completo da verificação de “200 OK”. De qualquer forma, direto ao ponto: não faz muito tempo, uma oportunidade maravilhosa apareceu no Khrumer - roubar informações de recursos no momento da execução de um projeto. Se parece com isso. Você insere um modelo que será processado durante a operação e as informações coletadas do modelo serão inseridas no arquivo xgrabbed.txt na pasta Logs. Você pode usar esta função para qualquer coisa, o vôo da imaginação é enorme. Eu uso essa função uma vez por semana para remover links do meu banco de dados "expirado" em funcionamento. Não é nenhum segredo que os fóruns estão desaparecendo todos os dias para limpar nosso banco de dados desses recursos, e a ferramenta “Autograbbing” nos ajudará nesse caso.
Afinal, você deve admitir que quando digitamos frequentemente, por exemplo, http://www.laptopace.com/index.php, vemos que esse domínio já é, por exemplo, um mocinho vendendo dinheiro, mas não há fórum lá. Então, para tirar essa escória da base, vamos roubar. :) Abra o código fonte da página e veja esta entrada lá:
Agora todos os “homens mortos” de goudaddi serão conhecidos por nós pelo nome.
Aqui está uma pequena seleção para a ferramenta Autograbbing, se você deseja limpar o banco de dados de diferentes domínios “expirados”:
- Uma vantagem importante do RosBusinessSoft CRM é a integração bidirecional completa do nosso CRM com...
- Configurando um modem ADSL Como conectar um modem ADSL a um laptop