ამაყად ინდექსით php თემა პროგრამული უზრუნველყოფა smf. გაკვეთილი მესამე. ჩვენ თვითონ ვაგროვებთ საუკეთესო მონაცემთა ბაზებს. პრობლემების მოგვარება მოდების დაყენებისას, რომლებიც არ უჭერენ მხარს რუსულ ენას
დავიწყოთ მაშინვე მთავარი სკრიპტის კოდით:
#!/usr/bin/perl
# which-forum.pl სკრიპტი
# (გ) 2010 ალექსანდრე ალექსეევი, http://site/
მკაცრი გამოყენება;
# კომენტარის სტრიქონი - სიმკაცრისთვის
# თუ ამოცანაა ძრავის სტატისტიკის შეგროვება, დატოვეთ როგორც არის
# თუ შექმნით ფორუმების ჩამონათვალს - გააუქმეთ კომენტარი
ჩემი $მონაცემები;
$data .= $_while (<>
)
;
# შეამოწმეთ რამდენი იყო პროგრამული უზრუნველყოფა phpBB-ის მიერ ქვედაბოლოში ბმულის გარეშე ამ და პოსტში ნახსენებ სხვა სკრიპტებს ნახავთ ამ არქივში. სკრიპტი which-forum.plიკვლევს HTML გვერდის კოდს, რათა ნახოს, შეიცავს თუ არა ის ფორუმის ძრავის ხელმოწერებს. ჩვენ გამოვიყენეთ მსგავსი ტექნიკა WordPress-ისა და Joomla-ს განსაზღვრისას, მაგრამ არსებობს რამდენიმე განსხვავება. ჯერ ერთი, თავად სკრიპტი არ იტვირთება გვერდის კოდს, არამედ კითხულობს მას stdin-დან ან არგუმენტად გადაცემული ფაილიდან. ეს საშუალებას გაძლევთ ჩამოტვირთოთ გვერდი ერთხელ, მაგალითად, wget-ის გამოყენებით და შემდეგ გაუშვათ იგი რამდენიმე ანალიზატორის საშუალებით, თუ ჩვენ გვაქვს ერთზე მეტი. მეორეც, ამ სკრიპტში ხელმოწერის არსებობა 100% ძრავის ნიშანია. ბოლო დროს, ხელმოწერის არსებობამ მხოლოდ წონა დაამატა შესაბამის ძრავას და ყველაზე დიდი წონის ძრავმა „მოიგო“. მე გადავწყვიტე, რომ ამ შემთხვევაში, ასეთი მიდგომა მხოლოდ ზედმეტად გაართულებდა კოდს. სცენარის შესამოწმებლად ჩავატარე კვლევა. მე შევადგინე რამდენიმე ათასი ფორუმის სია და გავატარე თითოეული მათგანი ჩემი სკრიპტის საშუალებით, რითაც განვსაზღვრე პროგრამის პასუხების პროცენტი და სხვადასხვა ძრავების პოპულარობა. ფორუმების სიის მისაღებად გამოვიყენე ჩემი Google პარსერი. მსგავსი მოთხოვნები გაიგზავნა საძიებო სისტემაში საიტი:forum.*.ru და ასე შემდეგ. თქვენ იპოვით შეკითხვის გენერატორის სრულ კოდს ფაილში gen-forumsearch-urls.pl. გარდა zone.ru-სა, ასევე გამოიყენებოდა .su .ua .kz და .by. ბოლო დროს რთული იყო ასეთი კვლევის ჩატარება, ვინაიდან WordPress-ისა და Joomla-ს საიტებს არ აქვთ ასეთი ხელმოწერები URL-ში. კატალოგები, როგორიცაა cmsmagazine.ru/catalogue/ არ იძლევა ნიმუშის საკმარის ზომას. რა არის 600 დრუპალის საიტი? უნდა ვაღიარო, რომ ექსპერიმენტის შედეგებმა იმედი გამიცრუა. შესწავლილი 12,590 ადგილიდან, ძრავა წარმატებით იქნა იდენტიფიცირებული მხოლოდ 7,083-ზე, ანუ მხოლოდ 56% შემთხვევაში. იქნებ რაიმე ძრავა არ გავითვალისწინე? მართლა ასე იყო, რომ ფორუმების ნახევარს დაყენებული ჰქონდა Bitrix? ან მეტი დრო უნდა დამეხარჯა ხელმოწერების ძებნაში? ზოგადად, აქ დამატებითი კვლევაა საჭირო. წარმატებით იდენტიფიცირებული ძრავების 56%-ს შორის, ყველაზე პოპულარული, როგორც მოსალოდნელი იყო, იყო IPB (31%), phpBB (26.6%) და vBulletin (26.5%). მათ დიდი ჩამორჩენით მოსდევს SMF (5.8%) და DLEForum (5.3%). ჩემი საყვარელი punBB მხოლოდ მე-6 ადგილზე იყო (1.64%). მე არ გირჩევდი ამ რიცხვებისადმი დიდ რწმენას (ისინი ამბობენ, რომ RuNet-ზე ყოველი მესამე ფორუმი მუშაობს IPB-ზე), მაგრამ გარკვეული დასკვნების გაკეთება, რა თქმა უნდა, შეიძლება. მაგალითად, თუ თქვენ აპირებთ საიტის შექმნას ფორუმის ძრავზე და გეგმავთ ფორუმის შეცვლას, ვთქვათ, გადაიხადოთ მომხმარებლებს 0,01 დოლარი ყოველი გზავნილისთვის თანხის ავტომატური გამოტანით კვირაში ერთხელ, მაშინ უნდა აირჩიოთ სამი ყველაზე პოპულარული ძრავიდან ერთ-ერთი. რაც უფრო პოპულარულია ფორუმი, მით მეტია მასში კარგად მცოდნე პროგრამისტის პოვნის შანსი. თუ ძრავში მნიშვნელოვანი ცვლილებები არ არის მოსალოდნელი, მაშინ შეიძლება აზრი ჰქონდეს ნაკლებად პოპულარული ძრავის არჩევას, მაგალითად SMF ან punBB. ეს შეამცირებს თქვენს ფორუმზე ჰაკერების შეტევების რაოდენობას და მასზე ავტომატურად გაგზავნილ სპამის რაოდენობას. ფორუმების ძიების/იდენტიფიკაციის სკრიპტებს ასევე შეუძლიათ მრავალი პრაქტიკული აპლიკაციის პოვნა. პირველი რაც გამახსენდა იყო იდენტიფიცირებული ფორუმების დალაგება TIC-ის მიხედვით და პირველი ასი პოსტის გამოქვეყნება ჩემი ერთ-ერთი საიტის ბმულით. თუმცა, ასობით ფორუმის dofollow ბმულმა არანაირად არ იმოქმედა TCI-ზე (2 განახლება გავიდა), ამიტომ ჯობია აქ დრო არ დაკარგოთ, თუ არ გაინტერესებთ გადასვლები. ნათელია, რომ სკრიპტების აღნიშნული გამოყენება შორს არის ერთადერთისგან. ვფიქრობ, თქვენ შეგიძლიათ მარტივად გაერკვნენ, თუ როგორ შეგიძლიათ გამოიყენოთ ისინი. ორგანიზებული Botmaster Labs-ის მიერ, არ არის დაგეგმილი. დრო არ მაქვს, ვიდეო საჭიროა კონკურსისთვის, როგორც ახალი ტრენდი, თუმცა ყველაფერი უფრო მარტივად აიხსნება კარგი სკრინშოტებით (ჩემი IMHO) და არაფრის გადაღება ნამდვილად არ მინდა. ძალიან ცოტა მომგებიანი თემაა დარჩენილი, სულელური სპამი საერთოდ აღარ მართავს, აქ უნდა იფიქრო და თემებს არავინ გადაიღებს, თუ არ ცდილობ მოძველებულებს ლამაზ შეფუთვაში მოათავსო და ცოტა დაფხვნილი. :) მაგრამ ეს ჩვენზე არ არის. ზოგადად, ეს 3 „არა“, ვფიქრობ, ძირითადად პოტენციური მონაწილეების უმრავლესობისთვის გახდა კონკურსში მონაწილეობის ბარიერი. ეს სამიდან მანქანის შეკეთებას ჰგავს: იაფი, ხარისხიანი, სწრაფი - სერვისს შეუძლია ერთდროულად მხოლოდ 2 პირობის შესრულება. დაჯექი და აირჩიე ის, რაც შენთან უფრო ახლოსაა. :) კონკურსზეც ასეა: დრო მაქვს, ვიდეოს გადაღება ვიცი, მაგრამ თემა არ არის, ან ვიცი ვიდეოს გადაღება, არის თემა, მაგრამ დრო არ მაქვს ყველა, ან თავისუფალი დრო მაქვს და არის პატარა თემა, მაგრამ ვიდეო საშინელია. მაგრამ ეს კარგია, თუ 2 პირობა დაკმაყოფილებულია ერთდროულად. კარგი, მოდით, გადავაგდოთ ლექსები. საკუთარ თავს გავაგრძელებ. არ დავგეგმე, რაც ნიშნავს, რომ კონკურსში მივიღე მონაწილეობა, ავირჩიე კიდეც რომელ სტატიას მივცემდი ხმას. რაც არ უნდა თქვათ, დოზმა ძალიან კარგად იცის პროგრამული უზრუნველყოფა და იცის როგორ გამოიყენოს იგი ძალიან ჭკვიანურად. მაგრამ დღეს გავიგე, რომ კონკურსში ინტრიგა გამოჩნდა. გამოდის, რომ მე ვერ ვიღებ ხმას და ამას მხოლოდ ახალბედები შეძლებენ, რომლებმაც 2011 წელს შეიძინეს პროგრამა, და კონკურსი მათთვის არის განკუთვნილი. ცოტა გამიკვირდა, მაგრამ პატრონი ჯენტლმენია. კონკურსი სარეკლამო კამპანიაა და ალექსანდრემ უკეთ იცის როგორ განახორციელოს იგი. ზოგადად, მე გადავწყვიტე სტატიის განთავსება, როდესაც ცხადია, ვისთვის, მთელი კოლმეურნეობისთვის, ამის გაკეთება შეუძლებელია. უზრუნველყოფილია php-Fusion-ის მიერ Khroomer 7.07 ვერსიაში, პროგრამა ივარჯიშება რამდენიმე ახალ ძრავზე: forumi.biz, forumb.biz, 1forum.biz, 7forum.biz და ა.შ. phpBB-fr.com, Solaris phpBB თემა ახლის სწავლის პროცესი კი უწყვეტია. "იმუშავებს SMF 1.1.2-ით" "იმუშავებს SMF 1.1.3-ით" "იმუშავებს SMF 1.1 RC2" "იმუშავებს SMF 1.1.4-ით" "იმუშავებს SMF 1.1.8-ით" "იმუშავებს SMF 1.1.7" "2006-2008, შპს "სიმპლ მაინსი" და ეს ყველაფერი არ არის. ძრავის ვერსიების შეგროვებისას, ზოგიერთ SMF ფორუმზე ვპოულობთ წარწერას "2001-2006, Lewis Media". ჩვენ ვამოწმებთ ამ მოთხოვნას, ისიც სრულად გვაკმაყოფილებს. მსგავს მოთხოვნას ვხვდებით: „2001-2005, Lewis Media“. ქვედა კოლონტიტულის შემდგომი გადახედვისას ვპოულობთ შემდეგ მოთხოვნას: „SMFone დიზაინი A.M.A-ს მიერ, პორტირებული SMF 1.1-ზე“. ჩვენ ვამოწმებთ - შესანიშნავია. Და ასე შემდეგ. ნახევარი საათის მუშაობა და თქვენ გაქვთ ძრავის მოთხოვნების მშვენიერი მონაცემთა ბაზა და Google ამ შეკითხვებზე გაცილებით იშვიათად აგიკრძალავთ, ვიდრე მათში ოპერატორებს იყენებთ. და ამავდროულად, თქვენი მონაცემთა ბაზა ბევრად უფრო სუფთა იქნება, ვიდრე იყენებთ შეკითხვებს, როგორიცაა „index.php?topic=", რადგან აქ Google მოგცემთ არა მხოლოდ ჩვენთვის საჭირო ფორუმებს, არამედ ბევრ მემარცხენე რესურსს, სადაც ეს შესაძლებელი იყო. დატოვე ფორუმის თემის ბმული. შეიძლება გააპროტესტოთ, რა არის ამაში ცუდი? სხვებმა დატოვეს ბმული, ასე რომ ჩვენც შეგვიძლია. მაგრამ! ბმულები შეიძლება დატოვოს არა მხოლოდ Khrumer-მა, არამედ სხვა პროგრამებმაც. უფრო მეტიც, ისინი შეიძლება სპეციალურად იყოს მორგებული გარკვეული რესურსის შესახებ კომენტარების დასატოვებლად, ეგრეთ წოდებული მაღალ სპეციალიზებული პროგრამული უზრუნველყოფის შესახებ, პლუს ასეთი ბმულების დატოვება შესაძლებელია ხელით. კიდევ ერთხელ ვიმეორებ, ჩვენთვის მნიშვნელოვანია არა ნაგვის რაოდენობა, არამედ ხარისხი, ჩვენ შევაგროვებთ მონაცემთა ბაზას სწორი მოთხოვნით. ამ მეთოდის უპირატესობა ის არის, რომ კონფიგურაცია პრაქტიკულად არ დაგჭირდებათ sieve - ფილტრი
伟哥 - ვიაგრა 吉他 - გიტარა 其他 - დასვენება 保险公司 - დაზღვევა ჩასვით ეს შემცვლელი კოდები Words ფაილში: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 თუ სადაზღვევო ვებსაიტს უწევთ პოპულარიზაციას, მაშინ თქვენს პროფილში ბმულის განთავსებით თემატურ (!) თუნდაც ჩინურ ფორუმზე მოთხოვნით ნაპოვნი " SMF ფორუმი" 保险公司ძალიან კარგი იქნება.
დაბეჭდეთ "phpbb \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/iან
# $data =~ /viewforum\.php\?[^""]*f=\d+/i ან
$data =~ /phpBB\-SEO/i ან
$data =~ /)
;
ბეჭდვა "ipb \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
ან
$data =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/iან
$data =~ /
$data =~ /index\.php\?[^""]*showforum=\d+/i)
;
ბეჭდვა "vbulletin \n"
თუ ($data =~ /მხარდაჭერით:?[^<]+vBulletin[^<]+(?:Version)?/i
ან
$data =~ /)
;
ბეჭდვა "smf \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>მხარდაჭერით SMF/iან
$data =~ /index\.php\?[^""]*board=\d+\.0/i)
;
ბეჭდვა "punbb \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*> PunBB/i) ; #ან
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
ბეჭდვა "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i ან
თუ ($მონაცემები =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
ბეჭდვა "exbb \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ; # ან
# $data =~ /forums\.php\?[^""]*forum=\d+/i);
ბეჭდვა "yabb \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/iან
$data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
ბეჭდვა "dleforum \n"
თუ ($data =~ /\(მოწყობილია DLE ფორუმის მიერ\)<\/title>/მეან
$data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=საავტორო უფლება)[^"]*">DLE ფორუმი<\/a>/მე)
;
ბეჭდვა "ikonboard \n"
თუ ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/iან
$data =~ /\n"
თუ ($data =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i ან
# $data =~ /topic\.php\?fid=\d+/i ან
თუ ($data =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
ბეჭდვა "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i ან
თუ ($data =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
ბეჭდვა "პოდიუმი \n"
# if($data =~ /topic\.php\?t=\d+/i ან
თუ ($data =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>პოდიუმი/i)
;
ბეჭდვა "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i ან
თუ ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
ბეჭდვა "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i ან
თუ ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-ფორუმი/i)
;
ბეჭდვა "yetanotherforumnet \n"
თუ ($data =~ /კიდევ ერთი ფორუმი\.net/i ან
$data =~ /default\.aspx\?g=posts&t=\d+/i)
;
საიტი:talk.*.ru
საიტი:board.*.ru
საიტი: smf.*.ru
საიტი: phpbb.*.ru
....
გრძელი შესავალი დასრულდა, ახლა საქმეზე.
რა სჭირდება დამწყებს, როდესაც მან შეიძინა ასეთი სუპერკომბინატი, რომელიც არის Xrumer + Hrefer კომპლექსი? ასეა, ისწავლეთ როგორ იმუშაოთ მასზე და გააუქმეთ ილუზია, რომ ფულის გამომუშავება შეგიძლიათ სპამის ფურცლების დაწყებით. თუ ასე ფიქრობთ, მაშინვე სჯობს თქვენი ფული ქველმოქმედებას გაწიოთ. თქვენ უნდა ისწავლოთ კომპლექსის ხელსაწყოების გამოყენება, სასურველია საკუთარი თავის სიმკვეთრე. „აიღე მეტი - გადაყარე“ დრო წავიდა. რაოდენობა ხარისხს უთმობს ადგილს. ეს ნიშნავს, რომ ჩვენ შევქმნით ბაზას, თუ თქვენ არ ისწავლით ამის გაკეთებას, თქვენ ჩამორჩებით მატარებელს. ამაში ბუნებრივია ხრეფერი დაგვეხმარება. თუ თქვენ გეგმავთ თქვენი რესურსების პოპულარიზაციას Google-ში, მაშინ ჩვენ ასევე უნდა მოვიძიოთ დონორთა საიტები Google-ის მეშვეობით. ვფიქრობ, ეს გასაგები და ლოგიკურია. მაგრამ Google, ისევე როგორც სპილენძის მთის ბედია, თავის სიმდიდრეს ყველას არ უთმობს. თქვენ გჭირდებათ მიდგომა მის მიმართ. დაუყოვნებლივ მინდა ვთქვა, რომ არ გქონდეთ იმედი, რომ იმ ნიშნების საფუძველზე, რომლებიც საზოგადოებაში აღმოაჩენთ, შეძლებთ რაიმეს შეგროვებას. მიზეზი, რის გამოც ისინი ხელმისაწვდომია საჯაროდ, არის ის, რომ ისინი უსარგებლოა. თემას აღარ განვავითარებ. ჯობია გითხრათ როგორ სწორად ააწყოთ, რომ შედეგს ნახოთ, დანარჩენი თავად შეიმუშაოთ, მთავარია პრინციპის გაგება. ჩვენ უნდა შევაგროვოთ სწორი, ჩვენთვის საჭირო კონკრეტული ძრავების მახასიათებლების საფუძველზე და არა ზოგადად ფორუმის მახასიათებლების მიხედვით. ეს არის დამწყებთათვის მთავარი შეცდომა - არ არის კონცენტრირებული კონკრეტულ რამეზე, არამედ ცდილობს ყველაფერი მთლიანად დაფაროს. ასევე, თუ გსურთ მეტ-ნაკლებად ნორმალური მონაცემთა ბაზის გაანალიზება, შეწყვიტეთ ოპერატორების გამოყენება შეკითხვებში. არ არის "inurl:", "site:", "title" და ა.შ. Google მყისიერად აუკრძალავს თქვენნაირ მაძიებლებს. ამიტომ, ჩვენ გულდასმით ვსწავლობთ ძრავებს, რომლებთანაც ამჟამად მუშაობს Khrumer:
ზოგადად, ჩვენ უნდა მოვამზადოთ სწორი მოთხოვნები Hrefer-ის ანალიზებისთვის. მაგალითისთვის ავიღოთ ფორუმი დიჟოკი. SMF ფორუმები. და დავიწყოთ მისი დაშლა სათადარიგო ნაწილებად პარსინგისთვის. ამაში ჩვენი საყვარელი Google დაგვეხმარება. შეიყვანეთ მოთხოვნა Google-ში SMF ფორუმები- ძიების შედეგებში ბევრი ნაგავია, გადავხვევთ მე-13 გვერდზე და ვირჩევთ ნებისმიერ ბმულს. მე წავაწყდი ამას: http://www.volcanohost.com/forum/index.php?topic=11.0. გავხსნათ და შევისწავლოთ. ჩვენ უნდა ვიპოვოთ რაიმე დამახასიათებელი გვერდზე, რომელიც შეიძლება გამოყენებულ იქნას ამ ძრავის სხვა გვერდების ძიებაში. ბოლოში ვამჩნევთ შემდეგ წარწერას უზრუნველყოფილია SMF 1.1.14-ით, ციტირება და შეყვანა Google-ში, ის გვაჩვენებს, რომ ამ მოთხოვნისთვის მან იცის დაახლოებით 59 მილიონი ვარიანტი. ჩვენ სწრაფად გადავხედავთ ბმულებს, ვამატებთ კიდევ რამდენიმე ვარიანტს ამ საკვანძო სიტყვას, მაგალითად, "იმუშავებს SMF 1.1.14" ვერხვიან "მხარდაჭერილია SMF 1.1.14" viagra. ჩვენ დარწმუნებული ვართ, რომ მოთხოვნა დიდია, შედეგები მხოლოდ ფორუმებია და თითქმის არ არის ნაგავი.
გარდა ამისა, ჩვენ გვაინტერესებს არა რაოდენობა, არამედ ხარისხი, როგორც ზემოთ ვთქვი. Განაგრძე. ამავე ფორუმიდან ვიღებთ კიდევ ერთ ფრაზას ქვედა კოლონტიტულიდან: , ჩვენ ასევე ციტირებთ და ვაწვდით Google-ს. საპასუხოდ ის ცხადყოფს, რომ 13 მილიონზე მეტი შედეგი იცის. ისევ სწრაფად ვათვალიერებთ შედეგებს, ვამატებთ დამატებით სიტყვებს და მათთან ერთად ვამოწმებთ შედეგებს. ჩვენ ვზრუნავთ, რომ მოთხოვნა შესანიშნავია და ასევე თითქმის არ არის ნაგავი. ზოგადად, უკვე 2 რკინის მოთხოვნაა. მე ვთავაზობ, რომ ჯერ მარტო დავტოვოთ პირველი ფორუმი და გავაგრძელოთ მოთხოვნების შეგროვება სხვა ფორუმებიდან. საბედნიეროდ, ჩვენ გვაქვს Google ღია მოთხოვნის შესაბამისად. 2006-2008 წწ., შპს „სიმპლ მაინსი“.. ძიების შედეგებიდან ვიღებთ, მაგალითად, ამ ფორუმებს: http://www.snowlinks.ru/forum/index.php?topic=1062.0 და http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 ქვედა კოლონტიტებში ჩვენ ვიღებთ მათგან შემდეგ შეკითხვებს: "Powered by SMF 1.1.7" და "Powered by SMF 1.1.10" (მე ყოველთვის გირჩევთ შეიყვანოთ შეკითხვები Hrefer-ისთვის ბრჭყალებში, რადგან პირველ რიგში ხარისხი გვჭირდება. ყველა). ვფიქრობ, გასაგებია რას ვაკეთებთ, საბოლოოდ გვექნება SMF ძრავზე ფორუმების საძიებლად მოთხოვნების გარკვეული მონაცემთა ბაზა (ის აირჩიეს მაგალითად, იგივე სხვა ძრავებთან ერთად).
ეს დაახლოებით ასე გამოიყურება:
მე ვფიქრობ, რომ საწყის ეტაპზე ჰრუმერის სწორად გამოყენების სწავლა ძალიან მნიშვნელოვანია, რადგან როგორც კი ამას ისწავლი, ყოველთვის შეგიძლია იპოვო ჰრუმერის გამოყენება, როგორიც არ უნდა შეიცვალოს სიტუაცია. დაცვა უფრო რთული ხდება და თუ ზოგიერთ ტიპის ძრავებზე დაცვა გაძლიერდა და ქრომერი ამ მომენტში ვერ უმკლავდება მას, მაშინ აზრი არ აქვს რესურსების დახარჯვას ამ ბმულების შეგროვებაზე და შემდეგ მათზე მუშაობა Khroomer-თან. უკეთესია ძალების კონცენტრირება იმაზე, რაც იძლევა შედეგს. და ამავდროულად, თუ Botmaster Labs-ის გუნდმა ასწავლა Khroomer-ს რაიმე ახალი, თქვენ შეგიძლიათ სწრაფად გამოაყოთ ახალი პაციენტი და მოამზადოთ ბაზა ხრუმერისთვის, სანამ პაციენტი ჯერ კიდევ თბილია. დრო ფულია; რესურსი შეიძლება აღარ იყოს აქტუალური ბაზის შეძენისას. ვიღაცის მიერ შეგროვებული. გარდა ამისა, საკუთარი თავისთვის ბაზების სწორი შეგროვება მნიშვნელოვნად აფართოებს ხრუმერის „თეთრ“ გამოყენებას. და სწორედ აქ მოძრაობს ყველაფერი, მოგვწონს თუ არა და მიმდინარეობს გათეთრების ან გათეთრების პროცესი. შავი ფურცლები ყველანაირად წარსულს ჩაბარდება.
Hrefer-თან მუშაობის ყველა სხვა ტექნიკური ასპექტი შეგიძლიათ იხილოთ დახმარებაში და აზრი არ აქვს მათზე ფიქრს, ყველა მიზანი, ქულა, წამი დაყენებულია ექსპერიმენტულად თითოეული მანქანისთვის.
ბონუსად, აქ დავდებ შაბლონს ჩინური საძიებო სისტემის Baidu-ს გასაანალიზებლად, წინა დღეს მკითხეს ამის შესახებ, ასე რომ მე ეს შემთხვევით გავაკეთე, მაპატიეთ სიტყვა. :)
მასპინძლის სახელი=http://www.baidu.com
შეკითხვა=s?wd=
LinksMask=
სულ გვერდები=100
შემდეგი გვერდი =
შემდეგი გვერდი2=
CaptchaURL=
CaptchaImage=
CaptchaField=
ვცადე მათი გაანალიზება, არ იყო აკრძალვა, ხრეფერმა სწრაფად შეაგროვა რესურსები, პარსინგის ყველა მოთხოვნა იყო Google-ის მსგავსი, მაგრამ იყო ბევრი ჩინური რესურსი, მაღალი პიარით და გარდა ამისა, იყო ბევრი ადგილი, სადაც არა ევროპელს ოდესმე ფეხი დაუდგამს. უკეთესია ჩინური მოთხოვნების გაანალიზება. Google translate დაგეხმარებათ ამაში, ჩაწერეთ საკვანძო სიტყვების სია რუსულ ენაზე და გადათარგმნეთ იგი ჩინურად. სიმართლე " სიტყვები„Herfer სიტყვების დამატება ჩინურ ენაზე შეუძლებელია, საჭიროა მათი ხელახალი კოდირება.
ჩინურის ნაცვლად:
დასასრულს, მინდა ვთქვა, რომ არასოდეს მესმოდა ადამიანები, რომლებიც ჩიოდნენ, რომ ხრეფერები ცუდად ან ცუდად იყო მოხარშული, ყოველთვის მინდოდა მეთქვა, უბრალოდ არ იცი მათი მომზადება. ვერცერთი პარსერი ვერ შეაგროვებს შედეგებს, ვიდრე რეფერირება, უბრალოდ უნდა იყოს სწორი. Hrefer არის მანქანა: კარგი, სოლიდური, გერმანული, მაგრამ მას მართავს ადამიანი და ეს ყველაფერი დამოკიდებულია იმაზე, თუ რამდენად კარგად ატარებს მანქანას ერთდროულად მარჯვნივ და მარცხნივ.
ცალკე თემაა მონაცემთა ბაზების გაწმენდა, ეს ერთხელ გავაკეთე 3 წლის წინ წინა კონკურსზე. უმეტესწილად, იქ ყველაფერი ჯერ კიდევ აქტუალურია, მაგრამ ახლა შეგიძლიათ უარი თქვათ 200 OK-ის შემოწმებაზე, მე ნამდვილად არ მომეწონა ეს პროცესი, იყო ძალიან დიდი შეცდომები, გაფილტრული იყო ბევრი არასაჭირო რამ. ახლა ეს შეიძლება გაკეთდეს თითქმის ავტომატურად ხრუმერის მუშაობის დროს, თუმცა ეს პროცესი არ არის "200 OK"-ის შემოწმების სრული ანალოგი. ყოველ შემთხვევაში, საქმეზე: არც ისე დიდი ხნის წინ, ხრუმერში გაჩნდა შესანიშნავი შესაძლებლობა - პროექტის განხორციელების დროს რესურსებიდან ინფორმაციის მოპარვა. ეს ასე გამოიყურება. თქვენ შეიყვანთ შაბლონს, რომელიც დამუშავდება ოპერაციის დროს და შაბლონიდან შეგროვებული ინფორმაცია შეიტანება xgrabbed.txt ფაილში Logs საქაღალდეში. თქვენ შეგიძლიათ გამოიყენოთ ეს ფუნქცია არაფერში, ფანტაზიის ფრენა უზარმაზარია. ამ ფუნქციას კვირაში ერთხელ ვიყენებ ჩემი სამუშაო "ვადაგასული" ბაზიდან ბმულების ამოსაღებად. საიდუმლო არ არის, რომ ფორუმები ყოველდღიურად იღუპება, რათა ჩვენი მონაცემთა ბაზა გასუფთავდეს ასეთი რესურსებისგან და ამ საქმეში დაგვეხმარება “Autograbbing” ინსტრუმენტი.
ბოლოს და ბოლოს, უნდა აღიაროთ, რომ როდესაც ხშირად ვწერთ, მაგალითად, http://www.laptopace.com/index.php, ვხედავთ, რომ ეს დომენი უკვე, მაგალითად, კარგი ბიჭია, რომელიც ფულს ყიდის, მაგრამ არ არსებობს. ფორუმი იქ. ასე რომ, ამ წიდას ძირიდან რომ გადავყაროთ, გავძარცავთ. :) გახსენით გვერდის საწყისი კოდი და იხილეთ ეს ჩანაწერი იქ:
ახლა გუდადის ყველა "მკვდარი კაცი" ჩვენთვის სახელით გახდება ცნობილი.
აქ არის Autograbbing ინსტრუმენტის მცირე არჩევანი, თუ გსურთ მონაცემთა ბაზის გასუფთავება სხვადასხვა „ვადაგასული“ დომენებისგან:
- კითხვაზე პასუხის გასაცემად გამოყენებული იქნა შემდეგი დოკუმენტები და სამართლებრივი აქტები:...
- მაგარი ხმის ბარათის არჩევა