文章出處

在開發項目的過程,很多情況下我們需要利用互聯網上的一些數據,在這種情況下,我們可能要寫一個爬蟲來爬我們所需要的數據。一般情況下都是利用正則表達式來匹配Html,獲取我們所需要的數據。一般情況下分以下三步:
1、獲取網頁的html
2、利用正則表達式,獲取我們所需要的數據
3、分析,使用獲取到的數據,(例如,保存到數據庫)

接下來我們分析代碼:
1、獲取網頁的html
  對于一些網頁,不需要提交Post提交數據時,我們可以簡單的利用NSURL類來獲取我們所需要的html,交將其轉換中kCFStringEncodingGB_18030_2000格式,解決中文亂碼問題。

+(NSString*) urlstring:(NSString*)strurl{
    NSURL *url = [NSURL URLWithString:strurl];
    NSData *data = [NSData dataWithContentsOfURL:url];

    NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000); 
    NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];

    //NSLog(@" html = %@",retStr);

    return retStr;
  }

  對于需要Post提交數據的網頁,我們可以利用強大的ASIFormDataRequest類來實現,例如:

+(void)getPostResult:(NSString*)startqi{
ASIFormDataRequest *request = [[ASIFormDataRequest alloc] initWithURL:[NSURL URLWithString:URLPost]];
  
[request setPostValue:startqi forKey:@"startqi"];
[request setPostValue:@"20990101001" forKey:@"endqi"];
[request setPostValue:@"qihao" forKey:@"searchType"];//網頁的中的搜索方式
[request startSynchronous];

NSData* data = [request responseData];

if (data==nil) {
FCLOG(@"has not data");
}
else{
NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000); 
NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];
FCLOG(@"html = %@",retStr); 
}
}

這樣的話,我們就通過了兩種方式獲取了我們所需要的html

2、分析html
  關于利用正則表達式匹配問題,我又對NSString類擴展了一個方法-(NSMutableArray *)substringByRegular:(NSString *)regular。根據傳入的正則表達式,返回所有匹配的數組。

  @implementation NSString(StringRegular)


-(NSMutableArray *)substringByRegular:(NSString *)regular{

  NSString * reg=regular;

NSRange r= [self rangeOfString:reg options:NSRegularExpressionSearch];

NSMutableArray *arr=[NSMutableArray array];

if (r.length != NSNotFound &&r.length != 0) {

int i=0;

while (r.length != NSNotFound &&r.length != 0) {

FCLOG(@"index = %i regIndex = %d loc = %d",(++i),r.length,r.location);

NSString* substr = [self substringWithRange:r];

FCLOG(@"substr = %@",substr);

[arr addObject:substr];

NSRange startr=NSMakeRange(r.location+r.length, [self length]-r.location-r.length);

r=[self rangeOfString:reg options:NSRegularExpressionSearch range:startr];
}
}
return arr;
}
@end

  在這種情況下,我們首先我得到我們要獲取數據的正則表達式,關于正則表達式這種火星文我就不多說了,我也很糾結,我就不多說了,但是有一點就是,所寫的正則表達式一定是我們所需要的數據,并且能夠屏蔽無效信息的,有可能在一次匹配中無法獲取,可以多次利用正則表達式來分段獲取。下面是我的語句,在我的例子中,就是兩次利用正則表達式。

NSString *regstr = @"<td class=\'z_bg_05\'>\\w{11}</td><td class=\'z_bg_13\'>(\\w{2}\\s{0,1})*</td>";
NSMutableArray *arr=[strhtml substringByRegular:regstr];

3、分析或利用數據,在這里,我只是利用上一篇博客上所述方法簡單的把這些數據保存到了數據庫(sqlite3)中。
  其實在這個arr數組中一條就是對應我數據庫表中的一條記錄,但是像td class等這些信息我是不需要的,所以再次利用正則表達式來分析NSString

if (arr!=nil&&[arr count]>0) {

NSString *prereg=@"\\w{11}";
NSString *backreg=@"(\\w{2}\\s{0,1}){8}";

TicketResultService *service=[[TicketResultService alloc] init];
[[Sqlite3Helper Instance] openDB];
for (NSString *sub in arr) {

TicketResult* r=[[[TicketResult alloc] init] autorelease];

NSMutableArray* prearr=[sub substringByRegular:prereg];

if (prearr!=nil&&[prearr count]>0) {
r.sectionID=(NSString*)[prearr objectAtIndex:0];
}
else{
continue;
}

NSMutableArray *backarr=[sub substringByRegular:backreg];
if (backarr!=nil&&[backarr count]>0) {
r.result=[backarr objectAtIndex:0];
}
else{
continue;
}

if([service isExist:r.sectionID]){
continue;
}

r.type=[NSNumber numberWithInt:1];

[service addModel:r];

}
[[Sqlite3Helper Instance] closeDB];

[service release];
}

  以上爬蟲才算正式完成,其實,在此之前還有一個第0步,即判斷設備目前的網絡狀態,如果沒有聯網的就沒有必要去爬蟲了,因為你也爬不到任何的數據。判斷網絡狀態我是利用Apple官方的一個例子Reachability,網上也有很多關于這個的例子,我就不再細說了,非常感謝網上的各位大牛們提供的很好的辦法,讓我能更快的寫出這些。

 

本博主有mac os用的正則表達式檢測工具以及源碼(即reginald正則檢查工具以及源碼),需要的可以給我留言/評論

文章列表


不含病毒。www.avast.com
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 大師兄 的頭像
    大師兄

    IT工程師數位筆記本

    大師兄 發表在 痞客邦 留言(0) 人氣()