c语言爬虫不调库_如何优雅地使用c语言编写爬虫

① c语言如何在不调用库函数下完成字符串的大小比较

char型可以直接比较大小，就和int型一样。然后再按照strcmp()函数的算法自行写一个功能一样的函数即可。

② 为什么c语言不适合写爬虫

c语言不适合写爬虫是因为，C语言本质上是需要发请求加html解析的，所以可用的开源库相比较于Python来说就会少很多，如果不使用开源库而自己发请求，加上自己来解析，那就是一个特别浩瀚庞大的工程，因此最好不要用c语言来写爬虫。这里所说的爬虫，其实原理了来说就是发送HTTP请求加上解析html页面，从而能够获取页面上的一些目标数据。任何的一个编程语言理论上来说都是能够写爬虫的，不过写起来可用的库或者是难易程度方面是有很大的差异的，用python可以使用别人已经封装好的爬虫框架，这样就便捷多了。

C语言和 Python 是编程语言界的两个极端，从不同的语言入手学习，就是选择了两条不同的学习路径。C语言执行效率极高，堪比汇编语言；Python 执行效率极低，而且没法提速。Python 模块非常丰富，大部分常用功能都可以找到对应的模块，而且很有可能不止一个；C语言基本没有什么模块，想要什么都得自己开发，或者把别人写好的代码拿过来改改。

③ 怎么在DOS下用C语言写网络爬虫

获取cspider_t。
自定义user agent，cookie，timeout，proxy以及抓取线程和解析线程的最大数量。
添加初始要抓取的url到任务队列。
编写解析函数和数据持久化函数。
启动爬虫。

例子

先来看下简单的爬虫例子，会在后面详细讲解例子。

#include<cspider/spider.h>

自定义的解析函数，d为获取到的html页面字符串

void p(cspider_t *cspider, char *d, void *user_data) {

char *get[100];

//xpath解析html

int size = xpath(d, "//body/div[@class='wrap']/div[@class='sort-column area']/div[@class='column-bd cfix']/ul[@class='st-list cfix']/li/strong/a", get， 100);

int i;

for (i = 0; i < size; i++) {

//将获取到的电影名称，持久化

saveString(cspider, get[i]);

}

}

数据持久化函数，对上面解析函数中调用的saveString()函数传入的数据，进行进一步的保存

void s(void *str, void *user_data) {

char *get = (char *)str;

FILE *file = (FILE*)user_data;

fprintf(file, "%s ", get);

return;

}

int main() {

//初始化spider

cspider_t *spider = init_cspider();

char *agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0";

//char *cookie = "bid=s3/yuH5Jd/I; ll=108288; viewed=1130500_24708145_6433169_4843567_1767120_5318823_1899158_1271597; __utma=30149280.927537245.1446813674.1446983217.1449139583.4; __utmz=30149280.1449139583.4.4.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/login; ps=y; [email protected]; dbcl2=58742090:QgZ2PSLiDLQ; ck=T9Wn; push_noty_num=0; push_doumail_num=7; ap=1; __utmb=30149280.0.10.1449139583; __utmc=30149280";

//设置要抓取页面的url

cs_setopt_url(spider, "so.tv.sohu.com/list_p1100_p20_p3_u5185_u5730_p40_p5_p6_p77_p80_p9_2d1_p101_p11.html");

//设置user agent

cs_setopt_useragent(spider, agent);

//cs_setopt_cookie(spider, cookie);

//传入解析函数和数据持久化函数的指针

cs_setopt_process(spider, p, NULL);

//s函数的user_data指针指向stdout

cs_setopt_save(spider, s, stdout);

//设置线程数量

cs_setopt_threadnum(spider, DOWNLOAD, 2);

cs_setopt_threadnum(spider, SAVE, 2);

//FILE *fp = fopen("log", "wb+");

//cs_setopt_logfile(spider, fp);

//开始爬虫

return cs_run(spider);

}

④ 我想用c编写一个爬虫程序，可是看完一本c语言教程后，还是觉得只会编写一些计算类的小代码，要学会编写

C++开发难度而言会大一些。你可以学学比如Python之类的，爬虫找到好用的库，没多久就能做好了。

⑤ c语言不用#怎么调用库函数或者不调用库函数怎么输出

C语言的输出，可以调用库函数printf，C语言自己是不带输出语句的。

⑥ 设计一个c语言算法，实现strcmp(s,t)功能。不能直接调用库函数。

int strcmp(char*s, char*t)
{
while(*s && *t){
if(*s>*t)return 1;
if(*s<*t)return -1;
s++;
t++;
}
if(*s)return 1;
if(*t)return -1;
return 0;
}

⑦ 可以一边学python爬虫一边学c语言吗

不建议这个学习规划。
建议先学习C语言，但不用学的很深。C语言是面向过程的，这思想适用于任何程序语言。
然后大致学习一下python的基础语法，再了解一下面向对象的编程思想。
最后再来学习爬虫，期间还需要了解html/js/css
当然这个属于系统的学习，可以深度的掌握爬虫技术。
如果你只是先爬一下简单的数据，使用度不高，那就无所谓，一些爬虫框架，其实就是配置一些简单的参数，使用节点提取函数，如果自学能力强，确实是很简单，可以直接学习。

⑧ 如何优雅地使用c语言编写爬虫

前言
大家在平时或多或少地都会有编写网络爬虫的需求。一般来说，编写爬虫的首选自然非python莫属，除此之外，java等语言也是不错的选择。选择上述语言的原因不仅仅在于它们均有非常不错的网络请求库和字符串处理库，还在于基于上述语言的爬虫框架非常之多和完善。良好的爬虫框架可以确保爬虫程序的稳定性，以及编写程序的便捷性。所以，这个cspider爬虫库的使命在于，我们能够使用c语言，依然能够优雅地编写爬虫程序。
爬虫的特性
配置方便。使用一句设置函数，即可定义user agent，cookie，timeout，proxy以及抓取线程和解析线程的最大数量。
程序逻辑独立。用户可以分别定义爬虫的解析函数，和数据持久化函数。并且对于解析到的新url，用户可以使用cspider提供的addUrl函数，将其加入到任务队列中。
便捷的字符串处理。cspider中提供了基于pcre的简单的正则表达式函数，基于libxml2的xpath解析函数，以及用于解析json的cJSON库。
高效的抓取。cspider基于libuv调度抓取线程和解析线程，使用curl作为其网络请求库。
使用cspider的步骤
获取cspider_t。
自定义user agent，cookie，timeout，proxy以及抓取线程和解析线程的最大数量。
添加初始要抓取的url到任务队列。
编写解析函数和数据持久化函数。
启动爬虫。
例子
先来看下简单的爬虫例子，会在后面详细讲解例子。
#include<cspider/spider.h>

/*
自定义的解析函数，d为获取到的html页面字符串
*/
void p(cspider_t *cspider, char *d, void *user_data) {

char *get[100];
//xpath解析html
int size = xpath(d, "//body/div[@class='wrap']/div[@class='sort-column area']/div[@class='column-bd cfix']/ul[@class='st-list cfix']/li/strong/a", get， 100);

int i;
for (i = 0; i < size; i++) {
//将获取到的电影名称，持久化
saveString(cspider, get[i]);
}

}
/*
数据持久化函数，对上面解析函数中调用的saveString()函数传入的数据，进行进一步的保存
*/
void s(void *str, void *user_data) {
char *get = (char *)str;
FILE *file = (FILE*)user_data;
fprintf(file, "%s\n", get);
return;
}

int main() {
//初始化spider
cspider_t *spider = init_cspider();
char *agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:42.0) Gecko/20100101 Firefox/42.0";
//char *cookie = "bid=s3/yuH5Jd/I; ll=108288; viewed=1130500_24708145_6433169_4843567_1767120_5318823_1899158_1271597; __utma=30149280.927537245.1446813674.1446983217.1449139583.4; __utmz=30149280.1449139583.4.4.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/login; ps=y; [email protected]; dbcl2=58742090:QgZ2PSLiDLQ; ck=T9Wn; push_noty_num=0; push_doumail_num=7; ap=1; __utmb=30149280.0.10.1449139583; __utmc=30149280";

//设置要抓取页面的url
cs_setopt_url(spider, "so.tv.sohu.com/list_p1100_p20_p3_u5185_u5730_p40_p5_p6_p77_p80_p9_2d1_p101_p11.html");
//设置user agent
cs_setopt_useragent(spider, agent);
//cs_setopt_cookie(spider, cookie);
//传入解析函数和数据持久化函数的指针
cs_setopt_process(spider, p, NULL);
//s函数的user_data指针指向stdout
cs_setopt_save(spider, s, stdout);
//设置线程数量
cs_setopt_threadnum(spider, DOWNLOAD, 2);
cs_setopt_threadnum(spider, SAVE, 2);
//FILE *fp = fopen("log", "wb+");
//cs_setopt_logfile(spider, fp);
//开始爬虫
return cs_run(spider);
}
例子讲解
cspider_t *spider = init_cspider();获取初始的cspider。cs_setopt_xxx这类函数可以用来进行初始化设置。其中要注意的是: cs_setopt_process(spider,p,NULL);与cs_setopt_save(spider,s,stdout);，它们分别设置了解析函数p和数据持久化函数s，这两个函数需要用户自己实现，还有用户自定义的指向上下文信息user_data的指针。
在解析函数中，用户要定义解析的规则，并对解析得到的字符串可以调用saveString进行持久化，或者是调用addUrl将url加入到任务队列中。在saveString中传入的字符串会在用户自定义的数据持久函数中得到处理。此时，用户可以选择输出到文件或数据库等。
最后调用cs_run(spider)即可启动爬虫。
具体的API参数可在这里查看
总结
赶快使用cspider爬虫框架来编写爬虫吧！如果在使用过程中发现bug，欢迎反馈。

望采纳，谢谢

⑨ 为什么c语言不适合写爬虫

开发效率低

⑩ 编写一个函数fun（）其功能为实现两个字符串的连接（不调用函数库） C语言

fun函数编写有些问题，做如下修改，修改说明在代码中给出：

voidfun(charp1[],charp2[])
{
inti=0,M=0,N=0;
while(p1[i++])
{
M++;
}
i=0;//重新初始化i为0，统计p2长度
while(p2[i++])
{
N++;
}
for(i=0;i<N;i++)//把p2拼接到p1后面，所以共有N个字符，循环N次
{
p1[i+M]=p2[i];
}
p1[M+N]='';
}

c语言爬虫不调库

与c语言爬虫不调库相关的内容